-
規則提取
鎖定
規則提取,這種技術是用可理解的規則集來補充黑匣子模型卓越的預測性能。這些方法有效的打開了黑匣子,提供了對黑匣子模型作用情況的深入洞察。它是建立在如下準則之上的:與深層的黑匣子模型相關的提取算法的透明度;所提取的規則或者樹的表達力;神經網絡的專門訓練方法;所提取規則的質量;提取算法的計算複雜性。可用五條準則來評估規則提取算法:可理解性、保真性、準確性、可伸縮性、通用性。
- 中文名
- 規則提取
- 外文名
- Rule extraction
- 入手點
- 黑匣子模型
- 優 點
- 能夠為更為複雜的關係建立模型
- 作 用
- 補充黑匣子模型卓越的預測性能
- 指導型算法
- C4.5、Trepan、G-REX
規則提取定義
從受訓模型上提取符號規則,可以為黑匣子模型添加可理解性。規則提取技術試圖打開黑匣子,生成可理解的符號描述,使之具有幾乎與模型本身一模一樣的預測力。用不可理解的黑匣子模型作為規則提取的入手點,比如支持向量機(SVM)或者神經網絡,其好處是它們能夠為更為複雜的關係建立模型。
規則提取分類準則
Andrew等(1995)提出了神經網絡規則提取技術的分類方法,它完全可以擴大到SVM上(Matens等,2007);它是建立在如下準則之上的:
(1)與深層的黑匣子模型相關的提取算法的透明度。
(2)所提取的規則或者樹的表達力。
(3)神經網絡的專門訓練方法。
(4)所提取規則的質量。
(5)提取算法的計算複雜性。
透明度準則考慮的是該技術對黑匣子模型的認知。分解法與黑匣子模型的內在機制緊密相關。而指導型算法則是把受訓模型看做黑匣子。這些算法不考察內在結構,而是直接提取與模型的輸入和輸出相關的規則。這些技術通常把受訓模型用作訓練樣本的標籤或者分類的評價器(人工生成),然後訓練樣本再被符號學習算法使用。這些技術背後的道理在於,它們假定受訓模型比初始數據集能夠更好地表示數據。也就是説,數據更為清潔,免於表面衝突的干擾。因為其模型被看做黑匣子,多數指導型算法都適合於從其他機器學習算法中提取規則。
[1]
所提取規則的表達力取決於用來表達規則的語言。文獻中提出了多種類型的規則,其中最主要的有命題規則、M-of-N規則和模糊規則。命題規則是如下形式的簡單含義:如果X=a,Y=b,那麼類=1.M-of-N規則[如果至少M-of-N條件(C1,C2,……,CN),那麼……]可以被用來表示複雜的分類概念。雖然它們的可理解性是遞減的,但是前提條件總是要麼真要麼假,而模糊規則不是這樣,模糊規則的例子是:如果X是低,Y是中,那麼類=1,低和中是具有對應隸屬函數的模糊集。它們具有更大的靈活性,通常用語言學概念表達,讓人易於給出解釋。然而,給出的解釋因人而異,很難做到客觀。
[1]
規則提取評估準則
一般來説,人們用五條準則來評估規則提取算法: