複製鏈接
請複製以下鏈接發送給好友

規則提取

鎖定
規則提取,這種技術是用可理解的規則集來補充黑匣子模型卓越的預測性能。這些方法有效的打開了黑匣子,提供了對黑匣子模型作用情況的深入洞察。它是建立在如下準則之上的:與深層的黑匣子模型相關的提取算法的透明度;所提取的規則或者樹的表達力;神經網絡的專門訓練方法;所提取規則的質量;提取算法的計算複雜性。可用五條準則來評估規則提取算法:可理解性、保真性、準確性、可伸縮性、通用性。
中文名
規則提取
外文名
Rule extraction
入手點
黑匣子模型
優    點
能夠為更為複雜的關係建立模型
作    用
補充黑匣子模型卓越的預測性能
指導型算法
C4.5、Trepan、G-REX

規則提取定義

規則提取,這種技術是用可理解的規則集來補充黑匣子模型卓越的預測性能。這些方法有效的打開了黑匣子,提供了對黑匣子模型作用情況的深入洞察。 [1] 
從受訓模型上提取符號規則,可以為黑匣子模型添加可理解性。規則提取技術試圖打開黑匣子,生成可理解的符號描述,使之具有幾乎與模型本身一模一樣的預測力。用不可理解的黑匣子模型作為規則提取的入手點,比如支持向量機(SVM)或者神經網絡,其好處是它們能夠為更為複雜的關係建立模型

規則提取分類準則

Andrew等(1995)提出了神經網絡規則提取技術的分類方法,它完全可以擴大到SVM上(Matens等,2007);它是建立在如下準則之上的:
(1)與深層的黑匣子模型相關的提取算法的透明度。
(2)所提取的規則或者的表達力。
(3)神經網絡的專門訓練方法。
(4)所提取規則的質量。
(5)提取算法的計算複雜性。
透明度準則考慮的是該技術對黑匣子模型的認知。分解法與黑匣子模型的內在機制緊密相關。而指導型算法則是把受訓模型看做黑匣子。這些算法不考察內在結構,而是直接提取與模型的輸入和輸出相關的規則。這些技術通常把受訓模型用作訓練樣本的標籤或者分類的評價器(人工生成),然後訓練樣本再被符號學習算法使用。這些技術背後的道理在於,它們假定受訓模型比初始數據集能夠更好地表示數據。也就是説,數據更為清潔,免於表面衝突的干擾。因為其模型被看做黑匣子,多數指導型算法都適合於從其他機器學習算法中提取規則。 [1] 
所提取規則的表達力取決於用來表達規則的語言。文獻中提出了多種類型的規則,其中最主要的有命題規則、M-of-N規則和模糊規則。命題規則是如下形式的簡單含義:如果X=a,Y=b,那麼類=1.M-of-N規則[如果至少M-of-N條件(C1,C2,……,CN),那麼……]可以被用來表示複雜的分類概念。雖然它們的可理解性是遞減的,但是前提條件總是要麼真要麼假,而模糊規則不是這樣,模糊規則的例子是:如果X是低,Y是中,那麼類=1,低和中是具有對應隸屬函數的模糊集。它們具有更大的靈活性,通常用語言學概念表達,讓人易於給出解釋。然而,給出的解釋因人而異,很難做到客觀。 [1] 

規則提取評估準則

一般來説,人們用五條準則來評估規則提取算法:

規則提取可理解性

可理解性是人可以理解所提取規則的程度。 [1] 

規則提取保真性

保真性準則是指所提取規則與它所提取的黑匣子的相仿的程度,它是分類器和提取規則在類標籤上保持一致的測試點的比例來測量。 [1] 

規則提取準確性

能夠對此前不可見的情況作出準確的預測叫做準確性。 [1] 

規則提取可伸縮性

可伸縮性特指模型能夠處理大輸入空間和大數據集。 [1] 

規則提取通用性

通用性是指這個方法要求採用特殊訓練法或者對模型架有所限制的程度。 [1] 
參考資料
  • 1.    比)庫斯曼特,(比)博克,(美)奈斯林著.高級數據庫營銷 互聯網時代持續提高客户終身價值的全新方法與實踐 .北京:企業管理出版社,2015:177-179