-
信息增益
鎖定
信息增益概念
儘管信息增益通常被直觀地作為是一種度量或距離,但事實上信息增益並不是。就比如信息增益不是對稱的,從P到Q的信息增益通常不等於從Q到P的信息增益。信息增益是f增益的一種特殊情況。在1951年由Solomon Kullback 和Richard Leibler首先提出作為兩個分佈的直接增益。它與微積分中的增益不同,但可以從Bregman增益推導得到。
信息增益定義
信息增益的連續分佈形式:
更一般地,P和Q是集合X上的概率測度,Q關於P絕對連續,從P到Q的信息增益定義為
如果P關於Q也絕對連續,那麼上式可變為
注意,信息增益是要講方向的,上述公式都是計算從P到Q的信息增益。
信息增益特徵選擇
在信息增益中,衡量標準是看特徵能夠為分類系統帶來多少信息,帶來的信息越多,該特徵越重要。對一個特徵而言,系統有它和沒它時信息量將發生變化,而前後信息量的差值就是這個特徵給系統帶來的信息量。所謂信息量,就是熵。
假如有變量X,其可能的取值有n種,每一種取到的概率為Pi,那麼X的熵就定義為
也就是説X可能的變化越多,X所攜帶的信息量越大,熵也就越大。對於文本分類或聚類而言,就是説文檔屬於哪個類別的變化越多,類別的信息量就越大。所以特徵T給聚類C或分類C帶來的信息增益為IG(T)=H(C)-H(C|T)。
H(C|T)包含兩種情況:一種是特徵T出現,標記為t,一種是特徵T不出現,標記為t'。所以
H(C|T)=P(t)H(C|t)+P(t')H(C|t‘),再由熵的計算公式便可推得特徵與類別的信息增益公式。
信息增益最大的問題在於它只能考察特徵對整個系統的貢獻,而不能具體到某個類別上,這就使得它只適合用來做所謂“全局”的特徵選擇(指所有的類都使用相同的特徵集合),而無法做“本地”的特徵選擇(每個類別有自己的特徵集合,因為有的詞,對這個類別很有區分度,對另一個類別則無足輕重)。
信息增益方法
包括直方圖相交(historgram intersection),開方統計(Chi-square statistic),quadratic form distance,賽程(match distance),Kolomogorov-Smirnov distance和earth mover's distance
- 參考資料
-
- 1. Wikipedia
- 2. information gain .有道[引用日期2023-06-12]