複製鏈接
請複製以下鏈接發送給好友

相對熵

鎖定
相對熵(relative entropy),又被稱為Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是兩個概率分佈(probability distribution)間差異的非對稱性度量 [1]  。在信息理論中,相對熵等價於兩個概率分佈的信息熵(Shannon entropy)的差值 [2] 
相對熵是一些優化算法,例如最大期望算法(Expectation-Maximization algorithm, EM)的損失函數 [3]  。此時參與計算的一個概率分佈為真實分佈,另一個為理論(擬合)分佈,相對熵表示使用理論分佈擬合真實分佈時產生的信息損耗 [2] 
中文名
相對熵
外文名
relative entropy
所屬學科
統計學
信息科學
別    名
Kullback-Leibler散度,信息散度
提出者
S. Kullback,R. A. Leibler
提出時間
1951年
應    用
信息分析,機器學習

目錄

相對熵理論

定義
是隨機變量
上的兩個概率分佈,則在離散和連續隨機變量的情形下,相對熵的定義分別為 [2] 
推導
在信息理論中,相對熵是用來度量使用基於
的編碼來編碼來自
的樣本平均所需的額外的比特個數。典型情況下,
表示數據的真實分佈,
表示數據的理論分佈,模型分佈,或
的近似分佈。給定一個字符集的概率分佈,我們可以設計一種編碼,使得表示該字符集組成的字符串平均需要的比特數最少。假設這個字符集是
,對
,其出現概率為
,那麼其最優編碼平均需要的比特數等於這個字符集的熵: [6] 
在同樣的字符集上,假設存在另一個概率分佈
,如果用概率分佈
的最優編碼(即字符
的編碼長度等於
),來為符合分佈
的字符編碼,那麼表示這些字符就會比理想情況多用一些比特數。相對熵就是用來衡量這種情況下平均每個字符多用的比特數,因此可以用來衡量兩個分佈的距離,即:
計算實例
這裏給出一個對相對熵進行計算的具體例子。假如一個字符發射器,隨機發出0和1兩種字符,真實發出概率分佈為A,但實際不知道A的具體分佈。通過觀察,得到概率分佈B與C,各個分佈的具體情況如下:
可以計算出得到如下:
由上式可知,按照概率分佈
進行編碼,要比按照
進行編碼,平均每個符號增加的比特數目少。從分佈上也可以看出,實際上
要比
更接近實際分佈(因為其與
分佈的相對熵更小)。
吉布斯不等式(Gibbs inequality)
由於
凸函數(convex function),所以根據相對熵的定義有:
由上式可知,相對熵是恆大於等於0的。當且僅當兩分佈相同時,相對熵等於0。

相對熵性質

非負性:由吉布斯不等式可知,相對熵恆為非負:
,且在
時取0 [4] 
不對稱性:相對熵是兩個概率分佈的不對稱性度量,即
。在優化問題中,若
表示隨機變量的真實分佈,
表示理論或擬合分佈,則
被稱為前向KL散度(forward KL divergence),
被稱為後項KL散度(backward KL divergence)。前向散度中擬合分佈是KL散度公式的分母,因此若在隨機變量的某個取值範圍中,擬合分佈的取值趨於0,則此時KL散度的取值趨於無窮。因此使用前向KL散度最小化擬合分佈和真實分佈的距離時,擬合分佈趨向於覆蓋理論分佈的所有範圍。前向KL散度的上述性質被稱為“0避免(zero avoiding)”。相反地,當使用後向KL散度求解擬合分佈時,由於擬合分佈是分子,其0值不影響KL散度的積分,反而是有利的,因此後項KL散度是“0趨近(zero forcing)”的 [3] 
信息理論中其它概念的關係:對前向KL散度,其值等於真實分佈與擬合分佈的交叉熵與真實分佈的信息熵之差:

相對熵應用

相對熵可以衡量兩個隨機分佈之間的距離,當兩個隨機分佈相同時,它們的相對熵為零,當兩個隨機分佈的差別增大時,它們的相對熵也會增大。所以相對熵可以用於比較文本的相似度,先統計出詞的頻率,然後計算相對熵。另外,在多指標系統評估中,指標權重分配是一個重點和難點,也通過相對熵可以處理 [5] 
參考資料
  • 1.    Kullback, S. and Leibler, R.A., 1951. On information and sufficiency. The annals of mathematical statistics, 22(1), pp.79-86.
  • 2.    Goodfellow, I., Bengio, Y., Courville, A..Deep learning (Vol. 1).Cambridge:MIT Press,2016:71-73
  • 3.    Polykovskiy, D. and Novikov, A., Bayesian Methods for Machine Learning  .Coursera and National Research University Higher School of Economics.2018[引用日期2018-12-17]
  • 4.    周志華.機器學習:清華大學出版社,2016年:414-415
  • 5.    趙萌, 邱菀華, 劉北上. 基於相對熵的多屬性決策排序方法[J]. 控制與決策, 2010, 25(7):1098-1100.
  • 6.    趙衞東,李有俊,張麗.一種基於高階Markov使用模型的測試用例自動生成方法[J].現代電子技術,2019年第6期第42卷:28