複製鏈接
請複製以下鏈接發送給好友

香農熵

鎖定
1948 年,香農提出了“信息熵”(shāng) 的概念,解決了對信息的量化度量問題。
一條信息的信息量大小和它的不確定性有直接的關係。比如説,我們要搞清楚一件非常非常不確定的事,或是我們一無所知的事情,就需要了解大量的信息。相反,如果我們對某件事已經有了較多的瞭解,我們不需要太多的信息就能把它搞清楚。所以,從這個角度,我們可以認為,信息量的度量就等於不確定性的多少。
中文名
香農熵
外文名
Shannon entropy
實    質
信息不確定性的多少
提出時間
1948年
解決問題
解決了對信息的量化度量問題
應用學科
通信工程
計算機科學
電子科學

香農熵基本定義

對於任意一個隨機變量 X,它的熵定義如下:
變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

香農熵實例

我們如何來量化度量信息量呢?以世界盃賽為例。大家都很關心誰會是冠軍。假如我錯過了看世界盃,賽後我問一個知道比賽結果的觀眾“哪支球隊是冠軍”? 他不願意直接告訴我, 而要讓我猜,並且我每猜一次,他要收一元錢才肯告訴我是否猜對了,那麼我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號,從 1 到 32, 然後提問: “冠軍的球隊在 1-16 號中嗎?” 假如他告訴我猜對了, 我會接着問: “冠軍在 1-8 號中嗎?” 假如他告訴我猜錯了, 我自然知道冠軍隊在 9-16 中。 這樣最多隻需要五次, 我就能知道哪支球隊是冠軍。所以,誰是世界盃冠軍這條消息的信息量只值五塊錢。
此時可能會發現我們實際上可能不需要猜五次就能猜出誰是冠軍,因為象巴西、德國、意大利這樣的球隊得冠軍的可能性比日本、美國、韓國等隊大的多。因此,我們第一次猜測時不需要把 32 個球隊等分成兩個組,而可以把少數幾個最可能的球隊分成一組,把其它隊分成另一組。然後我們猜冠軍球隊是否在那幾只熱門隊中。我們重複這樣的過程,根據奪冠概率對剩下的候選球隊分組,直到找到冠軍隊。這樣,我們也許三次或四次就猜出結果。因此,當每個球隊奪冠的可能性(概率)不等時,“誰世界盃冠軍”的信息量的信息量比五比特少。香農指出,它的準確信息量應該是
其中,
分別是這 32 個球隊奪冠的概率。香農把它稱為“信息熵” (Entropy),一般用符號 H 表示,單位是比特。可以推算當 32 個球隊奪冠概率相同時,對應的信息熵等於五比特。
香農熵(Shannon entropy)在生物信息領域基因表達分析中也有廣泛的應用,如一些或一個基因在不同組織材料中表達情況己知,但如何確定這些基因是組織特異性表達,還是廣泛表達的,那我們就來計算這些基因在N個樣本中的香農熵,結果越趨近於log2(N),則表明它是一個越廣泛表達的基因,結果越趨近於0則表示它是一個特異表達的基因。 [1] 

香農熵數學分析

當然,香農不是用錢,而是用 “比特”(bit)這個概念來度量信息量。 一個比特是一位二進制數,計算機中的一個字節是八個比特。在上面的例子中,這條消息的信息量是五比特。(如果有朝一日有六十四個隊進入決賽階段的比賽,那麼“誰世界盃冠軍”的信息量就是六比特,因為我們要多猜一次。) 讀者可能已經發現, 信息量的比特數和所有可能情況的對數函數 log 有關。 (
,
。)

香農熵計算

以計算一本五十萬字的中文書平均有多少信息量為例。常用的漢字(一級二級國標)大約有 7000 字。假如每個字等概率,那麼大約需要 13 個比特(即 13 位二進制數)表示一個漢字。但漢字的使用是不平衡的。實際上,前 10% 的漢字佔文本的 95% 以上。因此,即使不考慮上下文的相關性,而只考慮每個漢字的獨立的概率,那麼,每個漢字的信息熵大約也只有 8-9 個比特。如果再考慮上下文相關性,每個漢字的信息熵只有5比特左右。所以,一本五十萬字的中文書,信息量大約是 250 萬比特。如果用一個好的算法壓縮一下,整本書可以存成一個 320KB 的文件。如果我們直接用兩字節的國標編碼存儲這本書,大約需要 1MB 大小,是壓縮文件的三倍。這兩個數量的差距,在信息論中稱作“冗餘度”(redundancy)。 需要指出的是我們這裏講的 250 萬比特是個平均數,同樣長度的書,所含的信息量可以差很多。如果一本書重複的內容很多,它的信息量就小,冗餘度就大。
不同語言的冗餘度差別很大,而漢語在所有語言中冗餘度是相對小的。這和人們普遍的認識“漢語是最簡潔的語言”是一致的。 [1] 

香農熵與熱熵的關係

熵這一名稱並不是香農首先提出的。最先提出熵這一名稱的是物理學家,他提出的熵稱其為熱熵,它是熱力學系統的一個狀態函數,熱熵是物理系統無序性的量度,熱熵越大,表明物理系統可能的微觀狀態數也就越多,從微觀上看,系統就越變化多端,越沒有秩序。
香農在研究隨機變量不確定性量度時所得的式在數學模型層次上與熱熵完全相同,所以香農也把它稱作熵,一般稱其為信息熵或香農熵。
若把系統分子的相空間作為系統宏觀狀態的狀態空間,則按分子在相空間中的分佈而求得的香農熵H與其熱熵S有如下的關係:
因此,可以認為熱熵是香農熵的一個特例,它僅僅是分子在相空間所處位置的不確定性的量度。
然而,熱熵是有量綱的,而香農熵是無量綱的,這是兩者的重大差別。 [2] 

香農熵意義

對於隨機變量而言,其取值是不確定的。在做隨機試驗之前,我們只瞭解各取值的概率分佈,而做完隨機試驗後,我們就確切地知道了取值,不確定性完全消失。這樣,通過隨機試驗我們獲得了信息,且該信息的數量恰好等於隨機變量的熵。在這個意義上,我們可以把熵作為信息的量度。 [2] 
參考資料
  • 1.    Wei Xie, Bing Ren .Epigenomic analysis of multilineage differentiation of human embryonic stem cells:Cell,2013:153(5): 1134-1148
  • 2.    朱雪龍.應用信息論基礎:清華大學出版社,2001