複製鏈接
請複製以下鏈接發送給好友

剩餘度

鎖定
一個信源輸出的符號前後有相關性時,信號輸出的熵將減少,這就是一種形式的剩餘。
信源的剩餘度,也稱為多餘度,與熵的減少有關。因此,香農用熵的降低量來定義剩餘度。剩餘度是信源信息率的多餘程度,也稱冗餘度或冗長度。通常用一個相對值表示。信源的剩餘度越大,信源的數據壓縮潛力就越大,信源信息處理也就越必要。工程上採用的信源編碼、數據壓縮、頻帶壓縮均基於這一事實。
中文名
剩餘度
外文名
redundancy
別    名
多餘度
相對熵
H(x)/Hmax(x)
字母表示
E

剩餘度熵的簡介

熵(entropy)指的是體系的混亂的程度,它在控制論概率論數論天體物理生命科學等領域都有重要應用,在不同的學科中也有引申出的更為具體的定義,是各領域十分重要的參量。熵由魯道夫·克勞修斯(Rudolf Clausius)提出,並應用在熱力學中。後來在,克勞德·艾爾伍德·香農(Claude Elwood Shannon)第一次將熵的概念引入到信息論中來。 在信息論中,熵表示的是不確定性的量度。信息論的創始人香農在其著作《通信的數學理論》中提出了建立在概率統計模型上的信息度量。他把信息定義為“用來消除不確定性的東西”。
熵在信息論中的定義如下:
如果有一個系統S內存在多個事件S = {E1,...,En}, 每個事件的機率分佈 P = {p1, ..., pn},則每個事件本身的訊息為
Ie = − log2pi
(對數以2為底,單位是位元(bit))
Ie = − lnpi
(對數以e為底,單位是納特/nats)
如英語有26個字母,假如每個字母在文章中出現次數平均的話,每個字母的訊息量為
I_e = -\log_2 {1\over 26} = 4.7
而漢字常用的有2500個,假如每個漢字在文章中出現次數平均的話,每個漢字的信息量為
I_e = -\log_2 {1\over 2500} = 11.3
整個系統的平均消息量為
H_s = \sum_{i=1}^n p_i I_e = -\sum_{i=1}^n p_i \log_2 p_i
這個平均消息量就是消息熵。因為和熱力學中描述熱力學熵的玻耳茲曼公式形式一樣,所以也稱為“熵”。
如果兩個系統具有同樣大的消息量,如一篇用不同文字寫的同一文章,由於是所有元素消息量的加和,那麼中文文章應用的漢字就比英文文章使用的字母要少。所以漢字印刷的文章要比其他應用總體數量少的字母印刷的文章要短。即使一個漢字佔用兩個字母的空間,漢字印刷的文章也要比英文字母印刷的用紙少。
實際上每個字母和每個漢字在文章中出現的次數並不平均,因此實際數值並不如同上述,但上述計算是一個總體概念。使用書寫單元越多的文字,每個單元所包含的訊息量越大。
I(A)度量事件A發生所提供的信息量,稱之為事件A的自信息,P(A)為事件A發生的概率。如果一個隨機試驗有N個可能的結果或一個隨機消息有N個可能值,若它們出現的概率分別為p1,p2,…,pN,則這些事件的自信息的平均值:[H=-SUM(pi*log(pi)),i=1,2…N]稱為熵。
如英語有26個字母……(如上所述不再重複)
I_e = -log_2 (1\26) = 4.7
而漢字常用的有2500個……(如上所述不再重複)
I_e = -log_2 (1\2500) = 11.3
整個系統的平均消息量為
H_s = sum_(i=1^n)p_i
I_e = -sum_(i=1^n) p_i * log_2 p_i
熵的特點:
(1)熵是體系的狀態函數,其值與達到狀態的過程無關;
(2)熵的定義式是:dS=dQ/T,因此計算某一過程的熵變時,必須用與這個過程的始態和終態相同的過程的熱效應dQ來計算。(注:如果這裏dQ寫為dQR則表示可逆過程熱效應,R為reversible;dQ寫為dQI為不可逆過程的熱效應,I為Irreversible。)
(3)TdS的量綱是能量,而T是強度性質,因此S是廣度性質。計算時,必須考慮體系的質量;
(4)同狀態函數U和H一樣,一般只計算熵的變化。

剩餘度相對熵

概率論信息論中,KL散度( Kullback–Leibler divergence),又稱相對熵(relative entropy)分佈P和Q差異的一種方法。它是非對稱的,這意味着D(P||Q) ≠ D(Q||P)。特別的,在信息論中,D(P||Q)表示當用概率分佈Q來擬合真實分佈P時,產生的信息損耗,其中P表示真實分佈,Q表示P的擬合分佈。一個實際信源輸出的熵H(x)與其最大可能的熵Hmax(x)的比值定義為相對熵;
相對熵=H(x)/Hmax(x)
1與相對熵之差定義為剩餘度,用E表示
E=剩餘度=1-[H(x)/Hmax(x)]。

剩餘度剩餘度舉例

以英文文本的信源為例,它由26個字母和一個空檔組成27種符號的集合,它的最大符號熵H0=log227=4.76bit。再用統計逼近方法估算出無限記憶條件下符號極限熵
H∞≈1.4bit。
因此信源剩餘
這可簡單理解為若有100頁英文書,其中71頁是多餘成分。即從理論上看,僅需傳送29頁即可。
對於中文的漢字文本,按二級漢字計,H0=log26724≈13bit,漢字的極限熵
H∞≈4.1bit
則剩餘度