複製鏈接
請複製以下鏈接發送給好友

齊夫定律

鎖定
齊夫定律(英語:Zipf's law,IPA/ˈzɪf/)是由哈佛大學語言學家喬治·金斯利·齊夫(George Kingsley Zipf)於1949年發表的實驗定律。
中文名
齊夫定律
外文名
zipf's law
本    質
文獻計量學基本定律
發現者
G.K.齊夫
發表時間
1949年

齊夫定律簡介

齊夫定律(英語:Zipf's law,IPA/ˈzɪf/)是由哈佛大學語言學家喬治·金斯利·齊夫(George Kingsley Zipf)於1949年發表的實驗定律。它可以表述為:在自然語言語料庫裏,一個單詞出現的頻率與它在頻率表裏的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。這個定律被作為任何與冪定律概率分佈有關的事物的參考。 [1] 

齊夫定律理論

圖1.累積分佈函數 圖1.累積分佈函數
這個“定律”是哈佛大學語言學家GeorgeKingsley Zipf1949年發表的。比如,在 Brown 語料庫中,“the”是最常見的單詞,它在這個語料庫中出現了大約7%(100萬單詞中出現69971次)。正如齊夫定律中所描述的一樣,出現次數為第二位的單詞“of”佔了整個語料庫中的3.5%(36411次),之後的是“and”(28852次)。僅僅135個字彙就佔了Brown語料庫的一半。齊夫定律是一個實驗定律,而非理論定律。齊夫分佈可以在很多現象中被觀察到。齊夫分佈的在現實中的起因是一個爭論的焦點。齊夫定律很容易用點陣圖觀察,座標為log(排名)和log(頻率)。比如,“the”用上述表述可以描述為x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那麼它就遵循齊夫定律。最簡單的齊夫定律的例子是“1/f function”。給出一組齊夫分佈的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現次數的1/2,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現次數的1/n。然而,這並不精確,因為所有的項必須出現一個整數次數,一個單詞不可能出現2.5次。然而,在一個廣域範圍內並且做出適當的近似,許多自然現象都符合齊夫定律。

齊夫定律應用

巴塞羅那自治大學數學研究中心的研究者最近使用數學和統計學的專業知識,對齊夫定律(Zipf's law)進行了嚴格的研究。他們使用了古登堡計劃(the Project Gutenberg)的數據庫——古登堡計劃是一項將版權過期的英語書籍電子化的互聯網計劃,包含3萬多篇英語文本,可以免費獲取。這麼大規模的研究在該領域前所未有,此前的研究大多隻採用幾十篇文本的數據集。分析結果表明,如果除去少數只出現了一兩次的詞語,有55%的文本完全地符合齊夫定律,而如果考慮所有的詞語,仍然有40%的文本完全符合齊夫定律。該研究的負責人科拉爾(Á.Corral)稱,如果進一步忽略只出現3至5次的詞語,符合齊夫定律的文本數還會更多。
齊夫定律已經在語言學、情報學、地理學、經濟學、信息科學等領域有了廣泛的應用,而且取得了不少可喜成果。中國數學家和語言學家周海中曾經指出:齊夫定律是描述詞頻分佈規律的強大數學工具;作為經驗定律,它仍有不足之處,有待進一步完善。

齊夫定律例子

最簡單的齊夫定律的例子是“1/ffunction”。給出一組齊夫分佈的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現次數的1/2,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現次數的1/n。然而,這並不精確,因為所有的項必須出現一個整數次數,一個單詞不可能出現2.5次。
在Brown語料庫中,“the”、“of”、“and”是出現頻率最前的三個單詞,其出現的頻數分別為69971次、36411次、28852次,大約佔整個語料庫100萬個單詞中的7%、3.6%、2.9%,其比例約為6:3:2。大約佔整個語料庫的7%(100萬單詞中出現69971次)。滿足齊夫定律中的描述。僅僅前135個字彙就佔了Brown語料庫的一半。
齊夫定律是一個實驗定律,而非理論定律,可以在很多非語言學排名中被觀察到,例如不同國家中城市的數量、公司的規模、收入排名等。但它的起因是一個爭論的焦點。齊夫定律很容易用點陣圖觀察,座標分別為排名和頻率的自然對數(log)。比如,“the”用上述表述可以描述為x = log(1), y = log(69971)的點。如果所有的點接近一條直線,那麼它就遵循齊夫定律。

齊夫定律遵循該定律的現象

  • 單詞的出現頻率:不僅適用於語料全體,也適用於單獨的一篇文章
  • 網頁訪問頻率
  • 城市人口
  • 收入前3%的人的收入
  • 地震震級
  • 固體破碎時的碎片大小

齊夫定律參見

參考資料
  • 1.    嚴怡民。情報學概論[M].武漢:武漢大學出版社。1994