複製鏈接
請複製以下鏈接發送給好友

齊普夫定律

鎖定
齊普夫定律是美國學者G.K.齊普夫於20世紀40年代提出的詞頻分佈定律。它可以表述為:如果把一篇較長文章中每個詞出現的頻次統計起來,按照高頻詞在前、低頻詞在後的遞減順序排列,並用自然數給這些詞編上等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,……,頻次最小的詞等級為D。若用f表示頻次,r表示等級序號,則有fr=C(C為常數)。人們稱該式為齊普夫定律。
中文名
齊普夫定律
外文名
Zipf's Law
別    名
省力法則
提出者
美國學者G.K.齊普夫
提出時間
20世紀40年代
性    質
詞頻分佈定律

目錄

齊普夫定律起源

關於單詞在文獻中出現頻次的齊普夫定律(Zipf's Law)。亦稱省力法則。1948年由美國哈佛大學語言學教授G.K.齊普夫(George K. Zipf )對英語文獻中單詞出現的頻次進行大量統計以檢驗前人的定量化公式而提出的。該定律指出文章中單詞的頻次(f)與其排列的序號(r)之間存在着下述定量的關係,齊普夫認為:如果有一個包含n 個詞的文章,將這些詞按其出現的頻次遞減地排序,那麼序號r和其出現頻次f之積fr,將近似地為一個常數,即fr=b,(式中r=1,2,3.…),即詞頻分佈定律最普通而又最典型的表達。
此後,許多工具書大都採用類似觀點和説法 。如英國著名的語言學著作《語言與語言詞典》 中的釋義是:“(詞頻分佈定律) 是指談話者或寫作者使用的詞的分佈和頻次的總描述。F×R=C,方程式中F=頻次,R=序號,即頻率表上的位置;C=常數。方程式表示詞使用的總次數和詞頻表上的位置之間有一個固定比率。”但是齊普夫的表達僅適宜於中頻詞的情況,高頻與低頻詞與該表述偏差較大。於是對詞頻分佈規律又有許多補充和深化的研究。
· ·George Kingsley Zipf observed that the frequency of usage of any word in a corpus is approximately inversely proportional to its frequency rank:
齊普夫定律 齊普夫定律
·
-i.e., the power law fr ~ 1 / rk, where r is rank and k≈ 1.

齊普夫定律假説

詞頻分佈原因的假説
詞頻分佈規律是有較為豐富內涵的,學術界認為正態分佈是描述自然科學的典型分佈,而齊普夫分佈將成為揭示社會科學規律的典型分佈,所以社會科學界一直很重視這個定律。討論詞頻分佈何以呈現那種特殊的形狀,對其成因提出假説,建立適當的理論模型描繪其分佈過程是當前研究工作的熱點,目前較重要的假説有2個:
①“省力法則”假説。提出這一假説的是齊普夫。他認為,在語言交流過程中,“省力法則”同時體現在説話人和聽話人身上。説話人希望組成語言的詞少,而且一詞多義,以節省其精力。聽話人認為最好是一詞一義,使聽到的詞與其確切涵義容易匹配,減少他理解的功夫。這2種節省精力的傾向最後平衡的結果,便是詞頻的那種雙曲線型分佈。
②“成功產生成功”假説。這方面以H.A.西蒙的研究最為著名。西蒙構造了一個概率模型,他所作的一個重要假説是:在文獻中,一詞使用的次數越多,則再次使用的可能性越大。該模型最後導出的分佈與齊普夫分佈相當接近, 普賴斯後來建立了一個相類似的模型,又明確地提出了“成功產生成功”的假説。

齊普夫定律應用

巴塞羅那自治大學數學研究中心的研究者最近使用數學和統計學的專業知識,對齊普夫定律(Zipf's law)進行了嚴格的研究。他們使用了古登堡計劃(the Project Gutenberg)的數據庫——古登堡計劃是一項將版權過期的英語書籍電子化的互聯網計劃,包含3萬多篇英語文本,可以免費獲取。這麼大規模的研究在該領域前所未有,此前的研究大多隻採用幾十篇文本的數據集分析結果表明,如果除去少數只出現了一兩次的詞語,有55%的文本完全地符合齊普夫定律,而如果考慮所有的詞語,仍然有40%的文本完全符合齊夫定律。該研究的負責人科拉爾(Á.Corral)稱,如果進一步忽略只出現3至5次的詞語,符合齊普夫定律的文本數還會更多。
2016年,江南大學的研究者以諾貝爾文學獎得主莫言的《紅高粱》《蛙》和《透明的紅蘿蔔》為主要研究對象,採用字頻統計軟件和漢語詞頻統計軟件,統計莫言作品中字頻、詞頻,發現都能滿足齊普夫定律。
齊普夫定律已經在語言學、情報學地理學、經濟學、信息科學等領域有了廣泛的應用,而且取得了不少可喜成果。中國數學家和語言學家周海中曾經指出:齊普夫定律是描述詞頻分佈規律的強大數學工具,作為經驗定律,它仍有不足之處,有待進一步完善。 [1] 

齊普夫定律意義

研究詞頻分佈對編制詞表,制定標引規則,進行詞彙分析與控制,分析作者著述特徵具有一定意義。經驗表明,中頻詞往往是包含大量有檢索意義的關鍵詞。而一篇文獻全文輸入計算機後,計算機是很容易檢出中頻詞的。因此,詞頻分佈也是文獻自動分類自動標引的研究對象。
參考資料