複製鏈接
請複製以下鏈接發送給好友

長尾分佈

鎖定
長尾分佈(long-tailed distributions)是重尾分佈的一個子類型。
中文名
長尾分佈
外文名
long-tailed distributions
性    質
重尾分佈的一個子類型
設    計
20世紀30年代

目錄

長尾分佈前言

長尾分佈(long-tailed distributions)是重尾分佈的一個子類型。

長尾分佈概念

在20世紀30年代,美國哈佛大學語言學家齊普夫發現,將一文本中的詞按照它們在文本中的出現(或使用)次數由高至低排列,以r表示序號(又稱等級),g(r)表示序號為r的詞在文本中的出現次數,則r的某一冪次r(β)和g(r)的乘積漸近為一常數,即g(r)*r(β)≈c。人們將關係式g(r)=cr(-β)(β>0,c>0)稱為齊普夫定律,因而,長尾分佈就是齊普夫定律。

長尾分佈一般描述

互聯網上從歌曲和軟件的下載、網頁的點擊到網上店鋪的銷售,都呈現長尾分佈的特徵。長尾分佈也與對流行事物進行統計排名的“排行榜”文化有關。網上音樂資料庫容量巨大,下載方式非常便捷。把曲目按照下載量排序,可近似地得到一條遞減曲線。在曲線的頭部,熱門曲目被大量下載。接下來,隨着流行程度的降低(對應為序號的增大),曲線徒然下降。但有趣的是,在尾部曲線並沒有迅速墜落到零,而是極其緩慢地貼近於橫軸,粗看上去幾乎與橫軸平行延伸(這説明很不熱門的曲日仍然保持着一定的下載率)。這種特殊的排序(即排名)與下載量之間的對應關係就是長尾分佈。