複製鏈接
請複製以下鏈接發送給好友

統計分佈

(統計學研究方法)

鎖定
統計分佈(frequency distribution)亦稱“次數(頻數)分佈(分配)”。在統計分組的基礎上,將總體中的所有單位按組歸類整理,形成總體單位在各組間的分佈。分佈在各組中的單位數叫做次數頻數。各組次數與總次數(全部總體單位數)之比,稱為比率頻率。將各組別與次數依次編排而成的數列就叫做統計分佈數列,簡稱分佈數列分配數列。它可以反映總體中所有單位在各組間的分佈狀態和分佈特徵,研究這種分佈特徵是統計分析的一項重要內容。統計分佈及其分佈數列,可以用表格或圖形來表示 [1] 
中文名
統計分佈
外文名
frequency distribution
別    名
次數(頻數)分佈(分配)
所屬學科
數學(統計學)
相關概念
統計分佈數列,鍾型分佈等

統計分佈統計分佈的意義

在統計分組的基礎上,把總體的所有單位數按組歸併排列,形成各組單位數在總體中的分佈,稱統計分佈。統計分佈的實質是,把總體的全部單位按某標誌所分的組進行分配所形成的數列,也可稱為分配數列分佈數列。在每次把某個單位分配到某一組時,人們常常説分配了一次,所以,分配數列又叫次數分佈。分配數列有兩個構成要素:一是總體按某標誌所分的組;二是各組對應的單位數——次數。
統計分佈形式十分簡單,但在統計研究中卻有着重要的意義。統計分佈是統計分析結果的一種重要表現形式,也是統計分析的一種重要方法。它可以表明總體各單位的分佈特徵和結構狀況,並有助於我們進一步研究標誌的構成、平均水平及其變動規律。從文字含義看,統計分佈理論性強一些,分配數列更通俗一點。以下交叉使用這兩名詞 [2] 

統計分佈統計分佈的種類和特徵

統計分佈分配數列的種類

分配數列有兩個構成要素。即總體按某標誌所分的組和各組對應的次數或頻率。
分配數列的第一個構成要素就是總體按某標誌所分的組。根據分組標誌的不同,分配數列可分為品質分配數列和變量分配數列。按品質標誌分組形成的分配數列叫品質分配數列,簡稱品質數列;按數量標誌分組形成的分配數列叫變量分配數列,簡稱變量數列。變量數列又可以分為單項式數列和組距式數列,組距式數列又可以分為等距數列和不等距數列。它們都是由相應的統計分組形成的。
對品質數列來説,由於用品質標誌來區分事物的各種類型表現得比較明確,因此,品質數列一般比較穩定,能較好地反映總體各單位的分佈特徵。但對變量數列來説,因為事物性質的差異是用數量界限來表現的,而數量界限往往會受人們主觀認識的影響,同一數量標誌分組可能會出現多種分佈狀態。這就涉及各組頻數和頻率的問題。

統計分佈頻數和頻率

分配數列的第二個構成要素就是各組對應的單位數——次數,次數也叫頻數,常用
表示。各組單位數佔總體單位總數的比重稱頻率,常用
表示。各組的頻率要大於0 且小於1,即
,所有組的頻率總和一定等於1,即
。總體按某標誌所分的組(或以各組的組中值來代表)與各組對應的頻率所形成的頻率分佈也是統計分佈,與次數分佈的作用是相同的。次數分佈和頻率分佈都是分配數列。
在變量分配數列中,頻數或頻率表明對應組標誌值的作用程度。頻數或頻率數值越大,表明該組標誌值對總體水平所起的作用也越大;反之,頻數或頻率數值越小,表明該組標誌值對總體水平所起的作用越小。
分配數列中各組的頻數或頻率不能為0,如果某一組的頻數或頻率為0,應刪除這一組。
有時候,為了更簡便地概括總體各單位的分佈特徵,還需要編制累計頻數數列累計頻率數列。累計方法有向上累計向下累計兩種。
向上累計就是向變量的上限方向累計,是指將各組頻數或頻率由變量值較低的組向變量值較高的組累計,各累計數的意義是各組上限以下的累計頻數或頻率。當我們關注標誌值較小的各組分佈情況時,可採用向上累計方法。
向下累計就是向變量的下限方向累計,是指將各組頻數或頻率由變量值較高的組向變量值較低的組累計,各累計數的意義是各組下限以上的累計頻數或頻率。當我們關注標誌值較大的各組分佈情況時,可採用向下累計方法。
分析變量的分佈狀況,一般應採用等距數列。此時,各組的頻數或頻率就能很好地反映變量的分佈狀況。如果是不等距數列,則應採用各組的次數密度或頻率密度才能正確反映變量的分佈狀況。次數密度和頻率密度的計算公式如下:
次數密度=某組次數/該組組距;頻率密度=某組頻率/該組組距

統計分佈次數分佈的特徵

社會經濟現象總體的性質不同,其次數分佈的特徵也不同。各種社會經濟現象總體的次數分佈,歸納起來主要有鍾型分佈U型分佈J型分佈洛倫茲分佈四種類型。
鍾型分佈
鍾型分佈是正態分佈的俗稱,其特徵是“中間高,兩頭低”,即靠近中間的變量值分佈的次數多,靠近兩邊的變量值分佈的次數少,形如古鐘(見圖1)。
圖1 鍾型分佈 圖1 鍾型分佈
在社會經濟現象中,鍾型分佈多表現為對稱分佈。對稱分佈的特徵是中間的變量值分佈的次數最多,以標誌變量中心為對稱軸。兩側變量值分佈的次數隨着與中心變量值距離的增大而漸次減少,並且圍繞中心變量值兩側呈對稱分佈。這種分佈在統計學中稱為正態分佈。在社會經濟現象中,許多變量的分佈近似於正態分佈類型。如從業人員的年收入、農作物單產、零件尺寸、學生考試成績、社會財富分佈等。正態分佈在社會經濟統計學中具有重要意義。這是因為,一方面。社會經濟現象中大部分分佈呈近似正態分佈;另一方面,正態分佈理論是抽樣推斷的基礎。
U型分佈
U型分佈的特徵與鍾型分佈正好相反,靠近中間的變量值分佈的次數少,靠近兩端的變量值分佈的次數多,形成“兩頭高,中間低”的U字型分佈。例如,人口死亡現象按年齡分佈便是如此。由於人口總體中幼兒和老年人死亡人數較多,而中年人死亡人數較少,因此,死亡人數按年齡分組便近似地表現為U型分佈,如圖2所示。
圖2 U型分佈 圖2 U型分佈
J型分佈
在社會經濟現象中,一些統計總體分佈曲線呈J型,即次數隨着變量值的增加而增加。如農作物產量按土地面積分佈、人口數按零售商品銷售額分佈、工人數按總產值分佈、庫存量按庫存費用分佈等,如圖3所示。也有次數隨着變量值的增加而減少的倒J型分佈。如企業數按投資額分佈、人口數按年齡大小分佈等,如圖4所示。
圖3 J型分佈 圖3 J型分佈
圖4 倒J型分佈 圖4 倒J型分佈
洛倫茲分佈
洛倫茲分佈曲線是美國統計學家洛倫茲(M.Lorenz)提出來的,專門用以研究社會收入分配的平等問題。
在圖5中。橫軸OH表示人口的累計百分比,縱軸OM表示收入的累計百分比,弧線OL為洛倫茲曲線。洛倫茲曲線的彎曲程度有着重要的意義,它反映了收入分配的不平等程度。彎曲程度越大,收入分配越不平等,反之亦然。
洛倫弦曲線與對角線之間的部分A 叫做“不平等面積”,直角三角形OHL的面積(A+B)叫做“完全不平等面積”。不平等面積與完全不平等面積之比,就是基尼係數,也稱集中係數:基尼係數=
圖5 洛倫茲分佈 圖5 洛倫茲分佈
基尼係數等於1,表示收入分配絕對不平等;基尼係數等於0,表示收入分配絕對平等。基尼係數是衡量,一個國家或地區貧富差距的標準之一。按照聯合國有關組織規定:基尼係數若低於0.2表示收入平均;0.2-0.3表示比較平均;0.3=0.4表示相對合理;0.4-0.5表示收入差距較大;0.5以上表示收入差距懸殊。通常把0.4作為收入分配差距的“警戒線”。發達國家的基尼係數在0.26-0.38之間,我國2013年全國居民收入的基尼係數為0.473。
洛倫茲曲線的拓展可以運用於其他社會經濟現象,研究總體各單位標誌變異狀況——變量分佈的均勻性或分佈的集中程度,因此,洛倫茲曲線又稱集中曲線。如研究產品市場份額在各企業的集中度以及分析固定資產投資額在各地區的集中度等 [2] 

統計分佈分配數列的編制

(一)將原始資料按其數值大小重新排列
只有把得到的原始資料按其數值大小重新排列順序,才能看出變量分佈的集中趨勢和特點,為確定全距、組距和組數作準備。
(二)確定全距
確定全距前,要檢查數據組兩端有沒有極端值。如果有極端值且個數較少,應考慮將極端值歸入開口組,計算全距前,可去掉極端值。
(三)確定組距和組數
組距=全距/組數,當全距一定時。組距越大,組數就越少;組距越小,組數就越多,在實際應用中。組距一般應採用整數,最好是5或10的整倍數。
(四)確定組限
組限要根據變量的性質來確定。如果變量值相對集中,無特大或特小的極端值時,則採用閉口式:反之,如果有特大或特小的極端值時,則採用開口式,將極端蚊歸入開口組中。
(五)編制變量數列
經過上述四個步驟以後,就可以把總體各單位按變量值的大小分配到各組,計算各組的次數和頻率 [2] 
參考資料
  • 1.    戴相龍,黃達.中華金融辭庫:中國金融出版社,1998
  • 2.    王雲峯,陳衞東.統計學原理:理論與方法(第2版)=GENERAL FINANCE SERIES:復旦大學出版社,2014.07