-
峯度
(衡量實數隨機變量概率分佈的峯態)
鎖定
峯度含義
峯度以bk表示,Xi是樣本測定值,Xbar是樣本n次測定值的平均值,s為樣本標準差。標準正態分佈的峯度為3。
[3]
以一般而言,正態分佈為參照,峯度可以描述分佈形態的陡緩程度,若bk<3,則稱分佈具有不足的峯度,若bk>3,則稱分佈具有過度的峯度。若知道分佈有可能在峯度上偏離正態分佈時,可用峯度來檢驗分佈的正態性。
根據均值不等式,可以確定出峯度(係數)的取值範圍:它的下限不會低於1,上限不會高於數據的個數。有一些典型分佈的峯度(係數)值得特別關注。例如,正態分佈的峯度(係數)為常數3,均勻分佈的峯度(係數)為常數1.8。在統計實踐中,我們經常把這兩個典型的分佈曲線作為評價樣本數據序列分佈性態的參照。設若先將數據標準化,則峯度(係數)相當於標準化數據序列的四階中心矩。所以,在相同的標準差下,峯度係數越大,分佈就有更多的極端值,那麼其餘值必然要更加集中在眾數週圍,其分佈必然就更加陡峭。
[2]
峯度四階標準矩
在更通常的情況下,峯度被定義為四階累積量除以二階累積量的平方,它等於四階中心矩除以概率分佈方差的平方再減去3:
假定Y為n個獨立變量之和,且這些變量和X具有相同的分佈,那麼:Kurt[Y]=Kurt[X]/n, 但如果峯度被定義為:μ4/σ,公式可變得更加複雜。
更一般地説,假定X1, ...,Xn為方差相等的獨立隨機變量,那麼:
而定義中如果不包含“減3”就無法成立。
如果超值峯度為正,稱為尖峯態(leptokurtic)。如果超值峯度為負,稱為低峯態(platykurtic)。
峯度樣本峯度
對於具有n個值的樣本,樣本峯度為:
其中m4是四階樣本中心矩,m2是二階中心矩(即使樣本方差),xi是第i個值,
是樣本平均值。注意此處計算方差的時候除數是N,而不是單獨計算樣本方差的(N-1)。
有時候也使用公式:
其中,n為樣本大小,D為事先計算的方差,xi為第i個測量值,
為事先計算的算術平均數。
在一些統計軟件中,其公式有所差別。如EXCEL,計算樣本的峯度公式如下:
峯度應用
在實際應用中,通常將峯度值做減3處理,使得正態分佈的峯度0。因此,在使用統計軟件進行計算時,應注意該軟件默認的峯度值計算公式。如Eviews默認的正態分佈峯度為3。
- 參考資料
-
- 1. Joanes, D. N. & Gill, C. A. (1998) Comparing measures of sample skewness and kurtosis. Journal of the Royal Statistical Society (Series D): The Statistician 47 (1), 183–189. doi:10.1111/1467-9884.00122
- 2. NIST/SEMATECH e-Handbook of Statistical Methods
- 3. 孟兵,李傑臣著. 零基礎學Python爬蟲、數據分析與可視化從入門到精通[M]. 北京:機械工業出版社, 2021.1.170