複製鏈接
請複製以下鏈接發送給好友

箱形圖

鎖定
箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因形狀如箱子而得名。在各種領域也經常被使用,常見於品質管理。它主要用於反映原始數據分佈的特徵,還可以進行多組數據分佈特徵的比 較。箱線圖的繪製方法是:先找出一組數據的上邊緣、下邊緣、中位數和兩個四分位數;然後, 連接兩個四分位數畫出箱體;再將上邊緣和下邊緣與箱體相連接,中位數在箱體中間。 [1] 
中文名
箱形圖
外文名
Box-plot
又    稱
盒須圖、盒式圖、箱線圖
類    型
統計圖
用    作
顯示一組數據分散情況資料
形    狀
形狀如箱子

箱形圖箱型圖概念

箱形圖(英文:Box plot),又稱為盒須圖盒式圖盒狀圖箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因型狀如箱子而得名。在各種領域也經常被使用,常見於品質管理。不過作法相對較繁瑣。
箱形圖於1977年由美國著名統計學家約翰·圖基(John Tukey)發明。它能顯示出一組數據的最大值最小值中位數、及上下四分位數。

箱形圖包含內容

圖1.箱形圖 圖1.箱形圖
"盒式圖"或叫"盒須圖""箱形圖"boxplot(也稱箱須圖(Box-whiskerPlot)須圖又稱為箱形圖,其繪製須使用常用的統計量,能提供有關數據位置和分散情況的關鍵信息,尤其在比較不同的母體數據時更可表現其差異。
如圖1所示,標示了圖中每條線表示的含義,其中應用到了分位值(數)的概念。
主要包含六個數據節點,將一組數據從大到小排列,分別計算出他的上邊緣,上四分位數Q3中位數,下四分位數Q1,下邊緣,還有一個異常值

箱形圖繪製步驟

箱形圖提供了一種只用5個點對數據集做簡單總結的方式。這5個點包括中點、Q1、Q3、分部狀態的高位和低位。箱形圖很形象的分為中心、延伸以及分佈狀態的全部範圍。
箱形圖中最重要的是對相關統計點的計算,相關統計點都可以通過百分位計算方法進行實現。
箱形圖的繪製步驟: [2] 
1、畫數軸,度量單位大小和數據批的單位一致,起點比最小值稍小,長度比該數據批的全距稍長。
2、畫一個矩形盒,兩端邊的位置分別對應數據批的上下四分位數(Q3和Q1)。在矩形盒內部中位數(Xm)位置畫一條線段為中位線
3、在Q3+1.5IQR和Q1-1.5IQR處畫兩條與中位線一樣的線段,這兩條線段為異常值截斷點,稱其為內限;在Q3+3IQR和Q1-3IQR處畫兩條線段,稱其為外限。處於內限以外位置的點表示的數據都是異常值,其中在內限與外限之間的異常值為温和的異常值(mild outliers),在外限以外的為極端的異常值(extreme outliers)。四分位距IQR=Q3-Q1。.
4、從矩形盒兩端邊向外各畫一條線段直到不是異常值的最遠點,表示該批數據正常值的分佈區間。
5、用“〇”標出温和的異常值,用“*”標出極端的異常值。相同值的數據點並列標出在同一數據線位置上,不同值的數據點標在不同數據線位置上。至此一批數據的箱形圖便繪出了。統計軟件繪製的箱形圖一般沒有標出內限和外限。

箱形圖作用

箱形圖數據異常值

一批數據中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程中,對結果會帶來不良影響;重視異常值的出現,分析其產生的原因,常常成為發現問題進而改進決策的契機。箱形圖為我們提供了識別異常值的一個標準:異常值被定義為小於Q1-1.5IQR或大於Q3+1.5IQR的值。雖然這種標準有點任意性,但它來源於經驗判斷,經驗表明它在處理需要特別注意的數據方面表現不錯。這與識別異常值的經典方法有些不同。眾所周知,基於正態分佈的3σ法則或z分數方法是以假定數據服從正態分佈為前提的,但實際數據往往並不嚴格服從正態分佈。它們判斷異常值的標準是以計算數據批的均值和標準差為基礎的,而均值和標準差的耐抗性極小,異常值本身會對它們產生較大影響,這樣產生的異常值個數不會多於總數0.7%。顯然,應用這種方法於非正態分佈數據中判斷異常值,其有效性是有限的。箱形圖的繪製依靠實際數據,不需要事先假定數據服從特定的分佈形式,沒有對數據作任何限制性要求,它只是真實直觀地表現數據形狀的本來面貌;另一方面,箱形圖判斷異常值的標準以四分位數四分位距為基礎,四分位數具有一定的耐抗性,多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標準施加影響,箱形圖識別異常值的結果比較客觀。由此可見,箱形圖在識別異常值方面有一定的優越性。 [3] 

箱形圖偏態和尾重

比較標準正態分佈、不同自由度t分佈和非對稱分佈數據的箱形圖的特徵,可以發現:對於標準正態分佈的大樣本,只有 0.7%的值是異常值,中位數位於上下四分位數的中央,箱形圖的方盒關於中位線對稱。選取不同自由度的t分佈的大樣本,代表對稱重尾分佈,當t分佈的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分佈作為非對稱分佈的例子進行分析,發現當卡方分佈的自由度越小,異常值出現於一側的概率越大,中位數也越偏離上下四分位數的中心位置,分佈偏態性越強。異常值集中在較大值一側,則分佈呈現右偏態;;異常值集中在較小值一側,則分佈呈現左偏態。下表列出了幾種分佈的樣本數據箱形圖的特徵(樣本數據由SAS的隨機數生成函數自動生成),驗證了上述規律。這個規律揭示了數據批分佈偏態和尾重的部分信息,儘管它們不能給出偏態和尾重程度的精確度量,但可作為我們粗略估計的依據。

箱形圖數據的形狀

同一數軸上,幾批數據的箱形圖並行排列,幾批數據的中位數尾長異常值、分佈區間等形狀信息便一目瞭然。在一批數據中,哪幾個數據點出類拔萃,哪些數據點表現不及一般,這些數據點放在同類其它羣體中處於什麼位置,可以通過比較各箱形圖的異常值看出。各批數據的四分位距大小,正常值的分佈是集中還是分散,觀察各方盒和線段的長短便可明瞭。每批數據分佈的偏態如何,分析中位線和異常值的位置也可估計出來。還有一些箱形圖的變種,使數據批間的比較更加直觀明白。例如有一種可變寬度的箱形圖,使箱的寬度正比於批量的平方根,從而使批量大的數據批有面積大的箱,面積大的箱有適當的視覺效果。如果對同類羣體的幾批數據的箱形圖進行比較,分析評價,便是常模參照解釋方法的可視圖示;如果把受測者數據批的箱形圖與外在效標數據批的箱形圖比較分析,便是效標參照解釋的可視圖示。箱形圖結合這些分析方法用於質量管理、人事測評、探索性數據分析等統計分析活動中去,有助於分析過程的簡便快捷,其作用顯而易見。

箱形圖具體實例

以圖2所示的箱形圖具體例子:
圖2.例子 圖2.例子
這組數據顯示出:
  • 最小值(minimum)=5
  • 下四分位數(Q1)=7
  • 中位數(Med--也就是Q2)=8.5
  • 上四分位數(Q3)=9
  • 最大值(maximum)=10
  • 平均值=8
  • 四分位間距(interquartile range)={\displaystyle Q3-Q1}=2 (即ΔQ)
在區間 Q3+1.5ΔQ, Q1-1.5ΔQ 之外的值被視為應忽略(farout)。
  • farout: 在圖上不予顯示,僅標註一個符號∇。
  • 最大值區間: Q3+1.5ΔQ
  • 最小值區間: Q1-1.5ΔQ
最大值與最小值產生於這個區間。區間外的值被視為outlier顯示在圖上.
  • mild outlier = 3.5
  • extreme outlier = 0.5
參考資料
  • 1.    賈俊平、何曉羣、金勇.統計學(第四版):中國人民大學出版社,2009年:66-67
  • 2.    林麗. 兩組獨立數據差異性統計檢驗方法及應用的研究[D]. 上海交通大學, 2007.
  • 3.    澍, 數理統計. 應用數理統計方法[M]. 中國環境科學出版社, 1994.