複製鏈接
請複製以下鏈接發送給好友

箱式圖

鎖定
箱式圖,是指—種描述數據分佈的統計圖,是表述最小值、第一四分位數中位數、第三四分位數與最大值的一種圖形方法。它也可以粗略地看出數據是否具有對稱性,分佈的分散程度等信息,特別是可用於對幾個樣本的比較。在箱圖中,最上方和最下方的線段分別表示數據的最大值和最小值,其中箱圖的上方和下方的線段分別表示第三四分位數和第一四分位數,箱圖中間的粗線段表示數據的中位數。另外,箱圖中在最上方和最下方的星號和圓圈分別表示樣本數據中的極端值。一般有兩種類型的箱圖:單式箱圖用於分析只有一個變量的數據分佈,複式箱圖用以分析具有兩個或以上變量的數據分佈。 [1] 
中文名
箱線圖
領    域
統計學
用    途
數據平均水平和變異程度的分析
優    點
直觀

箱式圖異常值

異常值又稱離羣值,指大於1.5倍四分位數間距的數值。處於1.5~3倍四分位數間距之間的異常值在箱式圖中常用空心圓表示。

箱式圖極端值

指大於三倍四分位數間距的數值。在箱式圖中常用實心圓表示。
箱式圖是一個重要的探索性數據分析工具來決定是否一個因子有重要影響在變量或位置的反應中。可觀察數據呈正態分佈、左偏分佈、右偏分佈還是其他類型的分佈,如U型分佈。
極端值屬於異常值的一種,又稱離羣值(outlier),如果不作特別要求,異常值極端值均用一個點單獨表示

箱式圖繪製方法

首先找出一組數據的五個特徵值,包括除異常值外的最小值(minimum)和最大值(maximum)、中位數median)、兩個四分位數(上四分位數Q1和下四分位Q3數);
中位數:將所有數值從小到大排列,如果是奇數個數值則取最中間一個值作為中位數,之後最中間的值在計算Q1和Q3時不再使用;偶數個數值則取最中間兩個數的平均數作為中位數,這兩個數在計算Q1和Q3時繼續使用
Q1:中位數將所有數據分成兩部分,最小值到中位數的部分按取中位數的方法取中位數作為Q1
Q3:同Q1取法,取中位數到最大值的中位數
計算IQR(四分位數間距)即IQR=Q3-Q1
所有不在(Q1-1.5IQR,Q3+1.5IQR)的區間內的數為離羣值,剩下的值最大的為最大值,最小的為最小值
特徵值(從小到大):最小值、Q1、中位數、Q3、最大值
將五個數值描繪在一個圖上,五個特徵值在一個直線上,最小值和Q1連接起來,Q1、中位數、Q3分別作平行等長線段,
然後,連接兩個四分位數構成箱子;
最後連接兩個極值點與箱子,形成箱式圖,然後點上離羣值即可。
如有需要也可以在箱線圖旁加數軸做標記
參考資料
  • 1.    周健民.土壤學大辭典:科學出版社,2013.10