複製鏈接
請複製以下鏈接發送給好友

直方圖

(統計報告圖)

鎖定
直方圖(Histogram),又稱質量分佈圖,是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示數據分佈的情況。 一般用橫軸表示數據類型,縱軸表示分佈情況。
直方圖是數值數據分佈的精確圖形表示。 這是一個連續變量(定量變量)的概率分佈的估計,並且被卡爾·皮爾遜(Karl Pearson)首先引入。它是一種條形圖。 為了構建直方圖,第一步是將值的範圍分段,即將整個值的範圍分成一系列間隔,然後計算每個間隔中有多少值。 這些值通常被指定為連續的,不重疊的變量間隔。 間隔必須相鄰,並且通常是(但不是必須的)相等的大小。
直方圖也可以被歸一化以顯示“相對”頻率。這時它顯示的是不同類別中的每個案例的比例,其總高度等於1。
中文名
直方圖
外文名
Histogram
別    名
質量分佈圖
類    型
統計報告圖
橫    軸
表示數據類型
縱    軸
表示分佈情況
應用領域
建設工程,橋樑工程等
目    的
由圖的位置形狀判斷生產是否穩定
實    質
特殊的條形統計圖
發明人
卡爾·皮爾遜

直方圖定義

圖1 圖1
直方圖又稱質量分佈圖它是表示資料變化情況的一種主要工具。用直方圖可以解析出資料的規則性,比較直觀地看出產品質量特性的分佈狀態,對於資料分佈狀況一目瞭然,便於判斷其總體質量分佈情況。
在製作直方圖時,牽涉統計學的概念,首先要對資料進行分組,因此如何合理分組是其中的關鍵問題。按組距相等的原則進行的兩個關鍵數位是分組數和組距。是一種幾何形圖表,它是根據從生產過程中收集來的質量數據分佈情況,畫成以組距為底邊、以頻數為高度的一系列連接起來的直方型矩形圖,如圖1所示。

直方圖作用

直方圖與標準的對照 直方圖與標準的對照
直方圖的常見作用有以下三點:
(1)顯示質量波動的狀態;
(2)較直觀地傳遞有關過程質量狀況的信息;
(3)通過研究質量波動狀況之後,就能掌握過程的狀況,從而確定在什麼地方集中力量進行質量改進工作。

直方圖頻數分佈直方圖

直方圖定義

在統計數據時,按照頻數分佈表,在平面直角座標系中,橫軸標出每個組的端點,縱軸表示頻數,每個矩形的高代表對應的頻數,稱這樣的統計圖為頻數分佈直方圖
相關概念:
組數:在統計數據時,我們把數據按照不同的範圍分成幾個組,分成的組的個數稱為組數。
組距:每一組兩個端點的差。

直方圖特點介紹

①能夠顯示各組頻數分佈的情況;
②易於顯示各組之間頻數的差別。

直方圖目的

作直方圖的目的就是通過觀察圖的形狀,判斷生產過程是否穩定,預測生產過程的質量。
1判斷一批已加工完畢的產品;
蒐集有關數據。
直方圖將數據根據差異進行分類,特點是明察秋毫地掌握差異。
2在公路工程質量管理中,作直方圖的目的有:
①估算可能出現的不合格率;
②考察工序能力估算法
③判斷質量分佈狀態;
④判斷施工能力;

直方圖繪製注意事項

a. 抽取的樣本數量過小,將會產生較大誤差,可信度低,也就失去了統計的意義。因此,樣本數不應少於50個。
b. 組數 k 選用不當,k 偏大或偏小,都會造成對分佈狀態的判斷有誤。
c. 直方圖一般適用於計量值數據,但在某些情況下也適用於計數值數據,這要看繪製直方圖的目的而定。
d. 圖形不完整,標註不齊全,直方圖上應標註:公差範圍線、平均值 的位置(點畫線表示)不能與公差中心M相混淆;圖的右上角標出:N、S、C p或 CPK.

直方圖製作方法

①集中和記錄數據,求出其最大值和最小值。數據的數量應在100個以上,在數量不多的情況下,至少也應在50個以上。 我們把分成組的個數稱為組數,每一個組的兩個端點的差稱為組距。
②將數據分成若干組,並做好記號。分組的數量在5-12之間較為適宜。
③計算組距的寬度。用最大值和最小值之差去除組數,求出組距的寬度。
④計算各組的界限位。各組的界限位可以從第一組開始依次計算,第一組的下界為最小值減去最小測定單位的一半,第一組的上界為其下界值加上組距。第二組的下界限位為第一組的上界限值,第二組的下界限值加上組距,就是第二組的上界限位,依此類推。
⑤統計各組數據出現頻數,作頻數分佈表。
⑥作直方圖。以組距為底長,以頻數為高,作各組的矩形圖。

直方圖應用步驟

(1)收集數據。作直方圖的數據一般應大於50個。
(2)確定數據的極差(R)。用數據的最大值減去最小值 求得。
(3)確定組距(h)。先確定直方圖的組數,然後以此組數去除極差,可得直方圖每組的寬度,即組距。組數的確定要適當。組數太少,會引起較大計算誤差;組數太多,會影響數據分組規律的明顯性,且計算工作量加大。
(4)確定各組的界限值。為避免出現數據值與組界限值重合而造成頻數據計算困難,組的界限值單位應取最小測量單位的1/2。分組時應把數據表中最大值和最小值包括在內。
第一組下限值為:最小值-0.5;
第一組上限值為:第一組下限值加組距;
第二組下限值就是第一組的上限值;
第二組上限值就是第二組的下限值加組距;
第三組以後,依此類推定出各組的組界。
(5)編制頻數分佈表。把多個組上下界限值分別填入頻數分佈表內,並把數據表中的各個數據列入相應的組,統計各組頻數據(f )。
(6)按數據值比例畫出橫座標。
(7)按頻數值比例畫縱座標。以觀測值數目或百分數表示。
(8)畫直方圖。按縱座標畫出每個長方形的高度,它代表取落在此長方形中的數據數。(注意:每個長方形的寬度都是相等的。)在直方圖上應標註出公差範圍(T)、樣本容量(n)、樣本平均值(x)、樣本標準偏差值(s)和x的位置等。

直方圖實例

現以某廠生產的產品重量為例,對應用直方圖的步驟加以説明:
(1)收集數據。作直方圖的數據一般應大於50個。本例 在生產過程中收集了100個數據,列於表一中。
直方圖應用案例圖 直方圖應用案例圖
(2)確定數據的極差(R)。用數據的最大值減去最小值 求得。本例最大值X max =48(cg),最小值X min =1(cg),所以極差 R= 48-1= 47(cg).
(3)確定組距(h)。先確定直方圖的組數,然後以此組數去除極差,可得直方圖每組的寬度,即組距。組數的確定要適當。組數太少,會引起較大計算誤差;組數太多,會影響數據分組規律的明顯性,且計算工作量加大。組數(k)的確定可參考組數(k)選用表二。
(4 )確定各組的界限值。為避免出現數據值與組界限值重合而造成頻數據計算困難,組的界限值單位應取最小測量單位的1/2。本例最小測量單位是個位,其界限值應取0.5。分組時應把數據表中最大值和最小值包括在內。
第一組下限值為:最小值-0.5=0.5;
第一組上限值為:第一組下限值加組距,即0.5+5=5.5;
第二組下限值就是第一組的上限值,即5.5;
第二組上限值就是第二組的下限值加組距,即5.5+5=10.5;
第三組以後,依此類推定出各組的組界。
(5)編制頻數分佈表。把多個組上下界限值分別填入頻數分佈表內,並把數據表中的各個數據列入相應的組,統計各組頻數據(f )。
(6)按數據值比例畫出橫座標
(7)按頻數值比例畫縱座標。以觀測值數目或百分數表示。
(8)畫直方圖。按縱座標畫出每個長方形的高度,它代表取落在此長方形中的數據數。(注意:每個長方形的寬度都是相等的。)在直方圖上應標註出公差範圍(T)、樣本容量(n)、樣本平均值(X)、樣本標準偏差值(s)和-x的位置等。

直方圖區域直方圖

直方圖用法

您可以通過區域直方圖對一個數據集中的值在另一個數據集類中的頻數分佈進行研究。例如,土地利用類中的坡度分佈、高程類中的降雨分佈或警務區附近的犯罪分佈。
區域定義為輸入中具有相同值的所有區。各區無需相連。柵格和要素數據集都可用於區域輸入。如果區域輸入和值輸入均為具有相同分辨率的柵格,則可直接使用它們。如果分辨率不同,則可先應用內部重採樣以使其相一致,然後再執行區域操作。
倘若輸入中存在任何 NoData 像元,重採樣就可能在輸出中產生比您預期更大的 NoData 區域。要避免此種情況,或者重新採樣粗糙輸入柵格,提高輸入柵格的分辨率,或者在“柵格分析”環境下將像元大小設置為輸入的最小值。
如果區域輸入為柵格數據集,則該輸入必須具有屬性表。通常會自動為整型柵格數據創建屬性表,但是某些情況下可能不會這樣做。您可以使用構建柵格屬性表來創建一個屬性表。建議您僅使用柵格作為區域輸入,因為這可使您更好地控制“矢量至柵格”轉換。這將有助於確保您始終獲得預期的結果。
如果區域輸入是要素數據集,則可在內部對其應用“矢量至柵格”轉換。要確保轉換結果與值柵格完全對齊,建議您檢查環境設置和柵格設置中的範圍和捕捉柵格是否設置正確。
由於內部柵格必須具有屬性表,因此在轉換中不創建屬性表的情況下將會發生錯誤。如果發生此錯誤,則使用要素轉柵格、面轉柵格、點轉柵格或折線轉柵格直接轉換要素數據集。按先前提示中所述內容為其生成屬性表,然後使用生成的柵格作為“區域”輸入。
如果區域輸入為要素相對較小的要素數據集,則需要牢記,信息的分辨率需要適合於值柵格的分辨率。如果單個要素的區域相似於或小於值柵格中單個像元的區域,則在要素轉柵格轉換過程中,某些區域可能不會顯示。要對此進行顯示,需嘗試使用適當的要素轉柵格轉換工具將要素數據集轉換為柵格,然後將分辨率指定為值柵格的分辨率。通過此轉換產生的結果會指明區域操作的默認輸出將是什麼。
如果輸出中的結果比您可能已預期的少,則需要確定表示要素輸入細節的適當的柵格分辨率,然後使用此分辨率作為“柵格分析環境設置”的像元大小。
如果區域輸入為點要素數據集,則其可能具有值輸入柵格的任何特定像元內所含的多個點。對於這種像元,區域值將通過具有最高要素 ID 的點來確定。
如果區域要素輸入具有疊置的面,則無法為每一個單獨的面執行區域分析。因為要素輸入已轉換為柵格,所以每個位置只能擁有一個值。
另一種方法就是要為每個面區域反覆進行分區統計並核對結果。
區域字段必須為整型或字符串類型。
在指定輸入區域數據時,默認區域字段將為第一個可用的有效字段。如果無其他有效字段存在,則 ObjectID 字段(如OID 或 FID)將為默認字段。
輸入值柵格上的像元屬於像元中心所在的區域。在此情況下,這些區域是在向柵格和重新採樣進行了任何必要轉換後的區域。
在直方圖中,每個區域的類(條柱)的數量由輸入賦值柵格確定。
如果指定圖層,則圖層的符號系統定義類的數量。
如果指定數據集,則在默認情況下將有 256 個類,除非輸入是具有少於 26 個唯一值的整型(在此情況下,它將是唯一值的總數)。
默認情況下不生成區域直方圖。要在工具運行時創建區域直方圖,可指定輸出圖形名稱。
該圖形只是臨時圖形(在內存中)。要創建該圖形的永久版本,可使用保存圖表工具創建 .grf 圖形文件,或者以該工具中提供的一種其他格式進行創建。

直方圖注意事項

a. 抽取的樣本數量過小,將會產生較大誤差,可信度低,也就失去了統計的意義。因此,樣本數不應少於50個。
b. 組數 k 選用不當,k 偏大或偏小,都會造成對分佈狀態的判斷有誤。
c. 直方圖一般適用於計量值數據,但在某些情況下也適用於計數值數據,這要看繪製直方圖的目的而定。
d. 圖形不完整,標註不齊全,直方圖上應標註:公差範圍線、平均值 的位置(點畫線表示)不能與公差中心M相混淆;圖的右上角標出:N、S、C p或 CPK.

直方圖繪製方法

①集中和記錄數據,求出其最大值和最小值。數據的數量應在100個以上,在數量不多的情況下,至少也應在50個以上。 我們把分成組的個數稱為組數,每一個組的兩個端點的差稱為組距
②將數據分成若干組,並做好記號。分組的數量在5-12之間較為適宜。
③計算組距的寬度。用最大值和最小值之差去除組數,求出組距的寬度。
④計算各組的界限位。各組的界限位可以從第一組開始依次計算,第一組的下界為最小值減去最小測定單位的一半,第一組的上界為其下界值加上組距。第二組的下界限位為第一組的上界限值,第二組的下界限值加上組距,就是第二組的上界限位,依此類推。
⑤統計各組數據出現頻數,作頻數分佈表
⑥作直方圖。以組距為底長,以頻數為高,作各組的矩形圖

直方圖分析質量

作直方圖是的目的是為了研究產品質量的分佈狀況,據此判斷生產過程是否處在正常狀態。直方圖為QC七大工具之一。因此在畫出直方圖後要進一步對它進行觀察和分析。在正常生產條件下,如果所得到的直方圖不是標準形狀,或者雖是標準形狀,但其分佈範圍不合理,就要分析其原因,採取相應措施。
(1)通過直方圖判斷生產過程是否有異常。對直方圖有些參差不齊不必太注意,主要應着眼於圖形的整個形狀。常見的直方圖分佈圖形大體上有六種。
①理想的圖形;
②多是因為測量和讀數有問題或是數據分組不當所引起的;
③多是因加工習慣造成的;
④多是加工條件的變動造成的;
⑤多是兩種不同生產條件的數據混在一起造成的;
⑥多是由於生產過程中某種緩慢的傾向起作用所至。
(2)運用直方圖勘量生產的質量狀況。將直方圖與公差範圍相比較,看直方圖是否都落在公差要求的範圍之內,可以提高生產的質量狀況。這種對比大體上存在六種情況。
①理想的情況;
②經濟性不好,需降低加工精度;
③需要採取措施適當縮小分佈;
④過分偏離公差中心,可能造成廢品;
⑤完全不留餘地,容易出現廢品,應採取措施調整
⑥已經產生廢品,應停產檢查。 [1] 

直方圖形狀分析

直方圖信息介紹

圖2 圖2
正常型是指過程處於穩定的圖型,它的形狀是中間高、兩邊低,左右近似對稱。近似是指直方圖多少有點參差不齊,主要看整體形狀。如圖2:
異常型直方圖種類則比較多,所以如果是異常型,還要進一步判斷它屬於哪類異常型,以便分析原因、加以處理。下面介紹幾種比較常見的:

直方圖孤島型

孤島型直方圖 孤島型直方圖
在直方圖旁邊有孤立的小島出現,當這種情況出現時過程中有異常原因。如:原料發生變化,不熟練的新工人替人加班,測量有誤等,都會造成孤島型分佈,應及時查明原因、採取措施。

直方圖雙峯型

當直方圖中出現了兩個峯,這是由於觀測值來自兩個總體、兩個分
雙峯型直方圖 雙峯型直方圖
布的數據混合在一起造成的。如:兩種有一定差別的原料所生產的產品混合在一起,或者就是兩種產品混在一起,此時應當加以分層。

直方圖折齒型

折齒型直方圖 折齒型直方圖
當直方圖出現凹凸不平的形狀,這是由於作圖時數據分組太多,測量儀器誤差過大或觀測數據不準確等造成的,此時應重新收集數據和整理數據。

直方圖陡壁型

陡壁型直方圖 陡壁型直方圖
當直方圖像高山的陡壁向一邊傾斜時,通常表現在產品質量較差時,為了符合標準的產品,需要進行全數檢查,以剔除不合格品。當用剔除了不合格品的產品數據作頻數直方圖時容易產生這種陡壁型,這是一種非自然形態

直方圖偏態型

偏態型直方圖是指圖的頂峯有時偏向左側、有時偏向右側。
偏態型直方圖 偏態型直方圖
由於某種原因使下限受到限制時,容易發生偏左型。如:用標準值控制下限,擺差等形位公差,不純成分接近於0,疵點數接近於0或由於工作習慣都會造成偏左型。
由於某種原因使上限受到限制時,容易發生偏右型。如:用標準尺控制上限,精度接近100%,合格率也接近100%或由於工作習慣都會造成偏右型。

直方圖平頂型

平頂型直方圖 平頂型直方圖
當直方圖沒有突出的頂峯,呈平頂型,然而形成這種情況一般有三種原因。 A、與雙峯型類似,由於多個總體、多總分佈混在一起。 B、由於生產過程中某中緩慢的傾向在起作用,如工具的磨損、操作者的疲勞等。 C、質量指標在某個區間中均勻變化。

直方圖比較分析

當直方圖的形狀呈正常型時,即工序在此時刻處於穩定狀態時,還需要進一步講直方圖同規格界限(即公差)進行比較,以分析判斷工序滿足公差要求的程度 [2] 
這裏規格的上限用Tu表示,Tl為規格的下限,公差中心M=
,樣本的分佈中心為
,樣本的標準差為s。
下面將與規格界限比較的常見幾種典型狀態,及其分析、控制要點結合圖型加以説明。

直方圖理想型

圖型對稱分佈,樣本分佈中心
與公差中心M近似重合,分佈在公差範圍內且兩邊有一定餘量,是理想狀態。因此,可保持狀態水平加以監督。

直方圖偏向型

樣本分佈中心
比公差中心M有較大偏移,這種情況下,稍有不慎就會出現不合格。因此要調整分佈中心與公差中心近似重合。

直方圖無富餘型

樣本分佈中心
與公差中心M近似重合,但兩邊與規格的上、下限緊緊相連,沒有餘地,表明過程能力已到極限,非常容易出現失控,造成不合格。因此,要立即採取措施,提高過程能力,減少標準偏差。

直方圖能力富餘型

樣本分佈中心
與公差中心M近似一致,但兩邊與規格上、下限有很大距離,説明工序能力出現過剩,經濟性差。因此,可考慮改變工藝,放寬加工精度或減少檢驗頻次,以降低成本。

直方圖能力不足型

樣本中心
與公差中心M近似重合,但分佈已超出上、下限。這時不合格已經出現。因此,要採取措施提高加工精度,減少標準偏差。
能力不足,左、右超限
樣本中心
與公差中心M有偏移且分佈有部分已超出上、下限。這種情況比較複雜。首先,調整分佈中心,使之與公差中心近似重合,如果,調整後,不合格消失,説明不合格主要是由於某個系統原因造成的,這時,在深入分析過程能力是否需要繼續提升等。其次,如果經調整,分佈中心與公差中心已近似重合,但仍有不合格,則説明過程能力已嚴重不足,樣本分散程度過大,要繼續提高加工精度,減少標準偏差。
攝影中的直方圖橫座標是表示亮度分佈,左邊暗,右邊亮,縱座標表示像素分佈。直方圖能夠顯示一張照片中色調的分佈情況,揭示了照片中每一個亮度級別下像素出現的數量,根據這些數值所繪出的圖像形態,可以初步判斷照片的曝光情況,直方圖是照片曝光情況最好的回饋。無論照片是有豐富的高光表現還是曝光過度了,還是有飽滿的細部暗調,或者是細節根本分辨不清,直方圖都能很直觀的顯示。
能力不足,左、右超限 能力不足,左、右超限
當今的大多數數碼相機都有內置的直方圖顯示功能,有單獨顯示的有疊加在圖像上顯示的;當拍完一張照片的時候,就可以開始使用直方圖來了解整個圖像的色調範圍。在拍攝期,攝影師就可以用它來了解照片是不是控制在想要的曝光範圍內。
從理論上説,一張曝光良好的照片,在不同的亮度級別下細節都應該非常豐富,各亮度值上都有像素分佈,像一座起伏波盪的小山丘,為了方便觀察,把直方圖劃分為5個區:每個區代表一個亮度範圍,左邊為極暗部、暗部,中間為中間調,右邊是亮部和極亮部,根據這些不同亮度範圍下像素出現的數量,對於高調照片(明亮調子且細節豐富的圖片)山丘的峯頂應該集中在直方圖右邊的亮部區,對於低調照片(深色調子且細節豐富的圖片)山丘的峯頂應該集中在直方圖左邊的暗部區域,如果山丘覆蓋了整個區域,説明曝光情況正好且細節清晰可見。
遙感影像的直方圖
圖像直方圖描述了圖像中每個亮度值DN的像元數量的統計分佈。它通過每個亮度值的像元數除以圖像中總得像元數,即頻率直方圖。在很多遙感應用中,直方圖是遙感圖像中所包含的信息的一種有用的圖示。每個波段的直方圖能提供關於原始圖像質量的信息,如其對比度的強弱,是否多峯值等。

直方圖直方圖均衡化

直方圖均衡化,是通過使用累積函數對灰度值進行“調整”以實現對比度的增強。直方圖均衡化處理的“中心思想”是把原始圖像的灰度直方圖從比較集中的某個灰度區間變成在全部灰度範圍內的均勻分佈。直方圖均衡化就是對圖像進行非線性拉伸,重新分配圖像像素值,使一定灰度範圍內的像素數量大致相同。
簡單説就是把給定圖像的直方圖分佈改變成“均勻”分佈直方圖分佈。其缺點:①變換後圖像的灰度級減少,某些細節消失;②某些圖像,如直方圖有高峯,經處理後對比度不自然的過分增強。

直方圖直方圖拉伸

直方圖拉伸的主要作用就是將灰度間隔小的圖像的灰度間隔擴大,以便於觀察圖像。直方圖拉伸是通過對比度拉伸對直方圖進行調整,從而“擴大”前景和背景灰度的差別,以達到增強對比度的目的。

直方圖直方圖匹配

直方圖匹配又叫直方圖規定化,是指把原圖像的直方圖變換為某種指定形態的直方圖或某一種參考圖像的直方圖,然後按照已知直方圖調整原圖像各個像元的灰度值,最後得到一幅直方圖匹配的圖像。 [3] 
參考資料
  • 1.    Scott, David W. (1992). Multivariate Density Estimation: Theory, Practice, and Visualization. New York: John Wiley.
  • 2.    中國質量協會.《質量管理小組 理論與方法》:中國標準出版社,2012
  • 3.    Doane DP (1976) Aesthetic frequency classification. American Statistician, 30: 181–183