複製鏈接
請複製以下鏈接發送給好友

判別分析

鎖定
判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變量統計分析方法。
其基本原理是按照一定的判別準則,建立一個或多個判別函數,用研究對象的大量資料確定判別函數中的待定係數,並計算判別指標。據此即可確定某一樣本屬於何類。
當得到一個新的樣品數據,要確定該樣品屬於已知類型中哪一類,這類問題屬於判別分析問題。
中文名
判別分析
別    名
分辨法
定    義
統計判別和分組技術
研究對象
某一研究對象的各種特徵值
學    科
統計學
原    理
判別函數

判別分析簡介

判別分析,是一種統計判別和分組技術,就一定數量樣本的一個分組變量和相應的其他多元變量的已知信息,確定分組與其他多元變量信息所屬的樣本進行判別分組。
解決問題:已知某種事物有幾種類型,現在從各種類型中各取一個樣本,由這些樣本設計出一套標準,使得從這種事物中任取一個樣本,可以按這套標準判別它的類型。

判別分析基本思想

根據判別中的組數,可以分為兩組判別分析和多組判別分析;
根據判別函數的形式,可以分為線性判別和非線性判別;
根據判別式處理變量的方法不同,可以分為逐步判別、序貫判別等;
根據判別標準不同,可以分為距離判別、Fisher判別、Bayes判別法等。

判別分析判別函數

判別分析通常都要設法建立一個判別函數,然後利用此函數來進行批判,判別函數主要有兩種,即線性判別函數(Linear Discriminant Function)和典則判別函數(Canonical Discriminate Function)。
線性判別函數是指對於個總體,如果各組樣品互相對立,且服從多元正態分佈,就可建立線性判別函數,形式如下:
其中,是判別組數;是判別指標(又稱判別分數或判別值),根據所用的方法不同,可能是概率,也可能是座標值或分值;是自變量或預測變量,即反映研究對象特徵的變量;是各變量係數,也稱判別係數。建立函數必須使用一個訓練樣品。所謂訓練樣品就是已知實際分類且各指標的觀察值也已測得的樣品,它對判別函數的建立非常重要。
典則判別函數是原始自變量的線性組合,通過建立少量的典則變量可以比較方便地描述各類之間的關係,例如可以用畫散點圖和平面區域圖直觀地表示各類之間的相對關係等。

判別分析建立方法

建立判別函數的方法一般由四種:全模型法、向前選擇法、向後選擇法和逐步選擇法。
1)全模型法是指將用户指定的全部變量作為判別函數的自變量,而不管該變量是否對研究對象顯著或對判別函數的貢獻大小。此方法適用於對研究對象的各變量有全面認識的情況。如果未加選擇的使用全變量進行分析,則可能產生較大的偏差。
2)向前選擇法是從判別模型中沒有變量開始,每一步把一個隊判別模型的判斷能力貢獻最大的變量引入模型,直到沒有被引入模型的變量都不符合進入模型的條件時,變量引入過程結束。當希望較多變量留在判別函數中時,使用向前選擇法。
3)向後選擇法與向前選擇法完全相反。它是把用户所有指定的變量建立一個全模型。每一步把一個對模型的判斷能力貢獻最小的變量剔除模型,直到模型中的所用變量都不符合留在模型中的條件時,剔除工作結束。在希望較少的變量留在判別函數中時,使用向後選擇法。
4)逐步選擇法是一種選擇最能反映類間差異的變量子集,建立判別函數的方法。它是從模型中沒有任何變量開始,每一步都對模型進行檢驗,將模型外對模型的判別貢獻最大的變量加入到模型中,同時也檢查在模型中是否存在“由於新變量的引入而對判別貢獻變得不太顯著”的 變量,如果有,則將其從模型中出,以此類推,直到模型中的所有變量都符合引入模型的條件,而模型外所有變量都不符合引入模型的條件為之,則整個過程結束。

判別分析判別方法

判別方法是確定待判樣品歸屬於哪一組的方法,可分為參數法和非參數法,也可以根據資料的性質分為定性資料的判別分析和定量資料的判別分析。此處給出的分類主要是根據採用的判別準則分出幾種常用方法。除最大似然法外,其餘幾種均適用於連續性資料。
1)最大似然法:用於自變量均為分類變量的情況,該方法建立在獨立事件概率乘法定理的基礎上,根據訓練樣品信息求得自變量各種組合情況下樣品被封為任何一類的概率。當新樣品進入是,則計算它被分到每一類中去的條件概率(似然值),概率最大的那一類就是最終評定的歸類。
2)距離判別:其基本思想是由訓練樣品得出每個分類的重心座標,然後對新樣品求出它們離各個類別重心的距離遠近,從而歸入離得最近的類。也就是根據個案離母體遠近進行判別。最常用的距離是馬氏距離,偶爾也採用歐式距離。距離判別的特點是直觀、簡單,適合於對自變量均為連續變量的情況下進行分類,且它對變量的分佈類型無嚴格要求,特別是並不嚴格要求總體協方差陣相等。
3)Fisher判別:亦稱典則判別,是根據線性Fisher函數值進行判別,通常用於梁祝判別問題,使用此準則要求各組變量的均值有顯著性差異。該方法的基本思想是投影,即將原來在R維空間的自變量組合投影到維度較低的D維空間去,然後在D維空間中再進行分類。投影的原則是使得每一類的差異儘可能小,而不同類間投影的離差儘可能大。Fisher判別的優勢在於對分佈、方差等都沒有任何限制,應用範圍比較廣。另外,用該判別方法建立的判別方差可以直接用手工計算的方法進行新樣品的判別,這在許多時候是非常方便的。
4)Bayes判別:許多時候用户對各類別的比例分佈情況有一定的先驗信息,也就是用樣本所屬分類的先驗概率進行分析。比如客户對投遞廣告的反應絕大多數都是無迴音,如果進行判別,自然也應當是無迴音的居多。此時,Bayes判別恰好適用。Bayes判別就是根據總體的先驗概率,使誤判的平均損失達到最小而進行的判別。其最大優勢是可以用於多組判別問題。但是適用此方法必須滿足三個假設條件,即各種變量必須服從多元正態分佈、各組協方差矩陣必須相等、各組變量均值均有顯著性差異。

判別分析驗證方法

對於判別分析,用户往往很關心建立的判別函數用於判別分析時的準確度如何。通常的效果驗證方法如自身驗證、外部數據驗證、樣品二分法、交互驗證、Bootstrap法。 [1] 

判別分析應用

在氣候分類、農業區劃、土地類型劃分中有着廣泛的應用。
市場調研中,一般根據事先確定的因變量(例如產品的主要用户、普通用户和非用户、自有房屋或租賃、電視觀眾和非電視觀眾)找出相應處理的區別特性。在判別分析中,因變量為類別數據,有多少類別就有多少類別處理組;自變量通常為可度量數據。通過判別分析,可以建立能夠最大限度的區分因變量類別的函數,考查自變量的組間差異是否顯著,判斷那些自變量對組間差異貢獻最大,評估分類的程度,根據自變量的值將樣本歸類。
應用範圍
1)信息丟失
2)直接的信息得不到
3)預報
4)破壞性實驗
假設條件
1)分組類型在兩種以上,且組間樣本在判別值上差別明顯。
2)組內樣本數不得少於兩個,並且樣本數量比變量起碼多兩個。
3)所確定的判別變量不能是其他判別變量的線性組合。
4)各組樣本的協方差矩陣相等。
5)各判別變量之間具有多元正態分佈。
6)樣品量應在所使用的自變量個數的10~20倍以上時,建立的判別函數才比較穩定;而自變量個數在8~10之間時,函數的判別效果才能比較理想。當然,在實際工作中判別函數的自變量個數往往會超過10個,但應該注意的是,自變量的個數多並不代表效果好
spss操作:“分析”~“分類”~“判別”~進入判別分析主對話框。
這裏有容易引起歧義的二個變量,最上面的為分組變量。對分組變量的瞭解需要聯繫判別分析的原理以及適用範圍。因為判別分析是已知分類數目的情況下,進行分析,這個已知的分類數目就是這個分組變量。其實,一般分析步驟中,都是先進行聚類分析,聚類之後得到的分類結果就是這個分組變量,然後再選擇這個分組變量,進行分析。也就是,聚類分析是母親,母親的孩子就是判別分析。得到的判別函數就是預測想要知道的個案究竟屬於哪一類。另一個變量就是選擇變量,它位於主對話框的最下面。這個選擇變量在迴歸分析相應的對話框中也有,意思就是選擇你需要的變量,這個變量可以為數據窗口的一個整個變量,也可以利用子設置“值”進行選擇,所以,它的名字叫做選擇變量。
“統計量”子對話框:“描述性”欄,包括“均值”“單變量ANOVA”“BoxsM”
需要特別説明,以後只要見到ANOVA這個單詞,它的意思就是方差分析,也就是進一步輸出方差分析表,其中最重要的就是P值也就是Sig值。
BoxsM複選框:指的是輸出對組協方差矩陣的等同性檢驗的檢驗結果。也就是對各類協方差矩陣相等的假設進行檢驗。
“函數係數”欄:其實就是將判別函數係數進行設置。包括“費雪”和“未標準化”。費雪指的是對每一類給出一組係數,並且給出該組中判別分數最大的觀測量。
“矩陣”欄:都是複選框,對應相應的矩陣也就是在結果表中的四種數陣。“組內相關”“組內協方差”“分組協方差”“總體協方差”這個都是計算機自動計算,人工計算是不可能完成的任務。
“分類”子對話框:本文也提到過先驗概率,先驗概率就是已知一部分信息,來了解未知信息也就是後驗概率。
“所有組相等”也就是如果分為幾類,這所有的類中的先驗概率都相等。
“根據組大小計算”各類先驗概率按照和各類樣本量呈正比。
“使用協方差矩陣”欄:是二個單選框。“在組內”指使用合併組內協方差矩陣進行分析
“分組”指使用各組協方差矩陣進行分析。
“輸出”欄~“個案結果”:對每一個觀測量輸出判別分數,也就是選定變量的個案的分進哪個組的資格得分。實際類,預測類,也就是根據判別得分計算的古今對比。實際類就是目前實際上分為幾類,預測類就是過去對未來預測,它們一對比,就可以知道過去和現在差別在哪裏。附屬選項“將個案限制在”在後面的小矩形框中輸入觀測量數,含義為僅輸出設置的觀測量結果,當個案也就是觀測量太多,可以用此法。
“摘要表”輸出分類小結,給出正確和錯分的觀測量數,和錯判率。
“不考慮該個案時的分類”這個根據字面就可以理解,不贅述。
“圖”欄:“合併組”生成一張包括各類的散點圖,該散點圖根據前兩個判別函數得到,如果只有一個判別函數,則生成直方圖。
“分組”複選框:有幾類就有幾張散點圖,和上面一樣,如果只有一個判別函數,就生成直方圖。
“區域圖”複選框:將觀測量分到各組中去的區域圖。此圖將一張圖的平面劃分出類數,相同的區域,每一類佔據一個區,各類的均值在各區中用星號標出,如果僅有一個判別函數,即沒有此圖。
“保存”子對話框:這個設置是非常重要的,並且特別直觀,只要選擇,就可以在數據窗口生成相應的新變量。這個新變量分別是:“預測組成員”這個預測組成員是根據判別分數,以及後驗概率最大的預測分類。也就是,每個個案的預測分類。
“判別得分”這個根據名字就可以理解。該分數=沒有標準化的判別係數×自變量的值+一個常數。每次運行判別過程都給出一組表明判別分數的新變量。有幾個判別函數就建立幾個判別函數減1的新變量。新變量名稱詞頭為dis-。
舉例:1 醫學實踐中根據各種化驗結果,疾病症狀等判斷病人患有什麼疾病。
2 體育人才選拔根據運動員的體形,運動成績,生理指標,心理素質指標判斷是否繼續培養。
3 動植物分類
判別分析最主要的分析目的:得到判別函數,對未知個案進行預測分類。
“組成員概率”表示觀測量屬於哪一類的概率,有幾類,就給出幾類概率值,新變量默認名為dis預測分類數-判別概率,例如有三類,二個判別函數,則新變量名稱可以為dis1-1,dis2-1,dis3-1,dis3-2以此類推。
逐步判別分析:只要在主對話框中選擇“使用步進式方法”,就可以篩選變量,同時,方法對話框將激活。
“方法”對話框中“標準”欄的設置和線性迴歸的一樣,不贅述。
“方法”欄:原則就是,負面指標越小越好,正面指標越大越好。負面指標是wilks lambda和未解釋方差,正面指標是馬氏距離,最小F值,Raos V。馬氏距離在迴歸中越大代表這個個案為影響點可能越大,也就是,只有這個個案為影響點,它越重要,越對判別函數影響越大,把它挑出來,也就是馬氏距離最大。
結果:1 sig值小於0.05,説明可以繼續分析,函數具有判別作用,也就是有統計學意義。
2 數據窗口對話框,將在“保存”子對話框設置的新變量和在主對話框的分組變量進行對比,每個個案被分到哪類,以及判別得分,都一目瞭然。
3 根據輸出表中的係數,可以寫出判別函數,進行以後的預測。
參考資料
  • 1.    艾倫 心理統計 世界圖書出版公司 2006