複製鏈接
請複製以下鏈接發送給好友

貝葉斯分類器

鎖定
貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預先給定代價的情況下平均風險最小的分類器。它的設計方法是一種最基本的統計分類方法。其分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其後驗概率,即該對象屬於某一類的概率,選擇具有最大後驗概率的類作為該對象所屬的類。
中文名
貝葉斯分類器
外文名
Bayes classifier
學    科
數學
分    類
Naive Bayes、TAN、BAN和GBN

目錄

貝葉斯分類器基本定義

貝葉斯分類器種類

研究較多的貝葉斯分類器主要有四種,分別是Naive Bayes、TAN、BAN和GBN。

貝葉斯分類器解釋

貝葉斯網絡是一個帶有概率註釋的有向無環圖,每一個結點均表示一個隨機變量,兩結點間若存在着一條弧,則表示這兩結點相對應的隨機變量是概率相依的,反之則説明這兩個隨機變量是條件獨立的。網絡中任意一個結點X均有一個相應的條件概率表(Conditional Probability Table, CPT),用以表示結點X在其父結點取各可能值時的條件概率。若結點X無父結點,則X的CPT為其先驗概率分佈。貝葉斯網絡的結構及各結點的CPT定義了網絡中各變量的概率分佈

貝葉斯分類器分類

貝葉斯分類器是用於分類的貝葉斯網絡。該網絡中應包含類結點C,其中C 的取值來自於類集合( c1, c2, ... , cm),還包含一組結點X = (X1, X2, ... , Xn),表示用於分類的特徵。對於貝葉斯網絡分類器,若某一待分類的樣本D,其分類特徵值為x = (x1, x2, ... , xn) ,則樣本D屬於類別ci的概率P(C = ci | X1 = x1, X2 = x2, ... , Xn = xn) ,(i = 1, 2, ... , m) 應滿足下式:
P(C = ci | X = x) = Max{P(C = c1 | X = x), P(C = c2 | X = x), ... , P(C = cm | X = x)}
P(C = ci | X = x) = P(X = x | C = ci) * P(C = ci) / P(X = x)
其中,P(C = ci) 可由領域專家的經驗得到,而P(X = x | C = ci) 和P(X = x) 的計算則較困難。

貝葉斯分類器兩階段

應用貝葉斯網絡分類器進行分類主要分成兩階段。第一階段是貝葉斯網絡分類器的學習,即從樣本數據中構造分類器,包括結構學習和CPT學習;第二階段是貝葉斯網絡分類器的推理,即計算類結點的條件概率,對分類數據進行分類。這兩個階段時間複雜性均取決於特徵值間的依賴程度,甚至可以是NP完全問題,因而在實際應用中,往往需要對貝葉斯網絡分類器進行簡化。根據對特徵值間不同關聯程度的假設,可以得出各種貝葉斯分類器,Naive Bayes、TAN、BAN、GBN就是其中較典型、研究較深入的貝葉斯分類器。

貝葉斯分類器理論簡介

在具有模式的完整統計知識條件下,按照貝葉斯決策理論進行設計的一種最優分類器。
最小錯誤概率貝葉斯分類器
圖1 貝葉斯分類器 圖1 貝葉斯分類器
把代表模式的特徵向量x分到c個類別(ω1,ω2,...,ωc)中某一類的最基本方法是計算在 x的條件下,該模式屬於各類的概率,用符號P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比較這些條件概率,最大數值所對應的類別ωi就是該模式所屬的類。例如表示某個待查細胞的特徵向量 x屬於正常細胞類的概率是0.2,屬於癌變細胞類的概率是0.8,就把它歸類為癌變細胞。上述定義的條件概率也稱為後驗概率,在特徵向量為一維的情況下,一般有圖1中的變化關係。當 x=x*時,P(ω1|x)=P(ω2|x), 對於 x>x*的區域,由於P(ω2|x)>P(ω1|x)因此x屬ω2類,對於x<x*的區域,由於P(ω1|x)>P(ω2|x),x屬ω1類,x*就相當於區域的分界點。圖1中的陰影面積就反映了這種方法的錯誤分類概率,對於以任何其他的 x值作為區域分界點的分類方法都對應一個更大的陰影面積,因此貝葉斯分類器是一種最小錯誤概率的分類器
貝葉斯分類器
進行計算
公式 公式
一般情況下,不能直接得到後驗概率而是要通過貝葉斯公式進行計算。式中的P(xωi)為在模式屬於ωi類的條件下出現x概率密度,稱為x類條件概率密度P(ωi)為在所研究的識別問題中出現ωi類的概率,又稱先驗概率P(x)是特徵向量x的概率密度。分類器在比較後驗概率時,對於確定的輸入x,P(x)是常數,因此在實際應用中,通常不是直接用後驗概率作為分類器的判決函數gi(x)(見線性判別函數)而採用下面兩種形式:
對所有的c個類計算gi(x)(i=1,2,...,c)。與gi(x)中最大值相對應的類別就是x的所屬類別。
最小風險貝葉斯分類器
貝葉斯分類器 貝葉斯分類器
由於客觀事物的複雜性,分類器作出各種判決時的風險是不一樣的。例如將癌細胞誤判為正常細胞的風險就比將正常細胞誤判為癌細胞的風險大。因此,在貝葉斯分類器中引入了風險的概念。在實際應用中根據具體情況決定各種風險的大小,通常用一組係數Cij來表示。Cij表示分類器將把識別樣本分類為ωi,而該樣本的真正類別為ωj時的風險。設計最小風險分類器的基本思想是用後驗概率計算將 x分類為ωi的條件風險比較各Ri(x)的大小,與最小值對應的類別是分類的結果。評價這種分類器的標準是平均風險,它的平均風險最小。在實際應用時,後驗概率是難以獲得的,根據模式類別的多少和Cij的取值方式,可設計出各種分類器,例如模式為兩類時,判別函數為如果選擇C11和C22為零,C12和C21為1,它就是兩類最小錯誤概率分類器。實際上,最小錯誤概率分類器是最小風險分類器的一種特殊情況。
判別函數 判別函數
設計貝葉斯分類器的關鍵是要知道樣本特徵 x的各種概率密度函數。條件概率密度函數為多元正態分佈是研究得最多的分佈。這是由於它的數學表達式易於分析,在實際應用中也是一種常見的分佈形式。經常使用參數方法來設計正態分佈的判別函數 [1] 
參考資料
  • 1.    福永圭之介著 陶篤純譯.統計圖形識別導論.北京:科學出版社,1978