-
貝葉斯分類
鎖定
- 中文名
- 貝葉斯分類
- 外文名
- Bayesian classification
- 學 科
- 統計學,廣泛應用於其他學科
- 屬 性
- 分類方法
- 特 點
- 用概率來表示所有形式的不確定性
貝葉斯分類背景介紹
數據分類(Classification)在商業應用上具有重要意義,是數據挖掘中非常重要的一項研究內容。通常數據分類的做法是,基於樣本數據先訓練構建分類函數或者分類模型(也稱為分類器),該分類器的具有將待分類數據項映射到某一特點類別的功能,數據分類和迴歸分析都可用於預測,預測是指從基於樣本數據記錄,根據分類準則自動給出對未知數據的推廣描述,從而實現對未知數據進行預測
[1]
。
貝葉斯分類是統計學的分類方法,其分析方法的特點是使用概率來表示所有形式的不確定性,學習或推理都要用概率規則來實現。
貝葉斯分類貝葉斯分類的原理
基於統計學的貝葉斯分類方法以貝葉斯理論為基礎,通過求解後驗概率分佈,預測樣本屬於某一類別的概率。貝葉斯公式可寫成如下形式:
P(y|x)=P(x|y)*P(A)*P(y)/(P(x) (4-1)其中,P(y I x)為後驗概率分佈,P(y)為先驗分佈,P(x)通常為常數。
為了簡化運算,樸素貝葉斯分類算法假定任意屬性對類別的影響與其他屬性對類別的影響無關,這種假定稱為類條件獨立樸素假定。如圖《樸素貝葉斯分類模型》所示,展示了樸素貝葉斯分類中屬性和類之間的關係,C表示待分類別,A1, ..., A4表示樣本屬性,箭頭表示屬性變量和類別變量之間的依存關係,從圖中可以看出,在樸素貝葉斯分類模型中,樣本屬性Ai和Aj ( i不等於j)之間不存在相互依賴關係,他們僅與節點類C有關
[1]
。
已知樣本數據x =< x1 , . .. , xn >(樣本數據x共有n種屬性,其中xi表示第i個屬性Ai的值)屬於任意類,(y∈ { c1,,...,ck})(總共k個類別,cj表示第j個類)的概率。給定一個未分類的數據樣本X,應用樸素貝葉斯分類算法,預測樣本數據X屬於具有最高後驗概率的類,未知樣本X屬於類別c;的條件是,當且僅當
貝葉斯分類(10張)
因此,將最大化後驗概率P(ciIX)或者其對數形式稱為最大後驗假定,記為arg maxy P( y IX)。
根據全概率公式,對於任意類別ci。
在任意一次分類中取值均相等,也就是説,數據樣本X產生的概率相同(P(X)定義為常數),因此,可以將後驗概率P(yl X)表示成概率乘積正比關係式:
P(yIX)∝P(XIy)*P(y)
因此,求取arg maxyP( y IX)相當於求取arg maxyP(XIy);而arg maxyP(XIy)的計算要相對容易很多,所以,在實際應用中通常根據式(4-4 )來求解後驗概率。
根據樸素貝葉斯分類算法的類條件獨立假設,給定樣本數據的類標號,各屬性值xi之間相互條件獨立,彼此不存在相互依賴關係。
也就是説,為對未知樣本X分類,對每個類ci計算P(xl ci)P(ci);當且僅當P(Xlci)P(ci)>P(Xlcj)P(cj),1≤j≤m,j≠i (4-7)
貝葉斯分類貝葉斯分類特點
貝葉斯分類是統計學方法,它主要是基於貝葉斯定理。通過計算給定實例屬於一個特定類的概率來對給定實例進行分類。貝葉斯分類具有以下特點:
(1)貝葉斯分類不把一個實例絕對的指派給某一種分類,而是通過計算得到實例屬於某一分類的概率,具有最大概率的類就是該實例所屬的分類;
(2)一般情況下在貝葉斯分類中所有屬性都潛在的對分類結果發揮作用,能夠使所有的屬性都參與到分類中;
(3)貝葉斯分類實例的屬性可以是離散的、連續的,也可以是混合的。
貝葉斯方法因其在理論上給出了最小化誤差的最優解決方法而被廣泛應用於分類問題。在貝葉斯方法的基礎上,提出了貝葉斯網絡((Bayesian Network, BN)方法。樸素貝葉斯分類就是假定一個屬性對於給定分類的影響獨立於其他屬性。這一假定被稱作條件獨立,對實力屬性的這種假設大大簡化了分類所需的計算量。大量的研究結果表明,雖然BN算法對屬性結點之間的連接結構進行了限制,但是樸素貝葉斯的分類器的分類性能優於標準的貝葉斯網絡分類器
[2]
。
- 參考資料
-
- 1. 基於疊前道集的儲層參數反演方法研究 .中國知網.2011年[引用日期2017-09-16]
- 2. 基於油田壓裂微地震監測的震相識別與震源定位方法研究 .中國知網.2012年[引用日期2017-09-16]