複製鏈接
請複製以下鏈接發送給好友

樸素貝葉斯

鎖定
樸素貝葉斯法(Naive Bayes model)是基於貝葉斯定理與特徵條件獨立假設的分類方法 [1] 
最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBM)。和決策樹模型相比,樸素貝葉斯分類器(Naive Bayes Classifier 或 NBC)發源於古典數學理論,有着堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此,這是因為NBC模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。
中文名
樸素貝葉斯
外文名
Naive Bayes model
簡    稱
NBM

樸素貝葉斯定義

樸素貝葉斯貝葉斯方法

貝葉斯方法是以貝葉斯原理為基礎,使用概率統計的知識對樣本數據集進行分類。由於其有着堅實的數學基礎,貝葉斯分類算法的誤判率是很低的。貝葉斯方法的特點是結合先驗概率和後驗概率,即避免了只使用先驗概率的主觀偏見,也避免了單獨使用樣本信息的過擬合現象。貝葉斯分類算法在數據集較大的情況下表現出較高的準確率,同時算法本身也比較簡單。 [2] 

樸素貝葉斯樸素貝葉斯算法

樸素貝葉斯算法(Naive Bayesian algorithm) 是應用最為廣泛的分類算法之一。
樸素貝葉斯方法是在貝葉斯算法的基礎上進行了相應的簡化,即假定給定目標值時屬性之間相互條件獨立。也就是説沒有哪個屬性變量對於決策結果來説佔有着較大的比重,也沒有哪個屬性變量對於決策結果佔有着較小的比重。雖然這個簡化方式在一定程度上降低了貝葉斯分類算法的分類效果,但是在實際的應用場景中,極大地簡化了貝葉斯方法的複雜性。 [3] 

樸素貝葉斯算法原理

樸素貝葉斯分類(NBC)是以貝葉斯定理為基礎並且假設特徵條件之間相互獨立的方法,先通過已給定的訓練集,以特徵詞之間獨立作為前提假設,學習從輸入到輸出的聯合概率分佈,再基於學習到的模型,輸入
求出使得後驗概率最大的輸出
[4] 
設有樣本數據集
,對應樣本數據的特徵屬性集為
類變量
,即
可以分為
類別。其中
相互獨立且隨機,則
先驗概率
後驗概率
,由樸素貝葉斯算法可得,後驗概率可以由先驗概率
、證據
、類條件概率
計算出:
樸素貝葉斯基於各特徵之間相互獨立,在給定類別為
的情況下,上式可以進一步表示為下式:
由以上兩式可以計算出後驗概率為:
由於
的大小是固定不變的,因此在比較後驗概率時,只比較上式的分子部分即可。因此可以得到一個樣本數據屬於類別
的樸素貝葉斯計算:

樸素貝葉斯優缺點

樸素貝葉斯優點

樸素貝葉斯算法假設了數據集屬性之間是相互獨立的,因此算法的邏輯性十分簡單,並且算法較為穩定,當數據呈現不同的特點時,樸素貝葉斯的分類性能不會有太大的差異。換句話説就是樸素貝葉斯算法的健壯性比較好,對於不同類型的數據集不會呈現出太大的差異性。當數據集屬性之間的關係相對比較獨立時,樸素貝葉斯分類算法會有較好的效果。 [3] 

樸素貝葉斯缺點

屬性獨立性的條件同時也是樸素貝葉斯分類器的不足之處。數據集屬性的獨立性在很多情況下是很難滿足的,因為數據集的屬性之間往往都存在着相互關聯,如果在分類過程中出現這種問題,會導致分類的效果大大降低。 [3] 

樸素貝葉斯應用

樸素貝葉斯文本分類

分類是數據分析和機器學習領域的一個基本問題。文本分類已廣泛應用於網絡信息過濾、信息檢索和信息推薦等多個方面。數據驅動分類器學習一直是近年來的熱點,方法很多,比如神經網絡決策樹支持向量機、樸素貝葉斯等。相對於其他精心設計的更復雜的分類算法,樸素貝葉斯分類算法是學習效率和分類效果較好的分類器之一。直觀的文本分類算法,也是最簡單的貝葉斯分類器,具有很好的可解釋性,樸素貝葉斯算法特點是假設所有特徵的出現相互獨立互不影響,每一特徵同等重要。但事實上這個假設在現實世界中並不成立:首先,相鄰的兩個詞之間的必然聯繫,不能獨立;其次,對一篇文章來説,其中的某一些代表詞就確定它的主題,不需要通讀整篇文章、查看所有詞。所以需要採用合適的方法進行特徵選擇,這樣樸素貝葉斯分類器才能達到更高的分類效率。 [5] 

樸素貝葉斯其他

樸素貝葉斯算法在文字識別, 圖像識別方向有着較為重要的作用。 可以將未知的一種文字或圖像,根據其已有的分類規則來進行分類,最終達到分類的目的。
現實生活中樸素貝葉斯算法應用廣泛,如文本分類,垃圾郵件的分類,信用評估,釣魚網站檢測等等。
參考資料