反饋

樸素貝葉斯

樸素貝葉斯法（Naive Bayes model）是基於貝葉斯定理與特徵條件獨立假設的分類方法^[1] 。

最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Naive Bayesian Model，NBM）。和決策樹模型相比，樸素貝葉斯分類器(Naive Bayes Classifier 或 NBC)發源於古典數學理論，有着堅實的數學基礎，以及穩定的分類效率。同時，NBC模型所需估計的參數很少，對缺失數據不太敏感，算法也比較簡單。理論上，NBC模型與其他分類方法相比具有最小的誤差率。但是實際上並非總是如此，這是因為NBC模型假設屬性之間相互獨立，這個假設在實際應用中往往是不成立的，這給NBC模型的正確分類帶來了一定影響。

中文名: 樸素貝葉斯

外文名: Naive Bayes model
簡稱: NBM

樸素貝葉斯定義

樸素貝葉斯貝葉斯方法

貝葉斯方法是以貝葉斯原理為基礎，使用概率統計的知識對樣本數據集進行分類。由於其有着堅實的數學基礎，貝葉斯分類算法的誤判率是很低的。貝葉斯方法的特點是結合先驗概率和後驗概率，即避免了只使用先驗概率的主觀偏見，也避免了單獨使用樣本信息的過擬合現象。貝葉斯分類算法在數據集較大的情況下表現出較高的準確率，同時算法本身也比較簡單。^[2]

樸素貝葉斯樸素貝葉斯算法

樸素貝葉斯算法（Naive Bayesian algorithm）是應用最為廣泛的分類算法之一。

樸素貝葉斯方法是在貝葉斯算法的基礎上進行了相應的簡化，即假定給定目標值時屬性之間相互條件獨立。也就是説沒有哪個屬性變量對於決策結果來説佔有着較大的比重，也沒有哪個屬性變量對於決策結果佔有着較小的比重。雖然這個簡化方式在一定程度上降低了貝葉斯分類算法的分類效果，但是在實際的應用場景中，極大地簡化了貝葉斯方法的複雜性。^[3]

樸素貝葉斯算法原理

樸素貝葉斯分類（NBC）是以貝葉斯定理為基礎並且假設特徵條件之間相互獨立的方法，先通過已給定的訓練集，以特徵詞之間獨立作為前提假設，學習從輸入到輸出的聯合概率分佈，再基於學習到的模型，輸入

求出使得後驗概率最大的輸出

。^[4]

設有樣本數據集

，對應樣本數據的特徵屬性集為

類變量為

，即

可以分為

類別。其中

相互獨立且隨機，則

的先驗概率

，

的後驗概率

，由樸素貝葉斯算法可得，後驗概率可以由先驗概率

、證據

、類條件概率

計算出：

樸素貝葉斯基於各特徵之間相互獨立，在給定類別為

的情況下，上式可以進一步表示為下式：

由以上兩式可以計算出後驗概率為：

由於

的大小是固定不變的，因此在比較後驗概率時，只比較上式的分子部分即可。因此可以得到一個樣本數據屬於類別

的樸素貝葉斯計算：

樸素貝葉斯優缺點

樸素貝葉斯優點

樸素貝葉斯算法假設了數據集屬性之間是相互獨立的，因此算法的邏輯性十分簡單，並且算法較為穩定，當數據呈現不同的特點時，樸素貝葉斯的分類性能不會有太大的差異。換句話説就是樸素貝葉斯算法的健壯性比較好，對於不同類型的數據集不會呈現出太大的差異性。當數據集屬性之間的關係相對比較獨立時，樸素貝葉斯分類算法會有較好的效果。^[3]

樸素貝葉斯缺點

屬性獨立性的條件同時也是樸素貝葉斯分類器的不足之處。數據集屬性的獨立性在很多情況下是很難滿足的，因為數據集的屬性之間往往都存在着相互關聯，如果在分類過程中出現這種問題，會導致分類的效果大大降低。^[3]

樸素貝葉斯應用

樸素貝葉斯文本分類

分類是數據分析和機器學習領域的一個基本問題。文本分類已廣泛應用於網絡信息過濾、信息檢索和信息推薦等多個方面。數據驅動分類器學習一直是近年來的熱點，方法很多，比如神經網絡、決策樹、支持向量機、樸素貝葉斯等。相對於其他精心設計的更復雜的分類算法，樸素貝葉斯分類算法是學習效率和分類效果較好的分類器之一。直觀的文本分類算法，也是最簡單的貝葉斯分類器，具有很好的可解釋性，樸素貝葉斯算法特點是假設所有特徵的出現相互獨立互不影響，每一特徵同等重要。但事實上這個假設在現實世界中並不成立：首先，相鄰的兩個詞之間的必然聯繫，不能獨立；其次，對一篇文章來説，其中的某一些代表詞就確定它的主題，不需要通讀整篇文章、查看所有詞。所以需要採用合適的方法進行特徵選擇，這樣樸素貝葉斯分類器才能達到更高的分類效率。^[5]

樸素貝葉斯其他

樸素貝葉斯算法在文字識別，圖像識別方向有着較為重要的作用。可以將未知的一種文字或圖像，根據其已有的分類規則來進行分類，最終達到分類的目的。

現實生活中樸素貝葉斯算法應用廣泛，如文本分類，垃圾郵件的分類，信用評估，釣魚網站檢測等等。

參考資料

1. 李航．統計學習方法．北京：清華大學出版社，2012
2. 貝葉斯機器學習前沿進展綜述．中國知網[引用日期2019-06-09]
3. 樸素貝葉斯算法的改進與應用．中國知網[引用日期2019-06-09]
4. 基於樸素貝葉斯的中文文本分類及Python實現．中國知網[引用日期2019-06-09]
5. 樸素貝葉斯方法在中文文本分類中的應用．中國知網[引用日期2019-06-09]

樸素貝葉斯的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：33次歷史版本
最近更新：不会说的段子手（2023-12-24）

1 定義: 1.1 貝葉斯方法; 1.2 樸素貝葉斯算法
2 算法原理
3 優缺點: 3.1 優點; 3.2 缺點
4 應用: 4.1 文本分類; 4.2 其他