複製鏈接
請複製以下鏈接發送給好友

結構學習

鎖定
結構學習是指貝葉斯網絡結構學習
中文名
結構學習
外文名
Structure learning
所屬學科
信息科學
拼    音
jié gòuxué xí
適用範圍
人工智能
別    名
貝葉斯網絡結構學習

目錄

結構學習定義

結構學習是指貝葉斯網絡結構學習。貝葉斯網絡中涉及到兩種學習問題:結構學習和參數學習 [1] 
貝葉斯網絡(Bayesiannetworks,BN)是概率論與圖論結合的產物,已經成為處理不確定性問題的有效工具。
貝葉斯網絡結構學習一般貝葉斯網絡的構建是首先由相關領域的專家根據事物間的關係來確定出結構模型,即有向無環圖,然後再利用其它方法確定每個節點的條件概率,但這樣構建的網絡模型無法保證其客觀性和可靠性。因此,研究人員嘗試引入客觀的觀測數據,希望通過將觀測數據與專家知識相結合來共同構建貝葉斯網絡,並進一步在沒有專家先驗知識的情況下,嘗試完全從觀測數據中學習得到網絡結構和參數。其中網絡結構的學習不但是整個學習過程的基礎,並且是一個NP難題,因此更吸引了大量研究人員的注意。研究人員借鑑統計學領域對多變量聯合概率分佈近似分解的方法,從多個角度對該問題進行研究,形成了基於獨立性檢驗和基於評價與搜索的兩大類算法。在一系列假設下,研究人員通過將先驗信息與觀測數據相結合,實現了多種網絡結構模型的學習算法,進而提出了在沒有任何先驗信息情況下的相應算法。最近的研究開始減弱甚至放棄某些假設,從更一般意義下研究網絡結構的學習。因果貝葉斯網絡結構模型的學習有時也稱為因果發現或因果挖掘。這是因為數據的處理所獲得的結構模型反映了事物間因果關係的知識。從廣義的角度講,因果數據挖掘可以認為是從數據中發現有關因果性知識的過程 [1] 

結構學習分類

貝葉斯網絡結構學習分為完備數據和不完備數據兩種情況。完備數據下貝葉斯網絡結構學習的方法通常分為三類:基於依賴統計分析的方法;基於評分搜索的方法;結合上述兩種方法的混合搜索算法。不完備數據下的貝葉斯網絡結構學習算法需要對數據進行修補,然後再對貝葉斯網絡進行結構學習 [2] 
一般地,貝葉斯網絡結構學習的方法可以分為兩大類:基於獨立性測試的方法;基於評分搜索的方法。基於評分搜索的方法包括2個要素,即評分標準和搜索策略。由於貝葉斯網絡結構學習是一個NP難問題,因此基於評分搜索的貝葉斯網絡結構學習方法中的搜索算法一般採用啓發式搜索算法。國內外的學者提出了許多基於評分搜索的方法,例如Cooper等1992年提出了K2算法。Chickering在2002年提出貪婪算法(greedysearch,GS)。李顯傑等在2008年將量子遺傳算法用於貝葉斯網絡結構學習,取得較好的效果,但該方法編碼方式較複雜。高曉利在2011年提出了一種改進的學習貝葉斯結構的貪婪算法,該算法結合了條件獨立性測試方法,當節點個數增大時,條件獨立性測試呈指數增長,這種方法適合節點較少的網絡結構。人工蜂羣(artificialbeecolony,ABC)算法是Dkaraboga 2005年提出的一種羣體智能優化算法。該算法結構簡單、參數較少、易於實現,受到了眾多學者的關注和研究,併成功應用於函數優化、神經網絡訓練、控制工程等問題 [2] 

結構學習應用

空間決策支持系統中貝葉斯網的應用
GIS的應用越來越廣泛,應用GIS的主要目的是為了支持高層管理和決策的需要,空間數據質量的可靠性是GIS中一個關鍵的特性,因為質量差的數據導致效果差的決策。錯誤的決策會帶來嚴重的後果。因此空間數據的不確定性和質量控制是GIS系統中一個重要的研究課題。空間數據的不確定性來自多種原因,如對現實問題的理解和建模,數據的編碼、編輯、變化、處理、分析和輸出過程都可能導致空間數據具有不確定性的特徵。空間數據的不確定性包括空間位置不確定性、拓撲關係的不確定性、屬性的不確定性和時間不確定性。同樣,貝葉斯網的概率推理可用在GIS中評估決策制訂的風險情況,以保障空間決策的正確性和可靠性 [3] 
貝葉斯網在數據挖掘中的應用
用貝葉斯網找出數據之間潛在的關係,正是數據挖掘所需要完成的功能。但是利用貝葉斯網進行數據挖掘,主要問題是先驗知識的重要性。由於不可能對所有的網絡結構進行計算,特別是當變量增多時,可能的網絡結構成倍增加,因此必須在現有的知識下進行網絡選擇,這在很大程度上依賴於專家知識。用於數據挖掘的貝葉斯網方法主要有以下幾個特點:(1)貝葉斯網可以處理不完整和帶有噪聲的數據集。它用概率測度的權重來描述數據間的相關性,從而解決了數據間的不一致,甚至是相互對立的問題。(2)貝葉斯網用圖形的方法描述數據間的相互關係,語義清晰,可理解性強,這將有助於利用數據間的因果關係來進行預測分析。(3)由於貝葉斯網具有因果和概率性語義,它有助於先驗知識和概率的結合,容易與優化決策方法相結合 [3] 
其他應用
微軟公司研製的MSBN是一個偏愛預測(preferenceprediction)系統。它可以通過調查眾多觀眾對不同電視節目的收視情況,更合理地安排電視節目以提高收視率,及插播廣告以加強廣告的宣傳效果。系統用多種搜索方法同時學習網絡結構和參數,但是對概率分佈有分佈家族限制。貝葉斯網在工業診斷中的應用要相對簡單得多,尤其用在故障診斷問題中。如常見的由微軟和惠普公司開發的用於打印機故障處理的問題解答系統,即採用貝葉斯網技術作為技術支持,一些惠普系統甚至提供在線打印支持 [3] 
參考資料