複製鏈接
請複製以下鏈接發送給好友

非監督式學習

鎖定
非監督學習是指在沒有類別信息情況下,通過對所研究對象的大量樣本的數據分析實現對樣本分類的一種數據處理方法。
中文名
非監督學習
外文名
unsupervised learning
方    法
聚類等
特    點
沒有類別信息
應    用
自動控制等
學    科
人工智能術語

目錄

非監督式學習簡述

由於在很多實際應用中,缺少所研究對象類別形成過程的知識,或者為了判斷各個樣本(模式)所屬的類別需要很大的工作量(例如衞星遙感照片上各像元所對應的地面情況),因此往往只能用無類別標答的樣本集進形學習。通過無監督式學習,把樣本集劃分為若干個子集(類別),從而直接解決看樣本的分類問題,或者把它作為訓練樣本集,再用監督學習方法進行分類器設計。

非監督式學習思路

非監督學習中,數據並不會被特別標識,學習模型是為了推斷出數據的一些內在結構。非監督學習一般有兩種思路:
1)第一種思路是在指導Agent時不為其指定明確的分類,而是在成功時採用某種形式的激勵制度。需要注意的是,這類訓練通常會被置於決策問題的框架裏,因為它的目標不是產生一個分類系統,而是做出最大回報的決定,這類學習往往被稱為強化學習。
2)第二種思路稱為聚合(Clustering),這類學習類型的目標不是讓效用函數最大化,而是找到訓練數據中的近似點,本節將重點介紹此類非監督學習思路。
第二種思路的非監督學習常見的應用場景包括關聯規則的學習及聚類等。常見算法包括Apriori、K-Means、EM等。 [1] 

非監督式學習方法

無監督學習主要有以下兩大類方法:
(1)基於概率密度函數估計的直接方法
如果給定的樣本集是由各類都服從高斯分佈的樣本混合在一起組成的,在類別數已知的條件下,可以用最大似然法或Bayes估計法,從混合的概率密度函數中分解出各個類的概率密度函數,然後用Bayes決策方法設計模式分類器。在非高斯概率分佈情況下,只要各類的概率密度函數的形式已知,且分解是惟一的,都可以用上述方法實現分類器設計。在沒有任何概率分佈先驗知識的情況下,可以把特徵空間劃分為着若干個隊域,使每個區域都具有單峯的分佈性質,每一個區域就相當於一個類別,這樣作的基礎是緊緻性假設。已經合多種算法實現這種隊域的劃分。
(2)基於樣本間相似度呈的間接聚類方法
如果用樣本在特徵窄問中相互問的距離來度量樣本間的相似度,就可以設計出某種評價分類質量的準則函數,通過數學方法把特徵空間劃分為與各個類別相對應的區域,也就是通常所説的聚類分析。算法和非迭代的分級聚類算法。前者是給定某個樣本集的初始劃分,計算反映聚類質量的準則隔數值,如果把某個樣本從原來所屬的類別改屬為另一個類別能使準則函數值向好的方向改進,則改變這個樣本原來的類別為新的類別(新的劃分)再對其他樣本進行類似的運算這樣反覆迭代,直到沒有一個樣本類別的改變能改進準則函數值,即已經達到了準則函數的最優值。這一類算法中著名的有C-均值算法和ISODATA算法,C-均值算法要求類別數預先給定,並把各樣本到所屬類別樣本子集的均值向量的距離平方和作為評價聚類質量的準則函數。ISODATA算法可以自動地調整類別數,並可對各類樣本的某些統計性質(如樣本數餐、樣本特徵的標準偏差等)作些限制。非迭代的分級聚類算法:第一步把每一個樣本都看成一個類,給定兩類樣本間相似度計算方法,計算類與類之間的相似度。第二步把其中相似度最大的兩個類合併為一個類,再計算新的類與類之間的相似度。第三步再把其中相似把所有的樣本都合為一類為止。根據問題的性質以及各級的相似度大小,就可以確定合理的聚類差別數和各類所包含的樣本,在應用分級聚類算法時要選擇適當的類與類間相似度汁算力’法,不同的計算方法會導致完全不同的聚類結果。
聚類分析是無監督學習的主要方法,它能從大量的數據集中找出有規律性的結果。為了適應各種實際問題的數據結構的特點,還發展了以上述方法為基礎的各種其他算法 [2] 
參考資料
  • 1.    王崇駿編著.大數據思維與應用攻略:機械工業出版社,2016.07
  • 2.    張效祥主編.計算機科學技術百科全書 (第2版):清華大學出版社,2005年11月