複製鏈接
請複製以下鏈接發送給好友

表徵學習

鎖定
機器學習中,特徵學習表徵學習是學習一個特徵的技術的集合:將原始數據轉換成為能夠被機器學習來有效開發的一種形式。它避免了手動提取特徵的麻煩,允許計算機學習使用特徵的同時,也學習如何提取特徵:學習如何學習。
中文名
表徵學習
領    域
計算機

表徵學習簡介

機器學習任務,例如分類問題,通常都要求輸入在數學上或者在計算上都非常便於處理,在這樣的前提下,特徵學習就應運而生了。然而,在我們現實世界中的數據例如圖片,視頻,以及傳感器的測量值都非常的複雜,冗餘並且多變。那麼,如何有效的提取出特徵並且將其表達出來就顯得非常重要。傳統的手動提取特徵需要大量的人力並且依賴於非常專業的知識。同時,還不便於推廣。這就要求特徵學習技術的整體設計非常有效,自動化,並且易於推廣。
特徵學習可以被分為兩類:監督的和無監督的,類似於機器學習。
  • 在監督特徵學習中,被標記過的數據被當做特徵用來學習。例如神經網絡,多層感知器,(監督)字典學習。
  • 在無監督特徵學習中,未被標記過的數據被當做特徵用來學習。例如(無監督)字典學習,獨立成分分析自動編碼矩陣分解,各種聚類分析及其變形。 [1] 

表徵學習監督特徵學習

監督特徵學習就是從被標記的數據中學習特徵。大致有一下幾種方法。

表徵學習監督字典學習

總體來説,字典學習是為了從輸入數據獲得一組的表徵元素,使每一個數據點可以(近似的)通過對錶徵元素加權求和來重構。字典中的元素和權值可以通過最小化表徵誤差來得到。通過L1正則化可以讓權值變得稀疏(例,每一個數據點的表徵只有幾個非零的權值)。
監督字典學習利用輸入數據的結構和給定的標籤(輸出)來優化字典。例如,2009年Mairal等人提出的一種監督字典學習方案被應用在了分類問題上。這個方案的優化目標包括最小化分類誤差,表徵誤差,權值的1範數(L1正則化)和分類器參數的2範數。 有監督的字典學習可以被視為一個三層神經網絡(一層隱含層),第一層(輸入層)到第二層(隱含層)是表徵學習,第二層到第三層(輸出)是分類器的參數迴歸。 [2] 

表徵學習神經網絡

神經網絡是通過多層由內部相連的節點組成的網絡的一個學習算法。它的命名是受到神經系統的啓發,它的每一個節點就像神經系統裏的神經元,而每一條邊就像一條突觸。神經網絡裏面的每一條邊都有對應的權值,而整個網絡則定義運算法則將輸入數據轉換成為輸出。神經網絡的網絡函數通過權值來刻畫輸入層跟輸出層之間的關係。通過適當的調整網絡函數,可以儘量最小化損耗的同時解決各種各樣的機器學習任務。 [2] 

表徵學習無監督特徵學習

表徵學習主成分分析

在多元統計分析中,主成分分析(英語:Principal components analysisPCA)是一種分析、簡化數據集的技術。主成分分析經常用於減少數據集的維數,同時保持數據集中的對方差貢獻最大的特徵。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。但是,這也不是一定的,要視具體應用而定。由於主成分分析依賴所給數據,所以數據的準確性對分析結果影響很大。
主成分分析由卡爾·皮爾遜於1901年發明,用於分析數據及建立數理模型。其方法主要是通過對協方差矩陣進行特徵分解,以得出數據的主成分(即特徵向量)與它們的權值(即特徵值)。PCA是最簡單的以特徵量分析多元統計分佈的方法。其結果可以理解為對原數據中的方差做出解釋:哪一個方向上的數據值對方差的影響最大?換而言之,PCA提供了一種降低數據維度的有效辦法;如果分析者在原數據中除掉最小的特徵值所對應的成分,那麼所得的低維度數據必定是最優化的(也即,這樣降低維度必定是失去訊息最少的方法)。主成分分析在分析複雜數據時尤為有用,比如人臉識別
PCA是最簡單的以特徵量分析多元統計分佈的方法。通常情況下,這種運算可以被看作是揭露數據的內部結構,從而更好的解釋數據的變量的方法。如果一個多元數據集能夠在一個高維數據空間座標系中被顯現出來,那麼PCA就能夠提供一幅比較低維度的圖像,這幅圖像即為在訊息最多的點上原對象的一個‘投影’。這樣就可以利用少量的主成分使得數據的維度降低了。
PCA跟因子分析密切相關,並且已經有很多混合這兩種分析的統計包。而真實要素分析則是假定底層結構,求得微小差異矩陣的特徵向量。 [2] 

表徵學習獨立成分分析

統計學中,獨立成分分析獨立分量分析(Independent components analysis,縮寫:ICA) 是一種利用統計原理進行計算的方法。它是一個線性變換。這個變換把數據或信號分離成統計獨立的非高斯的信號源的線性組合。獨立成分分析是盲信號分離(Blind source separation)的一種特例。
獨立成分分析的最重要的假設就是信號源統計獨立。這個假設在大多數盲信號分離的情況中符合實際情況。即使當該假設不滿足時,仍然可以用獨立成分分析來把觀察信號統計獨立化,從而進一步分析數據的特性。獨立成分分析的經典問題是“雞尾酒會問題”(cocktail party problem)。該問題描述的是給定混合信號,如何分離出雞尾酒會中同時説話的每個人的獨立信號。當有N個信號源時,通常假設觀察信號也有N個(例如N個麥克風或者錄音機)。該假設意味着混合矩陣是個方陣,即J = D,其中D是輸入數據的維數,J是系統模型的維數。對於J < D和J > D的情況,學術界也分別有不同研究。
獨立成分分析並不能完全恢復信號源的具體數值,也不能解出信號源的正負符號、信號的級數或者信號的數值範圍。
獨立成分分析是研究盲信號分離(blind signal separation)的一個重要方法,並且在實際中也有很多應用。 [2] 
參考資料
  • 1.    Nathan Srebro; Jason D. M. Rennie; Tommi S. Jaakkola. Maximum-Margin Matrix Factorization. NIPS. 2004.
  • 2.    Y. Bengio; A. Courville; P. Vincent. Representation Learning: A Review and New Perspectives. IEEE Trans. PAMI, special issue Learning Deep Architectures. 2013