複製鏈接
請複製以下鏈接發送給好友

監督學習

鎖定
監督學習是利用一組已知類別的樣本調整分類器參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習。
監督學習是從標記的訓練數據來推斷一個功能的機器學習任務。訓練數據包括一套訓練示例。在監督學習中,每個實例都是由一個輸入對象(通常為矢量)和一個期望的輸出值(也稱為監督信號)組成。監督學習算法是分析該訓練數據,併產生一個推斷的功能,其可以用於映射出新的實例。一個最佳的方案將允許該算法來正確地決定那些看不見的實例的類標籤。這就要求學習算法是在一種“合理”的方式從一種從訓練數據到看不見的情況下形成。
中文名
監督學習
外文名
supervised learning
所屬學科
計算機科學
別    名
監督訓練

目錄

監督學習定義

監督學習,也被稱為監督機器學習,是機器學習和人工智能的一個子類。它的定義是使用標記數據集來訓練算法,以便對數據進行分類或準確預測結果。當輸入數據被輸入到模型中時,它會調整其權重,直到模型被適當地擬合,這是交叉驗證過程的一部分。監督式學習可以幫助組織大規模地解決各種現實世界的問題,例如對收件箱中單獨文件夾中的垃圾郵件進行分類。 [1] 

監督學習原理

監督學習使用一個訓練集來教模型產生期望的輸出。這個訓練數據集包括輸入和正確的輸出,這使得模型可以隨着時間的推移而學習。該算法通過損失函數測量其精度,調整直到誤差被充分最小化。
當數據挖掘-分類和迴歸時,監督學習可以分為兩類問題:
分類使用一種算法將測試數據準確地分配到特定的類別中。它識別數據集中的特定實體,並試圖得出關於如何標記或定義這些實體的一些結論。常見的分類算法有線性分類器、支持向量機(SVM)、決策樹、k近鄰和隨機森林,下面將對它們進行更詳細的描述。
迴歸是用來理解因變量和自變量之間的關係。它通常用於預測,例如預測給定業務的銷售收入。線性迴歸、邏輯迴歸和多項式迴歸是常用的迴歸算法。 [1] 

監督學習特點

1、偏置方差權衡
第一個問題就是偏置和方差之間的權衡。假設有幾種不同的,但同樣好的演算數據集。一種學習算法是基於一個未知數的輸入,在經過這些數據集的計算時,系統會無誤的預測到並將正確的未知數輸出。一個學習算法在不同的演算集演算時如果預測到不同的輸出值會對特定的輸入有較高的方差。一個預測誤差學習分類器是與學習算法中的偏差和方差有關的。一般來説,偏差和方差之間有一個權衡。較低的學習算法偏差必須“靈活”,這樣就可以很好的匹配數據。但如果學習算法過於靈活,它將匹配每個不同的訓練數據集,因此有很高的方差。許多監督學習方法的一個關鍵方面是他們能夠調整這個偏差和方差之間的權衡(通過提供一個偏見/方差參數,用户可以調整)。
2、功能的複雜性和數量的訓練數據
第二個問題是訓練數據可相對於“真正的”功能(分類或迴歸函數)的複雜度的量。如果真正的功能是簡單的,則一個“不靈活的”學習算法具有高偏壓和低的方差將能夠從一個小數據量的學習。但是,如果真功能是非常複雜的(例如,因為它涉及在許多不同的輸入要素的複雜的相互作用,並且行為與在輸入空間的不同部分),則該函數將只從一個非常大的數量的訓練數據,並使用可學習“靈活”的學習算法具有低偏置和高方差。因此,良好的學習算法來自動調整的基礎上可用的數據量和該函數的明顯的複雜性要學習的偏壓/方差權衡。
3、輸入空間的維數
第三個問題是輸入空間的維數。如果輸入特徵向量具有非常高的維數,學習問題是很困難的,即使真函數僅依賴於一個小數目的那些特徵。這是因為許多“額外”的尺寸可混淆的學習算法,並使其具有高方差。因此,高的輸入維數通常需要調整分類器具有低方差和高偏置。在實踐中,如果工程師能夠從輸入數據手動刪除不相關的特徵,這是有可能改善該學習功能的準確性。此外,還有許多算法的特徵選擇,設法確定相關特徵,並丟棄不相關的。這是維數降低,其目的是將輸入數據映射到較低維空間中運行的監督學習算法之前的更一般的策略的一個實例。
4、噪聲中的輸出值
第四個問題是在所需要的輸出值(監控目標變量)的噪聲的程度。如果所希望的輸出值,通常是不正確的(因為人為錯誤或傳感器的錯誤),則學習算法不應試圖找到一個函數完全匹配的訓練示例。試圖以適應數據過於謹慎導致過度擬合。當沒有測量誤差(隨機噪聲),如果正在努力學習功能,是學習模式太複雜,甚至可以過度擬合。在這種情況下的目標函數,該函數不能被模擬“腐化”訓練數據的那部分-這一現象被稱為確定性的噪聲。當任一類型的噪聲存在時,最好是去一個更高的偏見,低方差估計。

監督學習應用

正如人們通過已知病例學習診斷技術那樣,計算機要通過學習才能具有識別各種事物和現象的能力。用來進行學習的材料就是與被識別對象屬於同類的有限數量樣本。監督學習中在給予計算機學習樣本的同時,還告訴計算各個樣本所屬的類別。若所給的學習樣本不帶有類別信息,就是無監督學習。任何一種學習都有一定的目的,對於模式識別來説,就是要通過有限數量樣本的學習,使分類器在對無限多個模式進行分類時所產生的錯誤概率最小。
不同設計方法的分類器有不同的學習算法。對於貝葉斯分類器來説,就是用學習樣本估計特徵向量的類條件概率密度函數。在已知類條件概率密度函數形式的條件下,用給定的獨立和隨機獲取的樣本集,根據最大似然法貝葉斯學習估計出類條件概率密度函數的參數。例如,假定模式的特徵向量服從正態分佈,樣本的平均特徵向量和樣本協方差矩陣就是正態分佈的均值向量和協方差矩陣的最大似然估計。在類條件概率密度函數的形式未知的情況下,有各種非參數方法,用學習樣本對類條件概率密度函數進行估計。在分類決策規則用判別函數表示的一般情況下,可以確定一個學習目標,例如使分類器對所給樣本進行分類的結果儘可能與“教師”所給的類別一致,然後用迭代優化算法求取判別函數中的參數值
無監督學習的情況下,用全部學習樣本可以估計混合概率密度函數,若認為每一模式類的概率密度函數只有一個極大值,則可以根據混合概率密度函數的形狀求出用來把各類分開的分界面。
監督學習方法是研究較為廣泛的一種機器學習方法,例如神經網絡傳播算法、決策樹學習算法等已在許多領域中得到成功的應用,但是,監督學習需要給出不同環境狀態下的期望輸出(即導師信號),完成的是與環境沒有交互的記憶和知識重組的功能,因此限制了該方法在複雜的優化控制問題中的應用。
參考資料