複製鏈接
請複製以下鏈接發送給好友

超參數

鎖定
在機器學習的上下文中,超參數是在開始學習過程之前設置值的參數,而不是通過訓練得到的參數數據。通常情況下,需要對超參數進行優化,給學習機選擇一組最優超參數,以提高學習的性能和效果。
中文名
超參數
外文名
hyperparameter
歸屬學科
機器學習
解    釋
在開始學習過程之前設置值的參數
相    關
優化問題
領    域
自動控制

目錄

超參數定義

在機器學習的上下文中,超參數是在開始學習過程之前設置值的參數。 相反,其他參數的值通過訓練得出。
超參數:
  • 定義關於模型的更高層次的概念,如複雜性或學習能力。
  • 不能直接從標準模型培訓過程中的數據中學習,需要預先定義。
  • 可以通過設置不同的值,訓練不同的模型和選擇更好的測試值來決定
超參數的一些示例:
  • 樹的數量或樹的深度
  • 矩陣分解中潛在因素的數量
  • 學習率(多種模式)
  • 深層神經網絡隱藏層數
  • k均值聚類中的簇數

超參數優化問題

學習率可能是最重要的超參數。 [1]  超參數優化或模型選擇是為學習算法選擇一組最優超參數時的問題,通常目的是優化算法在獨立數據集上的性能的度量。 通常使用交叉驗證來估計這種泛化性能。 [2]  超參數優化與實際的學習問題形成對比,這些問題通常也被轉化為優化問題,但是優化了訓練集上的損失函數。 實際上,學習算法學習可以很好地建模/重建輸入的參數,而超參數優化則是確保模型不會像通過正則化一樣通過調整來過濾其數據。
網格搜索
執行超參數優化的傳統方法是網格搜索或參數掃描,這僅僅是通過學習算法的超參數空間的手動指定子集的詳盡搜索。 網格搜索算法必須由某些性能度量指導,通常通過訓練集合 [3]  上的交叉驗證或對被保留驗證集進行評估來衡量。
由於機器學習者的參數空間可能包括某些參數的實值或無界值空間,因此在應用網格搜索之前可能需要手動設置邊界和離散化。
貝葉斯優化
貝葉斯優化包括從超參數值到在驗證集上評估的目標的功能的統計模型。直觀上,該方法假設有一些平滑但嘈雜的功能,作為從超參數到目標的映射。在貝葉斯優化中,一個目的是收集觀察結果,以便儘可能少地顯示機器學習模型的次數,同時儘可能多地顯示關於該功能的信息,特別是最佳位置。貝葉斯優化依賴於假設一個非常普遍的先驗函數,當與觀察到的超參數值和相應的輸出結合時,產生函數分佈。該方法通過迭代地選擇超參數來觀察(實驗運行),以拋售(結果最不確定的超參數)和利用(預期具有良好結果的超參數)的方式。實際上,貝葉斯優化已經被證明 [4-5]  ,因為在實驗的質量運行之前,能夠對網格搜索和隨機搜索進行更少的實驗獲得更好的結果。
隨機搜索
由於網格搜索是一種窮盡且潛在昂貴的方法,因此已經提出了幾種替代方案。 特別地,已經發現,簡單地對參數設置進行固定次數的隨機搜索,比在窮舉搜索中的高維空間更有效。 這是因為事實證明,一些超參數不會顯着影響損失。 因此,隨機分散的數據給出了比最終不影響損失的參數的詳盡搜索更多的“紋理”數據。 [5] 
基於梯度的優化
對於特定的學習算法,可以計算相對於超參數的梯度,然後使用梯度下降優化超參數。 這些技術的第一次使用集中在神經網絡 [6]  從那時起,這些方法已經擴展到其他模型,如支持向量機 [7]  或邏輯迴歸 [8] 
參考資料
  • 1.    [美] 伊恩·古德費洛 [加] 約書亞·本吉奧 [加] 亞倫·庫維爾 .深度學習:人民郵電出版社,2017:365
  • 2.    Bergstra J, Bengio Y. Random search for hyper-parameter optimization[M]. JMLR.org, 2012.
  • 3.    Hsu C W, Chang C C, Lin C J. A practical guide to support vector classification[J]. 台北市:台灣大學資訊工程學系, 2013, 67(5).
  • 4.    Hutter F, Hoos H H, Leytonbrown K. Sequential Model-Based Optimization for General Algorithm Configuration[C]// Learning and Intelligent Optimization -, International Conference, Lion 5, Rome, Italy, January 17-21, 2011. Selected Papers. DBLP, 2011:507-523.
  • 5.    Bergstra J, Bengio Y. Algorithms for hyper-parameter optimization[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2011:2546-2554.
  • 6.    Larsen J, Hansen L K, Svarer C, et al. Design and regularization of neural networks: the optimal use of a validation set[C]// Neural Networks for Signal Processing. IEEE, 1996:62-71.
  • 7.    Chapelle O, Vapnik V, Bousquet O, et al. Choosing Multiple Parameters for Support Vector Machines[J]. Machine Learning, 2002, 46(1-3):131-159.
  • 8.    Do C B, Foo C S, Ng A Y. Efficient multiple hyperparameter learning for log-linear models[C]// Conference on Neural Information Processing Systems, Vancouver, British Columbia, Canada, December. DBLP, 2007:377-384.