複製鏈接
請複製以下鏈接發送給好友

損失函數

鎖定
損失函數(loss function)或代價函數(cost function)是將隨機事件或其有關隨機變量的取值映射為非負實數以表示該隨機事件的“風險”或“損失”的函數。在應用中,損失函數通常作為學習準則與優化問題相聯繫,即通過最小化損失函數求解和評估模型。例如在統計學和機器學習中被用於模型的參數估計(parametric estimation) [1]  ,在宏觀經濟學中被用於風險管理(risk management)和決策 [2]  ,在控制理論中被應用於最優控制理論(optimal control theory) [3] 
中文名
損失函數
外文名
loss function
類    型
函數
應用學科
統計學
應用領域
機器學習,經濟學,控制理論

損失函數函數定義

樣本空間
內有可測狀態
隨機變量
根據法則
所做的決策
,此時若在乘積空間
上有函數
滿足:
,即對任意的
是非負可測函數,則
被稱為損失函數,表示狀態
下采取決策
所對應的損失或風險 [4] 
機器學習中,給定獨立同分布(independent and identically distributed,iid)的學習樣本
,和模型
,損失函數是模型輸出和觀測結果間概率分佈差異的量化 [1] 
式中
表示模型參數,上式右側具體的量化方法視問題和模型而定,但要求滿足損失函數的一般定義,即樣本空間的非負可測函數。

損失函數函數分類

損失函數迴歸問題

迴歸問題所對應的損失函數為L2損失函數和L1損失函數,二者度量了模型估計值
與觀測值
之間的差異:
式中
為真實值的權重,
為真實值,
為模型的輸出。各類迴歸模型,例如線性迴歸廣義線性模型(Generalized Linear Model, GLM)和人工神經網絡(Artificial Neural Network, ANN)通過最小化L2或L1損失對其參數進行估計。L2損失和L1損失的不同在於,L2損失通過平方計算放大了估計值和真實值的距離,因此對偏離觀測值的輸出給予很大的懲罰。此外,L2損失是平滑函數,在求解其優化問題時有利於誤差梯度的計算;L1損失對估計值和真實值之差取絕對值,對偏離真實值的輸出不敏感,因此在觀測中存在異常值時有利於保持模型穩定。

損失函數分類問題

分類問題所對應的損失函數為0-1損失,其是分類準確度的度量,對分類正確的估計值取0,反之取1:
0-1損失函數是一個不連續的分段函數,不利於求解其最小化問題,因此在應用可構造其代理損失(surrogate loss)。代理損失是與原損失函數具有相合性(consistency)的損失函數,最小化代理損失所得的模型參數也是最小化原損失函數的解。當一個函數是連續凸函數,並在任意取值下是0-1損失函數的上界時,該函數可作為0-1損失函數的代理函數 [5-6] 
這裏給出二元分類(binary classification)中0-1損失函數的代理損失:
二元分類中常見的代理損失
名稱
表達式
鉸鏈損失函數(hinge loss function)
交叉熵損失函數(cross-entropy loss function)
指數損失函數(exponential loss function)
鉸鏈損失(實線)、交叉熵損失(點)、指數損失(虛線) 鉸鏈損失(實線)、交叉熵損失(點)、指數損失(虛線)
鉸鏈損失函數是一個分段連續函數,其在分類器分類完全正確時取0。使用鉸鏈損失對應的分類器是支持向量機(Support Vector Machine, SVM),鉸鏈損失的性質決定了SVM具有稀疏性,即分類正確但概率不足1和分類錯誤的樣本被識別為支持向量(support vector)被用於劃分決策邊界,其餘分類完全正確的樣本沒有參與模型求解 [6] 
交叉熵損失函數是一個平滑函數,其本質是信息理論(information theory)中的交叉熵(cross entropy)在分類問題中的應用。由交叉熵的定義可知,最小化交叉熵等價於最小化觀測值和估計值的相對熵(relative entropy),即兩者概率分佈的Kullback-Leibler散度:
,因此其是一個提供無偏估計的代理損失。交叉熵損失函數是表中使用最廣泛的代理損失,對應的分類器例子包括logistic迴歸人工神經網絡和概率輸出的支持向量機
指數損失函數是表中對錯誤分類施加最大懲罰的損失函數,因此其優勢是誤差梯度大,對應的極小值問題在使用梯度算法時求解速度快。使用指數損失的分類器通常為自適應提升算法(Adaptive Boosting, AdaBoost),AdaBoot利用指數損失易於計算的特點,構建多個可快速求解的“弱”分類器成員並按成員表現進行賦權和迭代,組合得到一個“強”分類器並輸出結果。
參考資料
  • 1.    邱錫鵬 著,神經網絡與深度學習,第二章 機器學習概述  .Github Inc..2018-6-25[引用日期2019-01-15]
  • 2.    Mayer, T., 2003. The macroeconomic loss function: A critical note. Applied Economics Letters, 10(6), pp.347-349.
  • 3.    Todorov, E., 2006. Optimal control theory. Bayesian brain: probabilistic approaches to neural coding, pp.269-298.
  • 4.    Loss function  .Encyclopedia of Mathematics - The European Mathematical society & Springer.2010[引用日期2019-01-15]
  • 5.    Zhang, T., 2004. Statistical behavior and consistency of classification methods based on convex risk minimization. Annals of Statistics, pp.56-85.
  • 6.    周志華.機器學習.北京:清華大學出版社,2016:pp.121-139, 298-300