複製鏈接
請複製以下鏈接發送給好友

線性整流函數

鎖定
線性整流函數(Rectified Linear Unit, ReLU),又稱修正線性單元, 是一種人工神經網絡中常用的激活函數(activation function),通常指代以斜坡函數及其變種為代表的非線性函數
比較常用的非線性整流函數有斜坡函數 f(x) = max(0, x),以及帶泄露整流函數 (Leaky ReLU),其中為x為神經元(Neuron)的輸入。線性整流被認為有一定的生物學原理,並且由於在實踐中通常有着比其他常用激活函數(譬如邏輯函數)更好的效果,而被如今的深度神經網絡廣泛使用於諸如圖像識別等計算機視覺人工智能領域。
中文名
線性整流函數
外文名
Rectified Linear Unit
縮    寫
ReLU
又    稱
修正線性單元
類    型
一種常用的激活函數

線性整流函數定義

通常意義下,線性整流函數指代數學中的斜坡函數,即
而在神經網絡中,線性整流函數作為神經元的激活函數,定義了該神經元在線性變換
之後的的非線性輸出結果。換言之,對於進入神經元的來自上一層神經網絡的輸入向量
,使用線性整流激活函數的神經元會輸出
至下一層神經元或作為整個神經網絡的輸出(取決現神經元在網絡結構中所處位置)。 [1] 

線性整流函數變種

線性整流函數在基於斜坡函數的基礎上有其他同樣被廣泛應用於深度學習的變種,譬如帶泄露線性整流(Leaky ReLU), 帶泄露隨機線性整流(Randomized Leaky ReLU),以及噪聲線性整流(Noisy ReLU).

線性整流函數帶泄露線性整流

在輸入值
為負的時候,帶泄露線性整流函數(Leaky ReLU)的梯度為一個常數
,而不是0。在輸入值為正的時候,帶泄露線性整流函數和普通斜坡函數保持一致。換言之,
在深度學習中,如果設定
為一個可通過反向傳播算法(Backpropagation)學習的變量,那麼帶泄露線性整流又被稱為參數線性整流(Parametric ReLU)。

線性整流函數帶泄露隨機線性整流

帶泄露隨機線性整流(Randomized Leaky ReLU,RReLU)最早是在Kaggle全美數據科學大賽(NDSB)中被首先提出並使用的。相比於普通帶泄露線性整流函數,帶泄露隨機線性整流在負輸入值段的函數梯度
是一個取自連續性均勻分佈概率模型的隨機變量,即
其中

線性整流函數噪聲線性整流

噪聲線性整流(Noisy ReLU)是修正線性單元在考慮高斯噪聲的基礎上進行改進的變種激活函數。對於神經元的輸入值{\displaystyle x},噪聲線性整流加上了一定程度的正態分佈的不確定性,即
其中隨機變量
。當前噪聲線性整流函數在受限玻爾茲曼機(Restricted Boltzmann Machine)在計算機圖形學的應用中取得了比較好的成果。

線性整流函數優勢

相比於傳統的神經網絡激活函數,諸如邏輯函數(Logistic sigmoid)和tanh等雙曲函數,線性整流函數有着以下幾方面的優勢:
仿生物學原理:相關大腦方面的研究表明生物神經元的信息編碼通常是比較分散及稀疏的。通常情況下,大腦中在同一時間大概只有1%-4%的神經元處於活躍狀態。使用線性修正以及正則化(regularization)可以對機器神經網絡中神經元的活躍度(即輸出為正值)進行調試;相比之下,邏輯函數在輸入為0時達到
,即已經是半飽和的穩定狀態,不夠符合實際生物學對模擬神經網絡的期望。不過需要指出的是,一般情況下,在一個使用修正線性單元(即線性整流)的神經網絡中大概有50%的神經元處於激活態。
更加有效率的梯度下降以及反向傳播:避免了梯度爆炸和梯度消失問題。
簡化計算過程:沒有了其他複雜激活函數中諸如指數函數的影響;同時活躍度的分散性使得神經網絡整體計算成本下降。
參考資料
  • 1.    周志華..機器學習 : = Machine learning[M]: 清華大學出版社,2016