反饋

梯度下降

梯度下降是迭代法的一種,可以用於求解最小二乘問題(線性和非線性都可以)。在求解機器學習算法的模型參數，即無約束優化問題時，梯度下降（Gradient Descent）是最常採用的方法之一，另一種常用的方法是最小二乘法。在求解損失函數的最小值時，可以通過梯度下降法來一步步的迭代求解，得到最小化的損失函數和模型參數值。反過來，如果我們需要求解損失函數的最大值，這時就需要用梯度上升法來迭代了。在機器學習中，基於基本的梯度下降法發展了兩種梯度下降方法，分別為隨機梯度下降法和批量梯度下降法。

中文名: 梯度下降
外文名: steepest descent (gradient descent)

用於: 求解非線性方程組
類型: 最優化算法

梯度下降簡介

梯度：對於可微的數量場

，以

為分量的向量場稱為f的梯度或斜量。^[1]

梯度下降法(gradient descent)是一個最優化算法，常用於機器學習和人工智能當中用來遞歸性地逼近最小偏差模型。

梯度下降求解過程

顧名思義，梯度下降法的計算過程就是沿梯度下降的方向求解極小值（也可以沿梯度上升方向求解極大值）。

其迭代公式為

,其中

代表梯度負方向，

表示梯度方向上的搜索步長。梯度方向我們可以通過對函數求導得到，步長的確定比較麻煩，太大了的話可能會發散，太小收斂速度又太慢。一般確定步長的方法是由線性搜索算法來確定，即把下一個點的座標看做是a_k+1的函數，然後求滿足f(a_k+1)的最小值的a_k+1即可。

因為一般情況下，梯度向量為0的話説明是到了一個極值點，此時梯度的幅值也為0.而採用梯度下降算法進行最優化求解時，算法迭代的終止條件是梯度向量的幅值接近0即可，可以設置個非常小的常數閾值。

梯度下降應用

舉一個非常簡單的例子，如求函數

的最小值。

利用梯度下降的方法解題步驟如下：

1、求梯度，

2、向梯度相反的方向移動

，如下

，其中，

為步長。如果步長足夠小，則可以保證每一次迭代都在減小，但可能導致收斂太慢，如果步長太大，則不能保證每一次迭代都減少，也不能保證收斂。

3、循環迭代步驟2，直到

的值變化到使得

在兩次迭代之間的差值足夠小，比如0.00000001，也就是説，直到兩次迭代計算出來的

基本沒有變化，則説明此時

已經達到局部最小值了。

4、此時，輸出

，這個

就是使得函數

最小時的

的取值。

MATLAB如下。

%% 最速下降法圖示
% 設置步長為0.1，f_change為改變前後的y值變化，僅設置了一個退出條件。
syms x;f=x^2;
step=0.1;x=2;k=0;         %設置步長,初始值,迭代記錄數
f_change=x^2;             %初始化差值
f_current=x^2;            %計算當前函數值
ezplot(@(x,f)f-x.^2)       %畫出函數圖像
axis([-2,2,-0.2,3])       %固定座標軸
hold on
while f_change>0.000000001                %設置條件，兩次計算的值之差小於某個數，跳出循環
    x=x-step*2*x;                         %-2*x為梯度反方向，step為步長，！最速下降法！
    f_change = f_current - x^2;           %計算兩次函數值之差
    f_current = x^2 ;                     %重新計算當前的函數值
    plot(x,f_current,'ro','markersize',7) %標記當前的位置
    drawnow;pause(0.2);
    k=k+1;
end
hold off
fprintf('在迭代%d次後找到函數最小值為%e，對應的x值為%e\n',k,x^2,x)

梯度下降法處理一些複雜的非線性函數會出現問題，如Rosenbrock函數：