梯度下降（Gradient descent）

在有监督学习中，我们通常会构造一个损失函数来衡量实际输出和训练标签间的差异。通过不断更新参数，来使损失函数的值尽可能的小。梯度下降就是用来计算如何更新参数使得损失函数的值达到最小值（可能是局部最小或者全局最小）。

梯度下降计算流程

假设我们模型中的参数为，损失函数为，则计算过程为

其中为学习率。通过不断求参数的偏导数来更新函数，直到（1）中的参数不在发生变化，就达到收敛状态。由于（1）的表达形式比较繁杂，因此可以简化如（3）；其中（2）称作梯度

梯度下降数学解释

梯度下降的目的就是为了更新参数使达到极小值。这个的过程如图1-1所示，①我们先随机初始化参数，就相当于在图1-1上任意取一点；②如果我们想要更新参数取到极小值的话，对于这一点可以寻找该点附近下降最快的方向，并沿着该方向移动一定距离；③移动距离后到达另外一个点，重复步骤②，直到该点没有可下降的方向，就取到极小值；

图1-1 梯度下降直观图

方向导数

上述的步骤②中，我们需要在某个点找到其附近下降最快的方向，这就需要先讨论方向导数；偏导数反应的是函数沿坐标轴变化率。但是，有时候我们考虑函数沿某个方向的变化率。便于讨论，以方向向量代替方向。而向量的本质就是其在各个坐标轴（更严格点可以称作标准正交基）上的投影的值。因此，计算方向导数，可以转化为求解该方向向量在各个坐标轴上的投影的偏导数的总和。因此，对于函数f(x,y)在点p(x₀,y₀)可微分，那么函数在该点的任意方向的方向导数为

其中为方向跟x轴的余弦值，为方向跟y轴的余弦值。

梯度

方向导数是函数f(x,y)在点p(x₀,y₀)任意方向的变化率，而当在点的变化率取到最大值的方向就称为梯度，记作

其中i=(1,0)，j=(0,1)；f(x,y)在梯度方向上取得变化率最大值的证明如下：

对于（4）可以拆解成为两个向量的内积，设，，则

其中都为定值；a就是梯度（5），b为方向的单位向量，即b跟方向相同；当a,b方向相同时，，（6）取到最大值。因此，当方向向量与梯度相同时，f(x,y)在点p(x₀,y₀)的方向导数最大。

学习率

学习率控制着梯度下降收敛的速度，甚至影响到你的函数能否取到极小值。假设学习率跟损失函数值的关系如图1-2所示，当学习率设置的刚刚好（红色线段），那么刚好能够取到极小值，而且迭代次数也不多；当学习率设置太小的话（蓝色线段），也能够取到极小值，只是迭代的次数就增加；而但你的学习率设置过大的话（绿色线段），由于步长太大，无论如何都取不到极小值。