梯度下降法

梯度下降法，基于这样的观察：如果实值函数在点处可微且有定义，那么函数在点沿着梯度相反的方向下降最快。

因而，如果

对于为一个够小数值时成立，那么。

考虑到这一点，我们可以从函数的局部极小值的初始估计出发，并考虑如下序列使得

因此可得到

如果顺利的话序列收敛到期望的极值。注意每次迭代步长可以改变。

右侧的图片示例了这一过程，这里假设定义在平面上，并且函数图像是一个碗形。蓝色的曲线是等高线(水平集)，即函数为常数的集合构成的曲线。红色的箭头指向该点梯度的反方向。（一点处的梯度方向与通过该点的等高线垂直）。沿着梯度下降方向，将最终到达碗底，即函数值最小的点。