梯度下降法


梯度下降法,基于这样的观察:如果实值函数  在点  处可微且有定义,那么函数 在  点沿着梯度相反的方向  下降最快。

因而,如果

对于  为一个够小数值时成立,那么 。

考虑到这一点,我们可以从函数  的局部极小值的初始估计  出发,并考虑如下序列  使得

因此可得到

如果顺利的话序列  收敛到期望的极值。注意每次迭代步长  可以改变。

右侧的图片示例了这一过程,这里假设  定义在平面上,并且函数图像是一个形。蓝色的曲线是等高线(水平集),即函数  为常数的集合构成的曲线。红色的箭头指向该点梯度的反方向。(一点处的梯度方向与通过该点的等高线垂直)。沿着梯度下降方向,将最终到达碗底,即函数  值最小的点。

原文地址:https://www.cnblogs.com/cl1024cl/p/6205298.html