梯度下降算法推导

为什么梯度的反方向为下降速度最快的方向?


x , y 都表示 权重,f 表示损失函数。

1.可由近似公式得到:

\[f(x+ \Delta x,y+\Delta y)=f(x,y)+\frac{\partial f}{\partial x} \cdot \Delta x+\frac{\partial f}{\partial y} \cdot\Delta y \]

2.即:

\[f(x+\Delta x,y+\Delta y)-f(x,y)=\frac{\partial f}{\partial x} \cdot \Delta x+\frac{\partial f}{\partial y} \cdot\Delta y \]

3.

\[\Delta z=\frac{\partial f}{\partial x} \cdot \Delta x+\frac{\partial f}{\partial y} \cdot\Delta y \]

因为\(\Delta z\) 表示变化量 ,最大值表示 变化最大 (增加最大),即增加最快的方向。

最小值表示下降最大,即下降最快的方向。 等式右边可写作向量的形式。

4.

\[(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})\cdot(\Delta x,\Delta y) \]

左边表示 梯度,所以梯度的反方向 乘积最小,二者夹角-180度, 即下降最快。

5.

所以:

\[(\Delta x,\Delta y) = - a(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}) \]

所以:

\[x+\Delta x = x-a\cdot\frac{\partial f}{\partial x} \]

\[y+\Delta y = y-a\cdot\frac{\partial f}{\partial y} \]

本文来自博客园,作者:PsgQ,转载请注明原文链接:https://www.cnblogs.com/PsgQ/p/14039138.html

喜欢作者瓜皮的小伙伴,点点关注,投喂瓜皮,你的支持是我一直创作的动力

原文地址:https://www.cnblogs.com/PsgQ/p/14039138.html