梯度下降算法实现

梯度下降算法的原理及实现。

一.梯度下降的算法方程式为:

二.方程式详解:

  参数:

    1.::表示网络中需要训练的参数。

    2.:表示学习率。

    3.:表示图像中一点的斜率。

  含义:

    假设一个二次函数,初始位置在曲线上蓝色点,

        

    如果学习率α设置过大,则θ的每一次更新幅值将会很大。如此,若蓝点已非常接近最低点,则下一次参数更新的更新则会偏离最低点。

    如果学习率α设置过小,则θ的每一次更新幅值将会很小。如此,将会增加参数训练的成本。

    在确定学习率α以后,随着蓝点的移动,蓝点在曲线上每一点处 的斜率会发生变化,向下则变小,向上则变大。所以,随着蓝点越来越接近最低点,斜率变小,θ的更新幅值也会越来越小。

原文地址:https://www.cnblogs.com/brillant-ordinary/p/9531305.html