常见优化器

  1. SGD
         梯度下降法根据每次更新参数时使用的样本数量分为Stochastic Gradient Descent(随机梯度下降法,SGD)、mini-batch Gradirnt Descent(小批量梯度下降法,mBGD)和Batch Gradient Descent(批量梯度下降法,BGD)三种。通常所说的SGD指的是小批量梯度下降法,这里也是。
         批量梯度下降法是梯度下降法最常用的形式,也就是在更新参数时使用所有的样本;随机梯度下降法与批量梯度下降法的原理类似,不过在求取梯度时没有使用所有的样本,而是仅仅选取一个样本来求梯度;小批量梯度下降法则是批量梯度下降法和随机梯度下降法的折衷,在计算梯度时选择部分样本进行计算,即样本数介于1与总数之间。
         对于小批量梯度下降法,其更新公式如下:
    CodeCogsEqn




原文地址:https://www.cnblogs.com/Lilu-1226/p/10687948.html