深度学习的优化方法总结

SGD:现在的SGD一般都指mini-batch gradient descent 最小批量梯度下降

缺点：（正因为有这些缺点才让这么多大神发展出了后续的各种算法）

选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征，有时我们可能想更新快一些对于不经常出现的特征，对于常出现的特征更新慢一些，这时候SGD就不太能满足要求了
SGD容易收敛到局部最优，并且在某些情况下可能被困在鞍点

Adagrad:

对学习率进行了一个约束。

此处，对 $g_t$ 从1到 $t$ 进行一个递推形成一个约束项regularizer， $-frac{1}{sqrt{sum_{r=1}^t(g_r)^2+epsilon}}$ ， $epsilon$ 用来保证分母非0

特点：

Adadelta:

Adadelta

Adadelta是对Adagrad的扩展，最初方案依然是对学习率进行自适应约束，但是进行了计算上的简化。 Adagrad会累加之前所有的梯度平方，而Adadelta只累加固定大小的项，并且也不直接存储这些项，仅仅是近似计算对应的平均值。即：

$n_t= u*n_{t-1}+(1- u)*g_t^2$

$Delta{ heta_t} = -frac{eta}{sqrt{n_t+epsilon}}*g_t$

在此处Adadelta其实还是依赖于全局学习率的，但是作者做了一定处理，经过近似牛顿迭代法之后：

$E|g^2|_t= ho*E|g^2|_{t-1}+(1- ho)*g_t^2$

$Delta{x_t}=-frac{sqrt{sum_{r=1}^{t-1}Delta{x_r}}}{sqrt{E|g^2|_t+epsilon}}$

其中， $E$ 代表求期望。

此时，可以看出Adadelta已经不用依赖于全局学习率了。

特点：

RSMprop:

RMSprop可以算作Adadelta的一个特例：

当 $ho=0.5$ 时， $E|g^2|_t= ho*E|g^2|_{t-1}+(1- ho)*g_t^2$ 就变为了求梯度平方和的平均数。

如果再求根的话，就变成了RMS(均方根)：

$RMS|g|_t=sqrt{E|g^2|_t+epsilon}$

此时，这个RMS就可以作为学习率 $eta$ 的一个约束：

$Delta{x_t}=-frac{eta}{RMS|g|_t}*g_t$

特点：

参考资料：

https://zhuanlan.zhihu.com/p/22252270