【转载】梯度的直观理解_谈谈优化算法之一（动量法、Nesterov法、自然梯度法）

原文地址：

https://blog.csdn.net/weixin_34613462/article/details/112333623

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/weixin_34613462/article/details/112333623
————————————————

========================================

-------------------------------------------------------------------

是时候谈谈优化算法了。不管是求解优化目标还是为了调参，只要问题从理论层面上升到实际操作层面，就离不开优化算法。本节讲主要围绕梯度下降（Gradient Descent）算法展开。

动量法(Momentum)

陷入局部最优或在平原部分缓步前行

牛顿动量（Nesterov）算法

自然梯度法（Natural Gradient Descent）

当优化问题的两个坐标轴尺度差异较大时，动量法在更新过程中会出现震荡问题，Nesterov算法给出了初步解决，但这两种方法有一个共性，就是都是从参数的角度去优化模型的，那有没有可能从模型本身角度来考虑呢？——这就是自然梯度法。在强化学习的Natural Actor-Critic算法和TRPO算法中，自然梯度法是强有力的优化工具。

========================================

本博客是博主个人学习时的一些记录，不保证是为原创，个别文章加入了转载的源地址还有个别文章是汇总网上多份资料所成，在这之中也必有疏漏未加标注者，如有侵权请与博主联系。