机器学习第七讲

第七讲、最优化

1.优化目标

2.梯度下降

①batch

②随机梯度下降SGD

训练一个样本,更新—次参数; mini-batch是SGD的推广,通常所说SGD即是mini-batch。

③病态条件

病态条件:不同方向有不同的梯度;学习率的选择困难。

④局部最小

局部最小(local minima) 权重空间是对称的/放大或者缩小权重。

以前的观点:局部最小是一个严重的问题。

现在:情况不同!

部最小非常接近于训练误差;实验和理论支持

⑤鞍点

鞍点(saddle points) 梯度为0,Hessian矩阵同时存在正值和负值

Heissan矩阵的所有特征值为正值的概率很低·

对于高维情况,鞍点和局部最小点的数量多

⑥平台

定义:梯度为零,hessian矩阵也为0

加入噪音使得从平台区域跳出。

⑦梯度爆炸与悬崖 在RNN中非常常见,参数不断相乘导致;

长期时间依赖性。

解决办法:梯度截断(gradient clipping),启发式梯度截断干涉以减少步长。

3.动量法

 

 

·p也可以随着迭代次数的增大而变大随着时间推移调整p比收缩n更重要。

动量法克服了SGD中的两个问题:

  • Hessian矩阵的病态问题(右图解释)·

  • 随机梯度的方差带来的不稳定。

②Nesterov动量法

 

 

③AdaGrad

④RMSPro

⑥adam

原文地址:https://www.cnblogs.com/dwx8845/p/14358918.html