机器学习第七讲

第七讲、最优化

1.优化目标

2.梯度下降

①batch

②随机梯度下降SGD

训练一个样本，更新—次参数； mini-batch是SGD的推广，通常所说SGD即是mini-batch。

③病态条件

病态条件：不同方向有不同的梯度；学习率的选择困难。

④局部最小

局部最小(local minima) 权重空间是对称的/放大或者缩小权重。

以前的观点:局部最小是一个严重的问题。

现在:情况不同!

部最小非常接近于训练误差；实验和理论支持

⑤鞍点

鞍点(saddle points) 梯度为0，Hessian矩阵同时存在正值和负值

Heissan矩阵的所有特征值为正值的概率很低·

对于高维情况，鞍点和局部最小点的数量多

⑥平台

定义：梯度为零，hessian矩阵也为0

加入噪音使得从平台区域跳出。

⑦梯度爆炸与悬崖在RNN中非常常见，参数不断相乘导致；

长期时间依赖性。

解决办法:梯度截断(gradient clipping),启发式梯度截断干涉以减少步长。

3.动量法

·p也可以随着迭代次数的增大而变大随着时间推移调整p比收缩n更重要。

动量法克服了SGD中的两个问题:

②Nesterov动量法

③AdaGrad

④RMSPro

⑥adam