梯度下降(Gradient Descent)

1. 特征:沿负梯度方向迭代更新下一次的搜索方向

 

2. 用于:优化问题中逼近极值点

 

3. 基本形式:$ heta'_j= heta_j-alphacdotfrac{partial{J( heta)}}{partial heta_j}$

 

4. 步长 $alpha$(学习速率): $alpha$太小,收敛慢;$alpha$太大,可能不收敛。

 

5. 缺点:

①靠近极值点收敛速度减慢(导数减小)

②可能之字形下降

③总体收敛速度慢(一阶线性)

 

6. 变种:

①BGD批量梯度下降(Batch Gradient Descent):原始形式,每次用所有样本求导更新。

②SGD随机梯度下降(Stachastic Gradient Descent):每次随机选一个样本来更新,计算量小,收敛快,但准确率下降,并且不易于并行实现。

③MBGD小批量梯度下降(Mini-Batch Gradient Descent):折中方案,每次随机选b个样本进行更新。

 

7. 加速:Feature Scaling:将feature各维度标准化,即Mean Normalization:$x=frac{x-ar{x}}{max-min}$

原文地址:https://www.cnblogs.com/clarenceliang/p/6599867.html