1. 特征:沿负梯度方向迭代更新下一次的搜索方向
2. 用于:优化问题中逼近极值点
3. 基本形式:$ heta'_j= heta_j-alphacdotfrac{partial{J( heta)}}{partial heta_j}$
4. 步长 $alpha$(学习速率): $alpha$太小,收敛慢;$alpha$太大,可能不收敛。
5. 缺点:
①靠近极值点收敛速度减慢(导数减小)
②可能之字形下降
③总体收敛速度慢(一阶线性)
6. 变种:
①BGD批量梯度下降(Batch Gradient Descent):原始形式,每次用所有样本求导更新。
②SGD随机梯度下降(Stachastic Gradient Descent):每次随机选一个样本来更新,计算量小,收敛快,但准确率下降,并且不易于并行实现。
③MBGD小批量梯度下降(Mini-Batch Gradient Descent):折中方案,每次随机选b个样本进行更新。
7. 加速:Feature Scaling:将feature各维度标准化,即Mean Normalization:$x=frac{x-ar{x}}{max-min}$