梯度下降（Gradient Descent）

1. 特征：沿负梯度方向迭代更新下一次的搜索方向

2. 用于：优化问题中逼近极值点

3. 基本形式：$ heta'_j= heta_j-alphacdotfrac{partial{J( heta)}}{partial heta_j}$

4. 步长 $alpha$（学习速率）： $alpha$太小，收敛慢；$alpha$太大，可能不收敛。

5. 缺点：

①靠近极值点收敛速度减慢（导数减小）

②可能之字形下降

③总体收敛速度慢（一阶线性）

6. 变种：

①BGD批量梯度下降（Batch Gradient Descent）：原始形式，每次用所有样本求导更新。

②SGD随机梯度下降（Stachastic Gradient Descent）：每次随机选一个样本来更新，计算量小，收敛快，但准确率下降，并且不易于并行实现。

③MBGD小批量梯度下降（Mini-Batch Gradient Descent）：折中方案，每次随机选b个样本进行更新。

7. 加速：Feature Scaling：将feature各维度标准化，即Mean Normalization：$x=frac{x-ar{x}}{max-min}$