梯度下降

理论基础

梯度下降法是机器学习中常用的优化方法，其理论基础是当θ^s-θ→0时会有：

J(θ^s) ≈ J(θ)+▽(θ)(θ^s-θ)

因此当我们这样更新θ^s，并保证α>0且足够小时：

θ^s+1 = θ^s - α▽(θ^s)

则会有：

J(θ^s+1)
≈ J(θ^s)+▽(θ^s)(θ^s+1-θ^s)
≈ J(θ^s)+▽(θ^s)(-α▽(θ^s))≈ J(θ^s) - α▽(θ^s)²

这里我们可以发现迭代后的目标函数J(θ)变小了，因此经过多次迭代后，我们能够找到一个极小值（当▽(θ^s)=0时，θ^s+1 = θ^s，迭代结束）。

由于要达到▽(θ^s)=0必须迭代十分长的时间，因此实际操作中迭代条件并非▽(θ^s)=0，而是一下三个常用的条件：

由于每一维度的值的范围可能差别很大（如有一些维度为0-1，另一些为100-200），这样当我们都统一从0开始迭代时，会使得范围小的维度很快得到拟合，而范围大的维度却需要长时间的拟合，因此我们常常会先将数据进行归一化。
当迭代次数较小的时候，我们希望一个较大的α来提高迭代速度；但是当迭代次数大的时候，我们则希望一个较小的α来更好的到达最优解（避免在极小值附近左右晃动）。因此我们可以避免使用固定的步长，而是当迭代次数到达一定的大小时，让α逐渐变小。