第四节，梯度下降求解

小球搜寻下坡最快的例子

成本函数为 C(w,b)，为了取得L的最小值，采取朝着梯度方向的逐步逼近的策略，称为梯度下降，下面再介绍下它的具体实施步骤。

如下方所示的小球，位于v1, v2 空间中，图示位置所处的成本值还是比较大的，为了逐步减小，

让小球在 v1 和 v2 方向分别移动一定距离，那么它移动的距离可表示为：

令，

2.4 批梯度下降

通常训练集内包括的样本数比较大，这里有3种梯度下降的策略：

1. 每次迭代只使用随机的一个样本（极限情况1），这种情况下，每次修正方向以各自样本的梯度方向修正，横冲直撞，难以达到收敛。

2. 每次迭代使用所有样本（极限情况2），计算效率很低，训练一套网络会很慢。

3. 批处理（中间情况），mini-batch，每次选取一定数量的样本进行训练，能避免情况1的出现，也能在迭代效率上有所提升，在这种情况下，权重参数和偏置项用批处理表示为如下，

至此，批处理参数迭代公式推导结束。