大规模机器学习

这一节主要讲了一些适用于大规模机器学习的算法及策略，并比较了梯度下降、随机梯度下降和小批量梯度下降的优劣。目前来说，大规模机器学习中用的最多的还是小批量梯度下降，毕竟它在执行效率和性能之间达到了一个平衡。当然，对于小批量梯度下降来说，如何选择合适的批量大小又是一个值得深思的问题。

梯度下降

[egin{aligned} & ext{Repeat}{\ &quadquadTheta_{t+1} := Theta_t - alphafrac{1}{n}sum_{i=1}^n abla ext{cost}left(f(x^{(i)};Theta_t),y^{(i)} ight)\ &} end{aligned} ]

随机梯度下降

[egin{aligned} & ext{Repeat}{\ &quadquad ext{Shuffer training dataset randomly}\ &quadquad ext{Select } extbf{one} ext{ example from training dataset}\ &quadquadTheta_{t+1} := Theta_t - alpha abla ext{cost}left(f(x^{(i)};Theta_t),y^{(i)} ight)\ &} end{aligned}]

小批量梯度下降

[egin{aligned} & ext{Repeat}{\ &quadquad ext{Shuffer training data randomly}\ &quadquad ext{Select }b ext{ examples from training dataset}\ &quadquadTheta_{t+1} := Theta_t - alphafrac{1}{b}sum_{i=1}^b abla ext{cost}left(f(x^{(i)};Theta_t),y^{(i)} ight)\ &} end{aligned}]

后面介绍了分布式机器学习中的Map-Reduce方法，其实现阶段（2020年）常用的方法还是数据并行和模型并行这两种。主要使用的架构包括参数服务器以及一些环状架构，这里就不作过多介绍了。