优化算法

动量梯度下降

主要是选用指数加权平均的思想，给梯度下降增加一个动量，使这个梯度下降可以在纵向摆动更小，横向摆动更大（每一次都是往最优的方向前进），从而加快了收敛速度。

超参数：学习率α、β默认值是0.9

RMSProp

也是利用指数加权平均的思想，只不过在动量梯度下降基础上加上了平方根的思想，这样使得横轴和纵轴方面表现的更容易收敛，加快了速度，比动量梯度下降速度更快，表现的良好

超参数：学习率α、β默认值0.9（0.999）、为了保证稳定性在分母上加了个很小的值ε默认值10^-8

Adam

该算法是融合了动量梯度下降和RMSPROP两者的思想，在使用微分平方的指数加权平均的思想的同时，给梯度下降增加一个动量，所以我们在保证了模型稳定性的同时也可以让模型保持了相对较快的速度达到收敛。让两者的优势都能够更好的作用于模型之上，从而更好的优化模型。

超参数：学习率α，β1默认值0.9、β2默认值0.99、为了保证稳定性，在分母上加了个很小的值ε默认值10^-8