学习率余弦退火衰减策略

参考链接：https://blog.csdn.net/weixin_35848967/article/details/108493217

出发点：

因为我们的目标优化函数可能是多峰的（如下图所示），除了全局最优解之外还有多个局部最优解，在训练时梯度下降算法可能陷入局部最小值，此时可以通过突然提高学习率，来“跳出”局部最小值并找到通向全局最小值的路径。这种方式称为带重启的随机梯度下降方法。如下图所示：