深度模型优化器学习率的一些笔记

在跑模型的时候，使用adam，训练了几十个epoch都没有降loss，准确率也没有上升，在使用了不同的优化器比较，使用了不同的初始化参数的方法后，发现需要把adam的学习率降低。

当lr =0.1时，模型准确率5%，lr=0.01、1e-3、3e-4，模型的准确率为17%，然后就是一直没有提升，当我们把 lr=1e-5，模型过了几个epoch之后就开始稳步提升准确率了。

因此，我认为以后要是遇到这种模型一开始就没法训练，在训练集上的loss就降不下去，或许可以将学习率降低一点。

而且在对比不同的模型的时候，发现Adadelta优化器还不错，使用默认的参数就能提升模型的表现。