Adam

Adam 是一种可以替代传统随机梯度下降（SGD）过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重。Adam 最开始是由 OpenAI 的 Diederik Kingma 和多伦多大学的 Jimmy Ba 在提交到 2015 年 ICLR 论文（Adam: A Method for Stochastic Optimization）中提出的。

「Adam」，其并不是首字母缩写，也不是人名。它的名称来源于适应性矩估计（adaptive moment estimation）。在介绍这个算法时，原论文列举了将 Adam 优化算法应用在非凸优化问题中所获得的优势：

1.直截了当地实现
2.高效的计算
3.所需内存少
4.梯度对角缩放的不变性（第二部分将给予证明）
5.适合解决含大规模数据和参数的优化问题
6.适用于非稳态（non-stationary）目标
7.适用于解决包含很高噪声或稀疏梯度的问题
8.超参数可以很直观地解释，并且基本上只需极少量的调参