深度学习中常用的优化方法

一、basic algorithm

1. SGD

此处的SGD指mini-batch gradient descent，关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指mini-batch gradient descent。

2. Momentum（SGD + momentum）

3. Nesterov Momentum

二、adaptive learning rate

1. AdaGrad

2. RMSprop

3. Adam

三、Approximate Second-Order Methods

1. Newton's Method

2. Conjugate Gradients

3. BFGS

详细介绍待补充