SGD 随机梯度下降
优缺点 | 批量梯度下降 | 随机梯度下降 | 小批量梯度下降 |
---|---|---|---|
优点 | 全局最优解,易于并行实现 | 训练速度快 | 训练次数尽量小 每次训练的耗时尽量少 |
缺点 | 样本数目多,训练会很慢 | 不是全局最优解盲目搜索,准确度低迭代次数增加 |
SGD 随机梯度下降
优缺点 | 批量梯度下降 | 随机梯度下降 | 小批量梯度下降 |
---|---|---|---|
优点 | 全局最优解,易于并行实现 | 训练速度快 | 训练次数尽量小 每次训练的耗时尽量少 |
缺点 | 样本数目多,训练会很慢 | 不是全局最优解盲目搜索,准确度低迭代次数增加 |