Batch梯度下降

1、之前讲到随机梯度下降法(SGD),如果每次将batch个样本输入给模型,并更新一次,那么就成了batch梯度下降了。

2、batch梯度下降显然能够提高算法效率,同时相对于一个样本,batch个样本更能体现样本的总体分布。

3、但是也不是batch越大越好,容易陷入鞍点(横看最小,侧看最大);batch小的话增加了随机性,不容易陷入鞍点。

原文地址:https://www.cnblogs.com/vincent-vg/p/10707502.html