batchsize对收敛速度的影响

想象一下,当mini-batch 是真个数据集的时候,是不是就退化成了 Gradient Descent,这样的话,反而收敛速度慢。你忽略了batch 增大导致的计算 batch 代价变大的问题。如果盲目增大mini-batch size 确实是迭代次数减少了,但是计算时间反而会增加,因为每次计算代价大了。



原文地址:https://www.cnblogs.com/ymjyqsx/p/7260054.html