dropout

https://zhuanlan.zhihu.com/p/23178423

从这个总结看的出来,用sgd时,是每个mini_batch更新一次dropout,并且前向和反向传播都是会在经过dropout处理后的神经元上进行。比如这一层有10个神经元,有5个神经元停止工作,那前向和反向都会在另外5个神经元上进行。

原文地址:https://www.cnblogs.com/ymjyqsx/p/7259915.html