BN和正则化一起使用的后果

就是因为 batch norm 过后, weight 影响没那么重了,所以 l2 weight decay 的效果就不明显了。

证明了L2正则化与归一化相结合时没有正则化效应。相反,正则化会影响权重的范围,从而影响有效学习率。

原文地址:https://www.cnblogs.com/pacino12134/p/11104480.html