网络调试技巧 1.Batchsize变大时: 线性增加步长 开始时使用小步长,参数热身直到初始步长 BN的伽马参数为0???? bias的weight-decay为0 -------------------------------------------------------------逆水行舟,不进则退。