机器学习与深度学习 —— 参数的调优 1. 正则化系数与最速下降的步长 ℓ(W,b)=−1N∑iNy(i)logp(i)+(1−y(i))log(1−p(i)) 这里对全局的损失之所以取均值的原因在于,是为了解耦(decouple)后续的对权值矩阵的正则化系数以及 SGD 的步长;