机器学习与深度学习 —— 参数的调优

1. 正则化系数与最速下降的步长

(W,b)=1NiNy(i)logp(i)+(1y(i))log(1p(i))

  • 这里对全局的损失之所以取均值的原因在于,是为了解耦(decouple)后续的对权值矩阵的正则化系数以及 SGD 的步长;
原文地址:https://www.cnblogs.com/mtcnn/p/9422627.html