为什么l1和l2可以防止过拟合

为什么正则化的手段可以防止过拟合

随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。

简单的说就是在训练集上表现好,而在测试集上面表现不好

剩下的我觉得参考这篇bk,然后手推一遍还是挺好理解的

原文地址:https://www.cnblogs.com/gaowenxingxing/p/13828447.html