L2 正则化的直观理解

l2正则项为 

L2 = λ/m ||w||2 =λ/m *(w1^2 + w2^2 + ... + wn^2) 

我们在损失函数中加入这个正则项。

假设,对于某个训练集,我们可以训练出准确率非常高的分类器,但是其中有两个噪声样本的标签是错的,那么我们在判别这个噪声样本的时候,相关性较高的wi特征,可能就会比较大,

||w||^2也会比较大,所以损失函数不会最小。加入L2正则的花,就是在损失函数最小化的过程当中,去避免w可能会过分倾向某一个特征。

再比如:

判别一个人是男是女,我们在样本中很刚巧,男的全是短头发特征为,女的全是长头发,那么在头发这个特征wi上,可能就会训练出wi所占的权重非常大,完全依靠是否为长头发进行判别。

那么就过拟合了,所以在损失函数中加入w的L2项,就是在最小化损失函数的过程中,不太过分的倚重某一个特征,也就是允许一定的训练误差

==========吴恩达笔记============

损失函数加入l2正则项,其实就是控制||w||2的大小,

https://mooc.study.163.com/learn/2001281003?tid=2001391036#/learn/content?type=detail&id=2001702116&cid=2001693033

========另一个很有用的避免过拟合的方法============

dropout 随机失活

原文地址:https://www.cnblogs.com/yjybupt/p/11065468.html