L2 正则化的直观理解

l2正则项为

L2 = λ/m ||w||2 =λ/m *（w1^2 + w2^2 + ... + wn^2）

我们在损失函数中加入这个正则项。

假设，对于某个训练集，我们可以训练出准确率非常高的分类器，但是其中有两个噪声样本的标签是错的，那么我们在判别这个噪声样本的时候，相关性较高的wi特征，可能就会比较大，

||w||^2也会比较大，所以损失函数不会最小。加入L2正则的花，就是在损失函数最小化的过程当中，去避免w可能会过分倾向某一个特征。

再比如：

判别一个人是男是女，我们在样本中很刚巧，男的全是短头发特征为，女的全是长头发,那么在头发这个特征wi上，可能就会训练出wi所占的权重非常大，完全依靠是否为长头发进行判别。

那么就过拟合了，所以在损失函数中加入w的L2项，就是在最小化损失函数的过程中，不太过分的倚重某一个特征，也就是允许一定的训练误差

==========吴恩达笔记============

损失函数加入l2正则项，其实就是控制||w||2的大小，

========另一个很有用的避免过拟合的方法============

dropout 随机失活