防止过拟合

一、正则化

　　正则化的思想就是在损失函数中加入刻画模型复杂度的指标，若损失函数为J(θ )，在求全局最优解时不是直接优化J(θ )，而是优化J(θ ) + λR(w)，其中R(w)用于刻画模型的复杂程度，λ表示模型复杂程度在总损失中所占的比例。通常模型复杂程度只由权重项决定，常用的刻画模型复杂度的函数有L1正则化和L2正则化，两者都是通过限制权重的大小，使模型不能任意拟合训练数据中的噪音，从而防止过拟合，但是两者也有区别：

　　1. L1会让参数变得稀疏，L2不会。

　　2. L1不是在任意点可导，L2在任意点可导。

二、早停

三、剪枝

四、Dropout