L1损失函数和L2损失函数

关于L1损失函数的不连续的问题，可以通过平滑L1损失函数代替： $smooth_{L1}(x)=egin{bmatrix}0.5x^{2} ,if |x|<1& \ |x|-0.5,otherwise & end{bmatrix}$

L2损失函数：最小化平方误差，因此L2损失对异常点敏感，L2损失函数会赋予异常点更大的损失值和梯度，调整网络参数向减小异常点误差的方向更新，因此容易造成训练的不稳定和发散。仅有一解，解的稳定更好。