L1损失函数和L2损失函数

  • L1损失函数:最小化绝对误差,因此L1损失对异常点有较好的适应更鲁棒,不可导,有多解,解的稳定性不好。

       关于L1损失函数的不连续的问题,可以通过平滑L1损失函数代替:smooth_{L1}(x)=egin{bmatrix}0.5x^{2} ,if |x|<1& \ |x|-0.5,otherwise & end{bmatrix}

  • L2损失函数:最小化平方误差,因此L2损失对异常点敏感,L2损失函数会赋予异常点更大的损失值和梯度,调整网络参数向减小异常点误差的方向更新,因此容易造成训练的不稳定和发散。仅有一解,解的稳定更好。
原文地址:https://www.cnblogs.com/Henry-ZHAO/p/12725295.html