损失函数(均方误差、交叉熵)

1. 平方损失函数

L2范数损失函数，也被称为最小平方误差（LSE）。它是把目标值$y_i$与估计值$f(x_i)$的差值的平方和最小化。一般回归问题会使用此损失，离群点对次损失影响较大。

$L=sum_{i=1}^n(y_i−f(x_i))^2$

2.交叉熵损失函数

分类问题因为输出的是概率，故而一般使用的是此损失。

假设目标值：$y_i$、估计值：$f(x_i)$

交叉熵损失的公式是$L=sum_{i=1}^n−[y_i ln f(x_i)+(1−y_i)ln(1−f(x_i))]$

易混淆点：

注意公式不是$L=sum_{i=1}^n−[f(x_i)ln y_i +(1−f(x_i))ln(1−y_i)]$，因为当真实的label $y_i=0$时，$lny_i$没有意义；当期望$y_i=1$时，$ln(1-y_i)$没有意义。而因为$f(x_i)$是sigmoid函数的实际输出，永远不会等于0或1，只会无限接近于0或者1，因此不存在这个问题。

当真实label $y_i$与期望输出$f(x_i)$接近的时候，代价函数接近于0。

熵的概念请参考：https://www.cnblogs.com/AntonioSu/p/12442802.html

3.绝对值损失函数（LAE）

也被称为L1范数损失函数，最小绝对值偏差（LAD）。总的说来，它是把目标值$y_i$与估计值$f(x_i)$的绝对差值的总和最小化。

$L=sum_{i=1}^n|y_i−f(x_i)|$

4.对数损失函数

$L(y,h(x))=log(1-exp(yh(x)))$