有监督学习的损失函数

分类问题

以下均以二分类问题为例，即(Y={1, -1}) , (y = mathop{sign}(f(x_i; heta)))

[L_{0-1}(f, y) = I(fy leq 0) ]

非凸、非光滑，难以优化

0-1损失的一个代理函数，是0-1损失相对紧的上界，称为合页损失函数

[L_{hinge}(f, y) = max{0, 1-fy} ]

在(fy=1)处不可导，因此不能用梯度下降优化，而是用次梯度下降

0-1损失的代理函数，凸上界

[L_{logistic}(f, y) = log_2 (1 + exp (-fy)) ]

处处光滑，可用梯度下降。但对所有样本点都有惩罚，因此对异常值更敏感

0-1损失函数的代理函数，光滑凸上界

[L_{cross entropy} (f, y) = -log2(frac{1+fy}{2})quad f in [-1, 1] ]

对于回归问题，有(y = f(x_i; heta))

[L_{square}(f, y) = (f - y)^2 ]

光滑函数，能用梯度下降，但对异常点敏感

[L_{absolute}(f, y) = |f - y| ]

相当于做中值回归，比平方损失函数鲁棒，但在(f=y)处无法求导数

综合考虑可导性和鲁棒性

[L_{huber}(f, y) = egin{aligned} egin{cases} (f-y)^2 & |f-y| leq delta \ 2delta|f-y|-delta^2 & |f-y|> delta end{cases} end{aligned} ]

在(|f-y|)较小时为平方损失，在(|f-y|)较大时为线性损失，处处可导，且对异常点鲁棒