损失函数,梯度下降与牛顿法

损失函数

我们在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中，便是使用损失函数（Loss Function）作为其目标函数，又称为代价函数(Cost Function)。损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：

$Jleft ( mathbf{w} ight )=sum_{i}Lleft ( m_ileft (mathbf{ w} ight ) ight )+lambda Rleft ( mathbf{w} ight )$

其中，$Lleft ( m_ileft (mathbf{ w} ight ) ight )$为损失项，$Rleft ( mathbf{w} ight )$.$m_i$的具体形式如下：

$m_i=y^{left ( i ight )}f_mathbf{w}left ( mathbf{x}^{left ( i ight )} ight )$

$y^{left ( i ight )}in left { -1,;1 ight }$

$f_mathbf{w}left ( mathbf{x}^{left ( i ight )} ight )=mathbf{w}^Tmathbf{x}^{(i)}$

常见的损失函数:

1.log对数损失函数（逻辑回归）

$L(Y,P(Y|X)) = -log P(Y|X)$

损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下，使概率P(Y|X)达到最大值（换言之，就是利用已知的样本分布，找到最有可能（即最大概率）导致这种分布的参数值；或者说什么样的参数才能使我们观测到目前这组数据的概率最大）。这种损失函数的目的是最大化预测值为真实值的概率。

逻辑回归的P(Y=y|x)表达式如下:

分类器可以表示为：

$pleft ( ymid mathbf{x}; mathbf{w} ight )=sigma left ( mathbf{w}^Tmathbf{x} ight )^yleft ( 1-sigma left ( mathbf{w}^Tmathbf{x} ight ) ight )^{left ( 1-y ight )}$

为了求解其中的参数w，通常使用极大似然估计的方法，具体的过程如下：

1.似然函数

$Lleft ( mathbf{w} ight )=prod_{i=1}^{n}sigma left ( mathbf{w}^Tmathbf{x}^{left ( i ight )} ight )^{y^{left ( i ight )}}left ( 1-sigma left ( mathbf{w}^Tmathbf{x}^{left ( i ight )} ight ) ight )^{left ( 1-y^{left ( i ight )} ight )}$

$sigma left ( x ight )=frac{1}{1+expleft ( -x ight )}$

2.取log

$logLleft ( mathbf{w} ight )=sum_{i=1}^{n}y^{left ( i ight )}logleft ( sigma left ( mathbf{w}^Tmathbf{x}^{left ( i ight )} ight ) ight )+left ( 1-y^{left ( i ight )} ight )logleft ( 1-sigma left ( mathbf{w}^Tmathbf{x}^{left ( i ight )} ight ) ight )$

3.需要求解的是使得log似然取得最大值的w。将其改变为最小值

$underset{mathbf{w}}{min}sum_{i=1}^{n}logleft { 1+expleft ( -y^{left ( i ight )}mathbf{w}^Tmathbf{x}^{left ( i ight )} ight ) ight }$

逻辑回归最后得到的目标式(不是最小二乘)：

$J( heta) = - frac{1}{m} sum_{i=1}^m left [ y^{(i)} log h_{ heta}(x^{(i)}) + (1-y^{(i)}) log(1-h_{ heta}(x^{(i)})) ight ]$

2.平方损失函数（最小二乘法）

$L(Y, f(X)) = (Y - f(X))^2$

当样本个数为n时，此时的损失函数变为: