统计学习方法[6]——逻辑回归模型

统计学习方法由三个要素组成：方法=模型+策略+算法

模型是针对具体的问题做的假设空间，是学习算法要求解的参数空间。例如模型可以是线性函数等。

策略是学习算法学习的目标，不同的问题可以有不同的学习目标，例如经验风险最小化或者结构风险最小化。

经验风险最小化中常见的损失函数有：0-1损失函数、残差损失函数、绝对值损失函数、平方损失函数、对数损失函数等等。

算法是按照上述策略求解模型的具体计算方法。模型定义了要求什么，策略定义了按照什么标准去求，算法则具体去解决。

线性回归模型

线性回归模型，众所周知就是给定给定训练集(X_i,Y_i)，模拟一个一次线性函数Y'=∑Θ_iX_i(模型)，使得误差J(Y,Y')尽可能最小(策略)。

如果要用线性回归问题解决分类问题的话，需要将线性回归函数转换成0-1分布的函数，逻辑斯蒂函数就是这样一个函数，可以将值映射为区间(0,1)上，同时又能很好的表示概率意义。

那么如何求解参数使损失函数最小呢？

当然可以用暴力搜索所有的参数值Θ，但是效率肯定很低，所以用有目标的（启发式）搜索算法代替暴力搜索。这里的目标就是上述损失函数最小策略。

假设空间参数是经验风险的函数！举个例子，对于

如果Θ₀ 一直为 0，则Θ₁与J的函数为：

如果有Θ₀与Θ₁都不固定，则Θ₀、Θ₁、J 的函数为：

梯度下降法

大致步骤如下：

1、随机初始化参数Θ，并给定一个学习速率α(下降的步长)

2、求解目标函数(损失函数)相对于各个参数分量Θ_i的偏导数

3、循环同步迭代Θ_i直到达到终止条件（迭代次数或者一个误差值）

下降的步伐大小非常重要，因为如果太小，则找到函数最小值的速度就很慢，如果太大，则可能会出现overshoot the minimum的现象；

下图就是overshoot minimum现象：

如果Learning rate取值后发现J cost function增长了，则需要减小Learning rate的值；所以需要随时观察α值，如果J cost function变小了，则ok，反之，则再取一个更小的值。

下图详细的说明了梯度下降的过程：

下图就是模型、策略、算法结合得到统计学习方法的示例：

另外需要注意的是梯度下降法求解的是局部最优解（除非损失函数是凸的），跟初始点由很大的关系，可以多次取不同初始值求解后取最优值。

参考博客：http://blog.csdn.net/xiazdong/article/details/7950084