1、数学模型

　　Logistic（逻辑斯特）回归的目的是从样本（训练集）中学习出一个0-1分类模型。

　　定义一个概率函数，即logistic函数（或叫 sigmoid function），形式如下：

可以看出，g(z)范围为(0,1)，即g(z)可以将无限宽的范围（即自变量的取值范围）映射到(0,1)，其图形如下：

则将假设函数（hypothesis）设为：

而假设函数的值，即为y = 1的概率，即：

当我们要判别一个新数据的特征属于哪个类时，只需求假设函数的值，若大于0.5，就是 y = 1 类，反之，则属于 y = 0 类。以下用更通用的函数表达上面两个式子：

上式与之前的两个式子是等效的。

　　对于假设函数，再仔细看看θ^Tx，当 θ^Tx > 0 时，h_θ(x) > 0.5 ，则 y = 1 类，同理，当 θ^Tx < 0 时，h_θ(x) < 0.5 ，则 y = 0 类，因此我们的目标是要找到合理的参数（即θ^T），使得样本得到正确的分类。

2、求解

　　对于参数的求解，我们使用极大似然估计，来估计参数θ^T。假设m个训练样本为独立抽样，则对于该样本集，以θ为参数的似然函数为：

求解L(θ)的最大值，即为求解极大似然估计量θ。通常步骤如下（求极大似然估计具体方法，步骤课参见数理统计、概率论等相关数学书籍）：

为了简化运算，先对L(θ)求log。
在对参数求偏导，使得偏导为0。
求解似然方程组，求得θ。

以上为数学方法，对于计算机，求解仍然使用之前博文中（机器学习：线性回归）的梯度下降法求解：

　　1、求解log(L(θ)):

　　2、对参数求偏导：

　　3、梯度下降法，利用第二步，迭代更新θ值，直至θ收敛，详见：机器学习：线性回归。

3、总结

　　可以看出，这个极大似然估计与之前线性回归中的最小二乘法对参数的估计使用的梯度下降法的更新规则是一样的，但是此时的假设函数h_θ(x)为非线性的，而之前为线性的（ h_θ(x) = θ^Tx ）。当你知道GLM(Generalized Linear Models)时，我们不必惊讶于两个完全不同的算法为什么会有相同的更新规则，因为它们有着共同的模型。

　　Logistic回归模型的一个强大的地方是，对样本类别的标签给出了自然的置信度(后验概率)，其他的判别式线性分类器模型如SVM没有提供，如果想要得到样本后验概率，需要经过特殊的学习算法计算(libsvm支持SVM后验概率形式输出)。

待补充：

　　Logistic多分类问题

参考资料：

斯坦福大学公开课课件：http://www.stanford.edu/class/cs229/notes/cs229-notes1.pdf
极大似然估计：http://zh.wikipedia.org/wiki/%E6%9E%81%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1