逻辑回归番外篇（有很多是复制过来的）

从几何意义上的个人理解：

逻辑回归本质上是回归，而且是线性的回归，即拟合一条直线（线性超平面）

sigmoid函数在这里可以理解为某种点到超平面的归一化的距离函数

逻辑回归最终是寻找一条曲线将两部分数据分隔开。定义的距离函数就是“sigmoid距离函数”

而极大似然概率法可以看成最大化所有样本到超平面的距离的乘积。

1、逻辑回归求得的是属于某个类别的概率，而不是直接给出类别，可以根据实际需求移动阈值，所以可能更加实用

2、几率即为事件的发生比（the odds of experiencing an event），简记为Odds，其值是x属于正类的可能性和负类的可能性的比值

　　从对数几率来理解逻辑回归的假设函数，设p=p(y=1|x;θ)，则p(y=0|x;θ)=1-p

　　对数几率为：log(p/(1-p))=θ^Tx。由此可以推导得到：

3、对sigmoid函数的表层理解：

　　1）可导；2）将(-inf,+inf)压缩到了(0,1)区间

4、LogisticRegression 就是一个被logistic方程归一化后的线性回归，确定可以这样理解吗？

　　从几何性质来说，线性回归是找一条线来拟合一堆点，而逻辑回归则是找一条线将一堆数据分开。不过，从学习的假设函数的形式来说，确实可以这样理解。

5、针对随机梯度下降的收敛速度和震荡的平衡而设计的算法

　　　　初始化回归系数为1

　　　　重复下面步骤直到收敛{

　　　　对随机遍历的数据集中的每个样本

　　　随着迭代的逐渐进行，减小alpha的值（要设置一个小的下限）

　　　计算该样本的梯度

　　　使用alpha x gradient来更新回归系数

　　　 }

　　　　返回回归系数值

　　PS：随机选样本是为了避免周期性震荡，不断减小alpha的值是因为初期用大的alpha提高收敛速度，而后期减小是为了避免震荡。

6、最大化对数似然函数等价于最小化交叉熵（cross-entropy）误差

　　即通过最大化对数似然函数求解等价于将损失函数定义为负的对数似然函数，即交叉熵误差

7、最大似然方法对于线性可分的数据集会产生严重的过拟合现象，这是由于最大似然解出现在超平面对应于p= 0.5的情况，它等价于w^Tϕ= 0。最大似然解把数据集分成了两类，并且w的大小趋向于无穷大。这种情况下，logistic sigmoid函数在特征空间中变得非常陡峭，对应于一个跳变的阶梯函数，使得每一个来自类别k的训练数据都被赋予一个后验概率p(y|x) = 1。此外，通常这些解之间存在连续性，因为任何切分超平面都会造成训练数据点中同样的后验概率。最大似然方法无法区分某个解优于另一个解，并且在实际应用中哪个解被找到将会依赖于优化算法的选择和参数的初始化。注意，即使与模型的参数相比数据点的数量很多，只要数据是线性可分的，这个问题就会出现。通过引入先验概率，然后寻找w的MAP解，或者等价地，通过给误差函数增加一个正则化项，这种奇异性就可以被避免。

8、优化算法除了梯度下降算法外，还包括：

Conjugate gradient method(共轭梯度法)
Quasi-Newton method(拟牛顿法)
BFGS method
L-BFGS(Limited-memory BFGS)

　　　后二者由拟牛顿法引申出来，与梯度下降算法相比，这些算法的优点是：第一，不需要手动的选择步长；第二，通常比梯度下降算法快；但是缺点是更复杂

9、逻辑回归应用到多分类问题

当每个样本只属于一个类别时，使用softmax，参考

当有的样本会属于多个类别时，使用一对多的方式，建立k个分类器。