逻辑回归与最大熵模型

逻辑回归

sigmoid函数=(sigma(x)=frac{1}{1+e^{-x}}=frac{e^{x}}{1+e^{x}})

二项逻辑回归模型

有如下条件概率分布，(w)内已经包含了偏置(b)：

[P(Y=1|x)=frac{exp(wcdot x)}{1+exp(wcdot x)} ]

[P(Y=0|x)=frac{1}{1+exp(wcdot x)} ]

对数几率：

[ ext{logit}(p)=frac{P(Y=1|x)}{1-P(Y=1|x)}=frac{p}{1-p}=wcdot x ]

参数估计

设：(P(Y=1|x)=pi (x), qquad P(Y=0|x)=1-pi (x))
似然函数为

[prod limits_{i=1}^N[pi(x_i)]^{y_i}[1-pi(x_i)]^{1-y_i} ]

对数似然函数为

[egin{aligned} mathcal{L}(w) &=sum limits_{i=1}^N[y_ilog pi(x_i)+(1-y_i)log (1-pi(x_i))] \ & = sum limits_{i=1}^N[y_i(w_i cdot x_i)-log (1+exp(w cdot x_i))] end{aligned}]

对(mathcal{L})求极大值，得到(w)的估计值。对于无约束优化问题，一般使用梯度下降法或拟牛顿法（不一定存在解析解，或者难以求解）

多项逻辑回归

[P(Y=k|x)=frac{exp(w_kcdot x)}{1+sum limits_{k=1}^{K-1}exp(wcdot x)},quad k=1,2,cdots,K-1 ]

[P(Y=K|x)=frac{1}{1+sum limits_{k=1}^{K-1}exp(wcdot x)} ]

总结：每项的归一化项都相同，不同的是分子。最后一项分子为1，其他都是对应的(exp(w_k cdot x))

最大熵模型

最大熵原理表述为在满足约束条件的模型集合中选取熵最大的模型

模型定义

对于给定数据集，可以确定联合分布(P(X,Y))的经验分布和边缘分布(P(X))的经验分布，分别为：

[ ilde{P}(X=x,Y=y)=frac{v(X=x,Y=y)}{N} ]

[ ilde{P}(X=x)=frac{v(X=x)}{N} ]

其中(v(cdot))表示频数

用特征函数(f(x,y))描述输入(x)和输出(y)之间的某个事实(可以看成是特征提取，提取输入输出的共同特征)，其定义为：

[f(x,y)=egin{cases}1,quad x与y ext{满足某一事实}\ 0, quad ext{otherwise}end{cases} ]

如果模型能够获取训练数据中的信息，那么应该满足：

[sum limits_{x,y} ilde{P}(x)P(y|x)f(x,y)=sum limits_{x,y} ilde{P}(x,y)f(x,y) ]

或对于特征函数的期望应满足如下条件：

[E_P(f)=E_{ ilde{P}}(f) ]

其中(P(Y|X))是要学习的条件概率

假设满足所有约束条件的模型集合为

[C equiv {Pin mathcal{P}|E_P(f_i)=E_{ ilde{P}}(f_i), quad i=1,2,cdots,n} ]

定义在条件概率分布(P(Y|X))上的条件熵为

[H(P)=-sum limits_{x,y} ilde{P}(x)P(y|x)ln P(y|x) ]

则模型集合(mathcal{C})中条件熵(H(P))最大的模型称为最大熵模型

最大熵模型的学习

可以形式化为约束最优化问题

[egin{aligned} max limits_{Pin C} quad & H(P)= -sum limits_{x,y} ilde{P}(x)P(y|x)ln P(y|x) \ s.t. quad & E_P(f_i)=E_{ ilde{P}}(f_i), quad i=1,2,cdots,n \ & sum limits_y P(y|x)=1 end{aligned}]

逻辑回归与最大熵模型的关系

当(y in {+1,-1})，且特征函数为

[f=egin{cases}g(x), quad & y=y_1 \ 0, quad &y=y_0 end{cases} ]

时，最大熵模型变为逻辑回归模型

逻辑回归优缺点

优点：
- 便利的观测样本概率分数；
- 已有工具的高效实现；
- 对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决；
- 逻辑回归广泛的应用于工业问题上（这一点很重要）
缺点：
- 当特征空间很大时，逻辑回归的性能不是很好；
- 不能很好地处理大量多类特征或变量；
- 对于非线性特征，需要进行转换；
- 依赖于全部的数据（个人觉得这并不是一个很严重的缺点）