逻辑回归与最大熵模型

逻辑回归

sigmoid函数=(sigma(x)=frac{1}{1+e^{-x}}=frac{e^{x}}{1+e^{x}})

二项逻辑回归模型

有如下条件概率分布,(w)内已经包含了偏置(b)

[P(Y=1|x)=frac{exp(wcdot x)}{1+exp(wcdot x)} ]

[P(Y=0|x)=frac{1}{1+exp(wcdot x)} ]

对数几率:

[ ext{logit}(p)=frac{P(Y=1|x)}{1-P(Y=1|x)}=frac{p}{1-p}=wcdot x ]

参数估计

设:(P(Y=1|x)=pi (x), qquad P(Y=0|x)=1-pi (x))
似然函数为

[prod limits_{i=1}^N[pi(x_i)]^{y_i}[1-pi(x_i)]^{1-y_i} ]

对数似然函数为

[egin{aligned} mathcal{L}(w) &=sum limits_{i=1}^N[y_ilog pi(x_i)+(1-y_i)log (1-pi(x_i))] \ & = sum limits_{i=1}^N[y_i(w_i cdot x_i)-log (1+exp(w cdot x_i))] end{aligned}]

(mathcal{L})求极大值,得到(w)的估计值。对于无约束优化问题,一般使用梯度下降法或拟牛顿法(不一定存在解析解,或者难以求解)

多项逻辑回归

[P(Y=k|x)=frac{exp(w_kcdot x)}{1+sum limits_{k=1}^{K-1}exp(wcdot x)},quad k=1,2,cdots,K-1 ]

[P(Y=K|x)=frac{1}{1+sum limits_{k=1}^{K-1}exp(wcdot x)} ]

总结:每项的归一化项都相同,不同的是分子。最后一项分子为1,其他都是对应的(exp(w_k cdot x))

最大熵模型

最大熵原理表述为在满足约束条件的模型集合中选取熵最大的模型

模型定义

对于给定数据集,可以确定联合分布(P(X,Y))的经验分布和边缘分布(P(X))的经验分布,分别为:

[ ilde{P}(X=x,Y=y)=frac{v(X=x,Y=y)}{N} ]

[ ilde{P}(X=x)=frac{v(X=x)}{N} ]

其中(v(cdot))表示频数

用特征函数(f(x,y))描述输入(x)和输出(y)之间的某个事实(可以看成是特征提取,提取输入输出的共同特征),其定义为:

[f(x,y)=egin{cases}1,quad x与y ext{满足某一事实}\ 0, quad ext{otherwise}end{cases} ]

如果模型能够获取训练数据中的信息,那么应该满足:

[sum limits_{x,y} ilde{P}(x)P(y|x)f(x,y)=sum limits_{x,y} ilde{P}(x,y)f(x,y) ]

或对于特征函数的期望应满足如下条件:

[E_P(f)=E_{ ilde{P}}(f) ]

其中(P(Y|X))是要学习的条件概率

假设满足所有约束条件的模型集合为

[C equiv {Pin mathcal{P}|E_P(f_i)=E_{ ilde{P}}(f_i), quad i=1,2,cdots,n} ]

定义在条件概率分布(P(Y|X))上的条件熵为

[H(P)=-sum limits_{x,y} ilde{P}(x)P(y|x)ln P(y|x) ]

则模型集合(mathcal{C})中条件熵(H(P))最大的模型称为最大熵模型

最大熵模型的学习

可以形式化为约束最优化问题

[egin{aligned} max limits_{Pin C} quad & H(P)= -sum limits_{x,y} ilde{P}(x)P(y|x)ln P(y|x) \ s.t. quad & E_P(f_i)=E_{ ilde{P}}(f_i), quad i=1,2,cdots,n \ & sum limits_y P(y|x)=1 end{aligned}]

逻辑回归与最大熵模型的关系

(y in {+1,-1}),且特征函数为

[f=egin{cases}g(x), quad & y=y_1 \ 0, quad &y=y_0 end{cases} ]

时,最大熵模型变为逻辑回归模型

逻辑回归优缺点

  • 优点:
    • 便利的观测样本概率分数;
    • 已有工具的高效实现;
    • 对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决;
    • 逻辑回归广泛的应用于工业问题上(这一点很重要)
  • 缺点:
    • 当特征空间很大时,逻辑回归的性能不是很好;
    • 不能很好地处理大量多类特征或变量;
    • 对于非线性特征,需要进行转换;
    • 依赖于全部的数据(个人觉得这并不是一个很严重的缺点)
原文地址:https://www.cnblogs.com/weilonghu/p/11922301.html