Maximum Entropy Model

熵是对随机变量不确定性的度量,是对所有可能发生的事件产生的信息量的期望,没有外部能量输入的情况下,封闭系统趋向熵增。

信息熵指离散随机事件的出现概率:(X={x_1,x_2,...,x_n})(P(X=x_i)=p_i)

[H(X)=-sum_{i=1}^{n}p(x_i)log p(x_i) ]

Joint Entropy

[H(X,Y)=-sum_{i=1}^{n}sum_{j=1}^{m}p(i,j)log p(i,j) ]

[H(X|y_j)=-sum_{i=1}^{n}p(x_i|y_j)log p(x_i|y_j) ]

按照(Y)的各种情况进行加权平均,得条件熵(H(X|Y))

[H(X|Y)=-sum_{i=1}^{n}sum_{j=1}^{m}p(y_j)p(x_i|y_j)log p(x_i|y_j)=-sum_{i=1}^{n}sum_{j=1}^{m}p(x_i,y_j)log p(x_i|y_j) ]

易证(H(X|Y)=H(X,Y)-H(Y))

交叉熵,(P(X))(Q(X))(X)的两个概率分布

[D_{KL}(P || Q)=sum_xP(x)logfrac{P(x)}{Q(x)} ]

互信息

[I(X,Y)=sum_xsum_yp(x,y)logfrac{p(x,y)}{p(x)p(y)} ]

互信息就是联合分布(P(X,Y))和独立分布乘积(P(X)P(Y))的交叉熵。
易证(I(X,Y)=H(X)+H(Y)-H(X,Y))

直观上看:在已知部分知识的前提下,对于未知分布最合理的推断就是符合已知且最不确定的推断,整个系统趋向于无序,熵最大。
在一定约束条件下,使得(H(X|Y))最大。

[p^*={underset {pin P}{operatorname {arg\,max} }}\,-sum_{i=1}^{n}sum_{j=1}^{m}ar p(y_j)p(x_i|y_j)log p(x_i|y_j) ]

约束条件:

[sum_xp(x|y)=1 \ ... ]

又可以通过拉格朗日乘数法变为对偶问题求解。

由于无法求得解析解,只能用迭代法求数值解:

[p^*(x|y)=cfrac{1}{Z_lambda(y)}e^{sum_ilambda_if_i(x,y)} \ Z_lambda(y)=sum_xe^{sum_ilambda_if_i(x,y)} ]

原文地址:https://www.cnblogs.com/EIMadrigal/p/14310153.html