熵

最大熵模型

最大熵模型（Maximum Entropy Model，以下简称MaxEnt），MaxEnt 是概率模型学习中一个准则，其思想为：在学习概率模型时，所有可能的模型中熵最大的模型是最好的模型；若概率模型需要满足一些约束，则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。

最大熵原理指出，对一个随机事件的概率分布进行预测时，预测应当满足全部已知的约束，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小，因此得到的概率分布的熵是最大。

关于条件分布$P(X|Y)$的熵为：

$H(P) =–sum_{x,y}P(y,x)logP(y|x)= –sum_{x,y}widetilde{P}(x)P(y|x)logP(y|x)$

首先满足约束条件然后使得该熵最大即可，MaxEnt 模型$P^*$为

$P^* = argmax_{P in C} H(P) 或 P^* = argmin_{P in C} -H(P)$

综上给出形式化的最大熵模型：

给定数据集$left { (x_i,y_i) ight}_{i=1}^N$,特征函数$f_i(x,y)，i= 1,2…,n$,根据经验分布得到满足约束集的模型集合C

$egin{aligned} & min_{P in C} sum_{x,y} widetilde{P}(x)P(y|x)logP(y|x) \ & s.t. E_p(f_i) = E _{widetilde{P}}(f_i) \ & sum_yP(y|x) = 1 end{aligned}$

简单粗暴的说：逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应为二类时的特殊情况，也就是说，当逻辑回归扩展为多类别的时候，就是最大熵模型。

信息熵

信息熵是度量随机变量不确定度的指标，信息熵越大意味着随机变量不确定度越高，意味着系统的有序程度越低。他的定义

如果随机变量$P={x_1,x_2,...,x_n}$,他的概率$P{P=x_i},iin {1,2,..,n}$,则随机变量$P={x_1,x_2,...,x_n}$的熵定义为 $P = {x_{1}, x_{2}, . . ., x_{n}}$

$H( P)=-sum_{i=1}^n p(x_i)log_2 p(x_i)$

交叉熵

$Hleft(P,Q ight)=-sum_{i=1}^n p(x_i)log_2 q(x_i)$

交叉熵刻画的是两个概率分布的距离，也就是说交叉熵越小，两个概率分布越接近

交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。

相对熵

考虑某个未知的分布 p(x) ,假定我们已经使用一个近似的分布 q(x) 对它进行了建模。如果我们使用 q(x) 来建立一个编码体系,用来把 x 的值传给接收者,那么,由于我们使用了 q(x) 而不是真实分布 p(x) ,因此在具体化 x 的值(假定我们选择了一个高效的编码系统)时,我们需要一些附加的信息。我们需要的平均的附加信息量(单位是 nat )为