信息与最大熵模型

一、信息的度量和作用

1.1 信息熵

一条信息的信息量与其不确定性有直接关系。当我们需要搞清一件非常不确定性的事，就需要了解大量的信息;相反，当我们对某一件事了解较多时，不需要太多的信息就可以把它搞清楚。从这个角度来看，信息量就是等于不确定性的多少。

当让我们猜测世界杯决赛中1-32号球队谁是冠军时，假设我们每猜测一次，对方告诉我们对或者不对，这样我们根据二分方法，一共需要猜测5次。那么实际中，可能并不需要猜测5次，应为像德国这样的球队得到冠军的可能性比日本这样的队高得多，这道这些信息后，我们可能只需要猜测3、4次就可以猜中。

香农指出，对任意一个随机变量(X)，它的熵（Entropy）定义为

[H(X)=-sum _{x in X}P(x)logP(x) ]

熵满足不等式

[0 leq H(X) leq log|X| ]

其中(|X|)是(X)取值的个数，当且仅当(X)服从均匀分布时等号成立，也就是说，(X)服从均匀分布时，熵最大。

1.2 信息的作用

信息是消除不确定性的唯一方法。当我们知道事件信息更多，我们对事件了解程度越高。假定一个事件的不确定性为(U),从外部消除这个不确定性的方法是引入信息(I),而需要引入的信息量取决于这个不确定性的大小，当(I<U)时，可以消除一部分不确定性，也就是新的不确定性为

[U'=U-I ]

当(I geq U) 时，不确定性才能完全消除。需要注意的是，只有引入和当前研究问题相关的信息才可以消除不确定性。下面引入条件熵的概念。

假定(X,Y)是两个随机变量，(X)是我们需要了解的，现在知道(X)的概率分布(P(X))，以及(X,Y)的联合概率分布(P(X,Y))和(X)在(Y)下的条件概率分布(P(X|Y)),定义在(Y)下的条件熵为

[H(X|Y)=-sum_{x in X, y in Y}P(x,y)logP(x|y) ]

满足(H(X) geq H(X|Y)),也就是多了(Y)的信息后，(X)的不确定性下降了。

1.3 互信息

当获取的信息要和研究的事物"有关系"时，这些信息才能帮助我们消除不确定性。在这里将会给出有关系的精确定义，香农在信息论中提出了“互信息”的概念作为两个随机时间的“相关性“的量化度量。假定有两个随机时间(X)和(Y),他们的互信息定义为

[I(X;Y)=sum_{x in X,y in Y}P(x,y);logfrac{P(x,y)}{P(x)P(y)} ]

其实这个互信息就是随机变量(X)的不确定性或者说熵(H(X)),以及在知道随机事件(Y)条件下的不确定性，或者说条件熵(H(X|Y))之间的差异

[I(X;Y)=H(X)-H(X|Y) ]

1.4 相对熵

相对熵也是信息论中的重要概念。相对熵也被称作交叉熵（Relative Entropy 或者 Kullback-Leibler Dibergence）。相对熵也是来衡量相关性，但是和互信息不同的是，它是用来衡量两个取值为正数的函数的相似性，定义为

[KL(f(x)||g(x))=sum_{x in X}f(x); logfrac{f(x)}{g(x)}) ]

需要注意的是

[KL(f(x)||g(x)) ot = KL(g(x)||f(x)) ]

有时候为了方便，将上面两个式子取平均

[JS(f(x)||g(x))=frac{1}{2}[KL(f(x)||g(x)) +KL(g(x)||f(x))] ]

对于相对熵，只需要记住以下三条：

对于两个完全相同的函数，他们相对熵为零
相对熵越大，两个函数差异性越大;反之，相对熵差异性越小，两个函数差异性越小。
对于概率分布或者概率密度函数，如果取值均大于零，相对熵可以度量两个随机分布的差异

二、最大熵模型

2.1 最大熵模型的原理

论投资，人们常说不要把所有的鸡蛋放在一个篮子里，这样可以降低风险，这个原理在数学上被称作最大熵模型。说白了就是要保留不确定性，让风险降到最小。

对于一个6个面的筛子，当我们不知道更多信息时，我们认为在一次投掷中每个面朝上的概率是(frac{1}{6})。为什么这样认为呢？因为对于这个一无所知的筛子，假定它每一个面朝上概率均等是最安全的做法。从投资的角度来看，这就是风险最小的做法。从信息论角度来看，就是保留了最大的不确定性，也就是熵最大。进一步的，我们知道这颗筛子很特殊，已知四点朝上的概率是(frac{1}{3}),这种情况下，每个点朝上的概率是多少呢？这时候认为除了已知的四点朝上的概率是(frac{1}{3})外，其余点概率是(frac{2}{15}),这就是说对对已知条件（四点朝上概率为(frac{1}{3})）必须满足，而对其余点一无所知，因而保险的做法是认为他们均等。

最大熵原理指出，对一个随机事件概率分布进行预测时，我们的预测应当满足全部的已知条件，而对未知情况不做任何主观假设。