信息与最大熵模型

一、信息的度量和作用

1.1 信息熵

一条信息的信息量与其不确定性有直接关系。当我们需要搞清一件非常不确定性的事,就需要了解大量的信息;相反,当我们对某一件事了解较多时,不需要太多的信息就可以把它搞清楚。从这个角度来看,信息量就是等于不确定性的多少。

当让我们猜测世界杯决赛中1-32号球队谁是冠军时,假设我们每猜测一次,对方告诉我们对或者不对,这样我们根据二分方法,一共需要猜测5次。那么实际中,可能并不需要猜测5次,应为像德国这样的球队得到冠军的可能性比日本这样的队高得多,这道这些信息后,我们可能只需要猜测3、4次就可以猜中。

香农指出,对任意一个随机变量(X),它的熵(Entropy)定义为

[H(X)=-sum _{x in X}P(x)logP(x) ]

熵满足不等式

[0 leq H(X) leq log|X| ]

其中(|X|)(X)取值的个数,当且仅当(X)服从均匀分布时等号成立,也就是说,(X)服从均匀分布时,熵最大。

1.2 信息的作用

信息是消除不确定性的唯一方法。当我们知道事件信息更多,我们对事件了解程度越高。假定一个事件的不确定性为(U),从外部消除这个不确定性的方法是引入信息(I),而需要引入的信息量取决于这个不确定性的大小,当(I<U)时,可以消除一部分不确定性,也就是新的不确定性为

[U'=U-I ]

(I geq U) 时,不确定性才能完全消除。需要注意的是,只有引入和当前研究问题相关的信息才可以消除不确定性。下面引入条件熵的概念。

假定(X,Y)是两个随机变量,(X)是我们需要了解的,现在知道(X)的概率分布(P(X)),以及(X,Y)的联合概率分布(P(X,Y))(X)(Y)下的条件概率分布(P(X|Y)),定义在(Y)下的条件熵为

[H(X|Y)=-sum_{x in X, y in Y}P(x,y)logP(x|y) ]

满足(H(X) geq H(X|Y)),也就是多了(Y)的信息后,(X)的不确定性下降了。

1.3 互信息

当获取的信息要和研究的事物"有关系"时,这些信息才能帮助我们消除不确定性。在这里将会给出有关系的精确定义,香农在信息论中提出了“互信息”的概念作为两个随机时间的“相关性“的量化度量。假定有两个随机时间(X)(Y),他们的互信息定义为

[I(X;Y)=sum_{x in X,y in Y}P(x,y);logfrac{P(x,y)}{P(x)P(y)} ]

其实这个互信息就是随机变量(X)的不确定性或者说熵(H(X)),以及在知道随机事件(Y)条件下的不确定性,或者说条件熵(H(X|Y))之间的差异

[I(X;Y)=H(X)-H(X|Y) ]

1.4 相对熵

相对熵也是信息论中的重要概念。相对熵也被称作交叉熵(Relative Entropy 或者 Kullback-Leibler Dibergence)。相对熵也是来衡量相关性,但是和互信息不同的是,它是用来衡量两个取值为正数的函数的相似性,定义为

[KL(f(x)||g(x))=sum_{x in X}f(x); logfrac{f(x)}{g(x)}) ]

需要注意的是

[KL(f(x)||g(x)) ot = KL(g(x)||f(x)) ]

有时候为了方便,将上面两个式子取平均

[JS(f(x)||g(x))=frac{1}{2}[KL(f(x)||g(x)) +KL(g(x)||f(x))] ]

对于相对熵,只需要记住以下三条:

  • 对于两个完全相同的函数,他们相对熵为零
  • 相对熵越大,两个函数差异性越大;反之,相对熵差异性越小,两个函数差异性越小。
  • 对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异

二、最大熵模型

2.1 最大熵模型的原理

论投资,人们常说不要把所有的鸡蛋放在一个篮子里,这样可以降低风险,这个原理在数学上被称作最大熵模型。说白了就是要保留不确定性,让风险降到最小。

  对于一个6个面的筛子,当我们不知道更多信息时,我们认为在一次投掷中每个面朝上的概率是(frac{1}{6})。为什么这样认为呢?因为对于这个一无所知的筛子,假定它每一个面朝上概率均等是最安全的做法。从投资的角度来看,这就是风险最小的做法。从信息论角度来看,就是保留了最大的不确定性,也就是熵最大。进一步的,我们知道这颗筛子很特殊,已知四点朝上的概率是(frac{1}{3}),这种情况下,每个点朝上的概率是多少呢?这时候认为除了已知的四点朝上的概率是(frac{1}{3})外,其余点概率是(frac{2}{15}),这就是说对对已知条件(四点朝上概率为(frac{1}{3}))必须满足,而对其余点一无所知,因而保险的做法是认为他们均等。

  最大熵原理指出,对一个随机事件概率分布进行预测时,我们的预测应当满足全部的已知条件,而对未知情况不做任何主观假设。

原文地址:https://www.cnblogs.com/td15980891505/p/7676206.html