信息论小记

一、首先考虑一个离散的随机变量x；当我们观测到这个随机变量的某一个具体值的时候，我们需要考虑这个值给予了我们多少信息，这个信息的量可以看成是在学习x的值的时候的“惊讶程度”(degree of surprise)。如果我们知道事件A一定会发生，那么我们就不会收到关于该事件的信息；如果一件相当不可能的事情发生了，我们将接收到很多信息。、

　　显然，我们对于信息内容的度量将依赖于概率分布p(x)，因此我们要找到一个函数h(x)，它是p(x)的单调递增函数，表示信息的内容，概率学给出了这个公式：

负号确保信息一定是非负数，低概率事件x对应于高的信息量。下面给出的是平均信息量的计算公式：

这个量就是著名的“熵”，对数取2为底数的话熵的单位是bit.条件熵公式如下，即给定x，y的条件熵：

　　如下图所示，如果概率分布p(x)集中于几个值，那么熵就会比较低，如果分布比较均匀，则熵值会比较高，如果有某一个值使得p(x)=1，则熵值为0.

二、相对熵；

　　考虑某个未知的分布p(x)，假定我们已经使用一个近似的分布q(x)对它进行了建模。如果我们使用q(x)来建立一个编码体系，用来把x的值传给接收者，那么，由于我们使用了q(x)而不是真实分布p(x)，因此在具体化x的值时，我们需要一些附加的信息。我们需要的平均的附加信息量（单位是nat，底数为e）为：

这被称为分布p(x)和分布q(x)之间的相对熵（relative entropy）或者Kullback-Leibler散度，值恒为非负数。

三、互信息；

　　相对熵表示两个随机分布之间距离的度量,或者说是两者之间的差异。互信息是随机变量包含另一个随机变量信息量的度量。互信息也是在给定另一个随机变量情况下，原随机变量不确定度的缩减量：

四、相对熵和互信息的关系；

因此我们可以把互信息看成由于知道y值而造成的x的不确定性的减小（反之亦然）。从贝叶斯的观点来看，我们可以把p(x)看成x的先验概率分布，把p(x|y)看成我们观察到新数据y之后的后验概率分布。因此互信息表式一个新的观测y造成的x的不确定性的减小。