《数学之美》——第六章个人笔记

第六章信息的度量和作用

从一个角度可以认为信息量就等于不确定性的多少。

信息熵（Entropy）,一般用符号H表示，单位是比特。

熵的定义:

变量的不确定性越大，熵也就越大。

文中有个关于冗余度的：重复的内容很多，信息量就小，冗余度就大。

一个事物内部会存有随机性，也就是不确定性：U。引入信息 I 消除不确定性,而信息量取决于U的大小。当 I < U 时，可以消除一部分不确定性，也就是说新的不确定性：U' = U - I 。

⭐条件熵

假设X和Y是两个随机变量，已知X的随机分布P(X),那么也就知道了X的熵。现在还知道Y和X的联合概率密度，以及在Y取不同值的前提下X的概率分布，即条件概率分布。定义在Y的条件下的条件熵为：

H(X) >= H(X丨Y)，也就是说多了Y的信息之后，关于X的不确定性下降了。在统计语言模型中，如果把Y看成是前一个字，那么在数学上就证明了二元模型的不确定性小于一元模型。同理，三元模型比二元好。（用条件熵解释了模型复杂度）

⭐信息的作用在于消除不确定性，NLP的大量问题就是寻找相关的信息。

互信息（Mutual Information）:作为两个随机事件“相关性”的量化度量。

假定有两个随机事件X 和 Y ，它们的互信息定义如下：

相对熵用来衡量两个取值为正数的函数的相似性，定义：

三个结论：

①对于两个完全相同的函数，它们的相对熵是零。

②相对熵越大，两个函数差异越大；反之，则相反。

③对于概率分布或者概率密度函数，如果取值均大于零，相对熵可以度量两个随机分布的差异性。

⭐相对熵是不对称的：

为了计算方便：将上面的不等式两边取平均，即