硬学信息熵的一些理解

本博客旨在通过一些例子不严谨但直观的“推出”信息熵的概念。

首先,信息熵是度量一件事儿的不确定性的,而这里“一件事儿”更确切的说是“一个随机变量及其分布”。比如,扔硬币这件事儿其实是离散型随机变量(P={0,1})服从({frac12,frac12})的随机分布。

所以,我们定义一个离散型随机变量(P)的信息熵为(H(P)),我们希望(P)越不确定(H(P))就越大。

定义一个量当然要定义这个量一个单位的含义,我们不如就假设,抛一个硬币看正反面所对应的随机变量(P1)的信息熵(H(P1)=1)

接下来,我们假设有(H(A+B)=H(A)+H(B))成立,即两件事情之和的不确定性等于两件事情各自的不确定性之和,你可能觉得这个假设有些道理又有些没道理,那么不妨继续看下去————如果顺着这个假设能推出来有用的东西,那这个假设自然就是有道理的了。

按照上述假设,我们发现同时抛掷三枚硬币的信息熵应该是(3H(P1)=3),而该事件所对应的随机变量(P2)是以(frac18)等概率分布的。

对比一下以(frac12)概率等概率分布的(P1)信息熵是(1),而以(frac18)等概率分布的(P2)信息熵是(3)。因此我们不妨先写出一个初步的定义:

若随机变量(P)是服从以(p)为概率的等概率分布,则(H(p)=-log(p))

那么如果不等概率呢?数学感觉好的大佬可能会发现,(H(P1)=-log(p)=-log(0.5)=1)可以理解为(H(P1)=-frac{log(0.5)}{2}-frac{log(0.5)}{2}),即每一种可能性的(log(p))按照其概率(frac12)取平均值。因此大胆猜测,如果有一个随机变量(P3)的分布是({frac14,frac34})的话,那么其(H(P3)=-frac{log(0.25)}{4}-frac{3log(0.75)}{4})

这合理吗?计算发现(H(P3)=0.81...),比(H(P1)=1)要小,而(P3)也确实应该有更小的不确定性(因为(P3)(frac34)的概率取到一个值,所以我们可以更确定这个值被取到的概率更大)。

因此,总结上面的内容,我们得到:如果有一个随机变量(P)的分布为({p_1,p_2,...,p_n}),那么我们定义其信息熵为:$$H(P)=Sigma_{i=1}^{n} -p_ilog(p_i)$$

原文地址:https://www.cnblogs.com/fried-chicken/p/13885148.html