数学基础03-信息论基础(信息熵、条件熵、互信息/信息增益、联合熵、相对熵/KL散度、交叉熵)

机器学习中，信息论中的各种熵在多次出现(最大熵模型、CRF、广义线性模型中以及分类问题中损失中的交叉熵，t-SNE、GAN中使用的KL散度等)，这里做一个简单总结。

1、信息量

定义

单个事件的不确定性的大小。

数学形式

$logfrac{1}{p(x)}=-logp(x)$

特点

不确定性越大，信息量越大。

2、信息熵

定义

信息量的期望

数学形式

$H(x)=-sum p(x)logp(x)$

物理含义

一种解释是，信息熵表示最短的平均编码长度。

性质

不确定性越大，信息熵越大。

3、联合熵

定义

两个事件同时发生的不确定性。

数学形式

$H(X,Y)=-sum p(x,y)logp(x,y)$

4、条件熵

定义

已知条件下的，事件的不确定性的大小。

数学形式

$H(Y|X) = sum p(x) H(Y|X=x) = -sum p(x) sum p(y|x)logp(y|x)$

性质

熵、条件熵、联合熵满足：$H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)$

5、互信息/信息增益

定义

在没有任何条件时，不确定性最高；在给定一个条件后，不确定性可能减少。互信息就是不确定性减少的度量。

数学形式

$I(X,Y)=H(X)-H(X|Y)$

性质

$I(X,Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)$

tips:

根据以上信息，我们可以得出信息熵、联合熵、条件熵、互信息/信息增益的关系，如下韦恩图：

6、交叉熵

定义

这个定义我也不知道怎么下了！！！

数学形式

$H_c(p, q) = - sum p(x)logq(x)$

物理含义

可以理解为，使用一种编码，来记录另一个数据分布，需要的平均编码长度。

7、相对熵/KL散度

数学形式

$KL(p, q) = sum p(x)logfrac{p(x)}{q(x)} = H(p, q)-H(p)$

物理含义

使用另一种编码，来编码自身分布，需要额外增加的编码长度。

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！

微信: legelsr0808

邮箱: legelsr0808@163.com