KL散度

from http://blog.csdn.net/ericcchen/article/details/72357411

KL散度( KL divergence)

全称：Kullback-Leibler Divergence
用途：比较两个概率分布的接近程度
在统计应用中，我们经常需要用一个简单的，近似的概率分布

熵（entropy）

想要考察 信息量 的损失，就要先确定一个描述信息量的量纲。
在信息论这门学科中，一个很重要的目标就是量化描述数据中含有多少信息。
为此，提出了熵的概念，记作

H = - \sum i = 1 N p (x i) \cdot log p (x i)

KL散度的计算

现在，我们能够量化数据中的信息量了，就可以来衡量近似分布带来的信息损失了。
KL散度的计算公式其实是熵计算公式的简单变形,在原有概率分布

D K L (p | | q) = \sum i = 1 N p (x i) \cdot (log p (x i) - log q (x

D K L (p | | q) = E [log p (x) - log (q (x)]

D K L (p | | q) = \sum i = 1 N p (x i) \cdot log p ( x i ） q ( x

散度不是距离

D K L (p | | q) \neq D K L (q | | p)

使用KL散度进行优化

通过不断改变预估分布的参数，我们可以得到不同的KL散度的值。
在某个变化范围内，KL散度取到最小值的时候，对应的参数是我们想要的最优参数。
这就是使用KL散度优化的过程。

VAE(变分自动编码)

神经网络进行的工作很大程度上就是“函数的近似”(function approximators)
所以我们可以使用神经网络学习很多复杂函数，学习过程的关键就是设定一个目标函数来衡量学习效果。
也就是通过最小化目标函数的损失来训练网络(minimizing the loss of the objective function)
使用KL散度来最小化我们近似分布时的信息损失，让我们的网络可以学习很多复杂分布。
一个典型应用是VAE
Tutorial on VAE