变分贝叶斯推断(Variational Bayesian Inference)

~~变分贝叶斯推断(Variational Bayesian Inference)

变分贝叶斯方法主要处理复杂的统计模型,贝叶斯推断中参数可以分为 可观变量 和 不可观变量,这其中不可观部分进一步分为 隐含参数 和 隐含变量。

变分贝叶斯的核心任务是寻找一个 概率分布$Qleft( {x; heta } ight)$ 去逼近真实的$Pleft( x ight)$, 并使用KL散度去估计其具体逼近程度,因为与逼近程度负相关,所以可以姑且称为 不相似度。KL散度会在之后具体说明讨论。更准确地说是在逼近后验概率,即用  ${Qleft( {x} ight)}$ 去尽量逼近 ${Pleft( {xleft| D ight.} ight)}$。

变分法是以函数为变量求解最优问题的方法。

变分法的优点主要是:有解析解、计算开销较小、易于在大规模问题中应用。

~~KL散度
根据定义,有
[KLleft[ {Qleft( x ight)left| {Pleft( {xleft| D ight.} ight)} ight.} ight] = int {dx cdot Qleft( x ight)} ln frac{{Qleft( x ight)}}{{Pleft( {xleft| D ight.} ight)}}]
其中$D$为所观测的数据,而$x$是不能观测的数据。

~~平均场假设
[Qleft( x ight) = prodlimits_i {{Q_i}left( {{x_i}left| {{ heta _i}} ight.} ight)}]
显然的,$x_i$各自独立,与此同时$ heta_i$之间也没有相互作用。这里假设的就是各观测数据之间是不会互相干扰的。
与此同时,还需要这些各自独立的分布也需要归一化:
[int {d{x_i} cdot {Q_i}left( x ight)} = 1].
显而易见的是,这点是我们所用估计模型——概率分布$Qleft( {x; heta } ight)$ 的特点, 而不是原本分布的特点。
从边缘概率角度而言,对于$P_ileft( x ight)$, $Q_ileft( x ight)$很可能是个很差的估计。

~~ELBO(证据下界Evidence Lower Bound)和KL散度的关系
由贝叶斯公式:

[ln Pleft( D ight) = ln Pleft( {x,D} ight) - ln Qleft( x ight) - ln frac{{Pleft( {xleft| D ight.} ight)}}
{{Qleft( x ight)}}]

对$Qleft( D ight)$做期望

[egin{gathered}
int {dx cdot Qleft( x ight)} ln Pleft( D ight) = int {dxcdot Qleft( x ight)} ln Pleft( {x,D} ight) - int {dx cdot Qleft( x ight)} ln Qleft( x ight) hfill \
- int {dx cdot Qleft( x ight)} ln frac{{Pleft( {x | D} ight)}}
{{Qleft( x ight)}} hfill \ 
end{gathered} ]

其中$Qleft( x ight)$与$Pleft( D ight)$相互独立,$Qleft( D ight)$的选定显然与系统本身之间的独立,相关性是后期赋予的。

进而有

[egin{gathered}
ln Pleft( D ight) = underbrace {int {dx cdot Qleft( x ight)} ln Pleft( {x,D} ight) - int {dx cdot Qleft( x ight)} ln Qleft( x ight)}_{ELBO} hfill \
underbrace { - int {dx cdot Qleft( x ight)} ln frac{{Pleft( {x | D} ight)}}
{{Qleft( x ight)}}}_{KLleft( {Qleft| P ight.} ight)} hfill \ 
end{gathered} ]

显然,$ln Pleft( D ight)$作为数据真值而确定,导致  ${KLleft( {Qleft| P ight.} ight)}$与ELOB是此消彼长的。

当我们在制定确定的$Qleft( {x; heta } ight)$时,应该考虑如何用尽可能简单的$Qleft( {x; heta } ight)$最大化ELBO

而最小化${KLleft( {Qleft| P ight.} ight)}$, 从而使得$Qleft( {x; heta } ight)$的逼近更准确。

原文地址:https://www.cnblogs.com/chainplain/p/12047612.html