~~变分贝叶斯推断(Variational Bayesian Inference)
变分贝叶斯方法主要处理复杂的统计模型,贝叶斯推断中参数可以分为 可观变量 和 不可观变量,这其中不可观部分进一步分为 隐含参数 和 隐含变量。
变分贝叶斯的核心任务是寻找一个 概率分布$Qleft( {x; heta } ight)$ 去逼近真实的$Pleft( x ight)$, 并使用KL散度去估计其具体逼近程度,因为与逼近程度负相关,所以可以姑且称为 不相似度。KL散度会在之后具体说明讨论。更准确地说是在逼近后验概率,即用 ${Qleft( {x} ight)}$ 去尽量逼近 ${Pleft( {xleft| D ight.} ight)}$。
变分法是以函数为变量求解最优问题的方法。
变分法的优点主要是:有解析解、计算开销较小、易于在大规模问题中应用。
~~KL散度
根据定义,有
[KLleft[ {Qleft( x
ight)left| {Pleft( {xleft| D
ight.}
ight)}
ight.}
ight] = int {dx cdot Qleft( x
ight)} ln frac{{Qleft( x
ight)}}{{Pleft( {xleft| D
ight.}
ight)}}]
其中$D$为所观测的数据,而$x$是不能观测的数据。
~~平均场假设
[Qleft( x
ight) = prodlimits_i {{Q_i}left( {{x_i}left| {{ heta _i}}
ight.}
ight)}]
显然的,$x_i$各自独立,与此同时$ heta_i$之间也没有相互作用。这里假设的就是各观测数据之间是不会互相干扰的。
与此同时,还需要这些各自独立的分布也需要归一化:
[int {d{x_i} cdot {Q_i}left( x
ight)} = 1].
显而易见的是,这点是我们所用估计模型——概率分布$Qleft( {x; heta }
ight)$ 的特点, 而不是原本分布的特点。
从边缘概率角度而言,对于$P_ileft( x
ight)$, $Q_ileft( x
ight)$很可能是个很差的估计。
~~ELBO(证据下界Evidence Lower Bound)和KL散度的关系
由贝叶斯公式:
[ln Pleft( D
ight) = ln Pleft( {x,D}
ight) - ln Qleft( x
ight) - ln frac{{Pleft( {xleft| D
ight.}
ight)}}
{{Qleft( x
ight)}}]
对$Qleft( D ight)$做期望
[egin{gathered}
int {dx cdot Qleft( x
ight)} ln Pleft( D
ight) = int {dxcdot Qleft( x
ight)} ln Pleft( {x,D}
ight) - int {dx cdot Qleft( x
ight)} ln Qleft( x
ight) hfill \
- int {dx cdot Qleft( x
ight)} ln frac{{Pleft( {x | D}
ight)}}
{{Qleft( x
ight)}} hfill \
end{gathered} ]
其中$Qleft( x ight)$与$Pleft( D ight)$相互独立,$Qleft( D ight)$的选定显然与系统本身之间的独立,相关性是后期赋予的。
进而有
[egin{gathered}
ln Pleft( D
ight) = underbrace {int {dx cdot Qleft( x
ight)} ln Pleft( {x,D}
ight) - int {dx cdot Qleft( x
ight)} ln Qleft( x
ight)}_{ELBO} hfill \
underbrace { - int {dx cdot Qleft( x
ight)} ln frac{{Pleft( {x | D}
ight)}}
{{Qleft( x
ight)}}}_{KLleft( {Qleft| P
ight.}
ight)} hfill \
end{gathered} ]
显然,$ln Pleft( D ight)$作为数据真值而确定,导致 ${KLleft( {Qleft| P ight.} ight)}$与ELOB是此消彼长的。
当我们在制定确定的$Qleft( {x; heta } ight)$时,应该考虑如何用尽可能简单的$Qleft( {x; heta } ight)$最大化ELBO
而最小化${KLleft( {Qleft| P ight.} ight)}$, 从而使得$Qleft( {x; heta } ight)$的逼近更准确。