变分贝叶斯推断（Variational Bayesian Inference）

~~变分贝叶斯推断（Variational Bayesian Inference）

变分贝叶斯方法主要处理复杂的统计模型，贝叶斯推断中参数可以分为可观变量和不可观变量，这其中不可观部分进一步分为隐含参数和隐含变量。

变分贝叶斯的核心任务是寻找一个概率分布$Qleft( {x; heta } ight)$ 去逼近真实的$Pleft( x ight)$, 并使用KL散度去估计其具体逼近程度，因为与逼近程度负相关，所以可以姑且称为不相似度。KL散度会在之后具体说明讨论。更准确地说是在逼近后验概率，即用 ${Qleft( {x} ight)}$ 去尽量逼近 ${Pleft( {xleft| D ight.} ight)}$。

变分法是以函数为变量求解最优问题的方法。

变分法的优点主要是：有解析解、计算开销较小、易于在大规模问题中应用。

~~KL散度
根据定义，有
[KLleft[ {Qleft( x ight)left| {Pleft( {xleft| D ight.} ight)} ight.} ight] = int {dx cdot Qleft( x ight)} ln frac{{Qleft( x ight)}}{{Pleft( {xleft| D ight.} ight)}}]
其中$D$为所观测的数据，而$x$是不能观测的数据。

~~平均场假设
[Qleft( x ight) = prodlimits_i {{Q_i}left( {{x_i}left| {{ heta _i}} ight.} ight)}]
显然的，$x_i$各自独立，与此同时$ heta_i$之间也没有相互作用。这里假设的就是各观测数据之间是不会互相干扰的。
与此同时，还需要这些各自独立的分布也需要归一化：
[int {d{x_i} cdot {Q_i}left( x ight)} = 1].
显而易见的是，这点是我们所用估计模型——概率分布$Qleft( {x; heta } ight)$ 的特点，而不是原本分布的特点。
从边缘概率角度而言，对于$P_ileft( x ight)$, $Q_ileft( x ight)$很可能是个很差的估计。

~~ELBO（证据下界Evidence Lower Bound）和KL散度的关系
由贝叶斯公式：

[ln Pleft( D ight) = ln Pleft( {x,D} ight) - ln Qleft( x ight) - ln frac{{Pleft( {xleft| D ight.} ight)}}
{{Qleft( x ight)}}]

对$Qleft( D ight)$做期望

[egin{gathered}
int {dx cdot Qleft( x ight)} ln Pleft( D ight) = int {dxcdot Qleft( x ight)} ln Pleft( {x,D} ight) - int {dx cdot Qleft( x ight)} ln Qleft( x ight) hfill \
- int {dx cdot Qleft( x ight)} ln frac{{Pleft( {x | D} ight)}}
{{Qleft( x ight)}} hfill \
end{gathered} ]

其中$Qleft( x ight)$与$Pleft( D ight)$相互独立，$Qleft( D ight)$的选定显然与系统本身之间的独立，相关性是后期赋予的。

进而有

[egin{gathered}
ln Pleft( D ight) = underbrace {int {dx cdot Qleft( x ight)} ln Pleft( {x,D} ight) - int {dx cdot Qleft( x ight)} ln Qleft( x ight)}_{ELBO} hfill \
underbrace { - int {dx cdot Qleft( x ight)} ln frac{{Pleft( {x | D} ight)}}
{{Qleft( x ight)}}}_{KLleft( {Qleft| P ight.} ight)} hfill \
end{gathered} ]

显然，$ln Pleft( D ight)$作为数据真值而确定，导致 ${KLleft( {Qleft| P ight.} ight)}$与ELOB是此消彼长的。

当我们在制定确定的$Qleft( {x; heta } ight)$时，应该考虑如何用尽可能简单的$Qleft( {x; heta } ight)$最大化ELBO

而最小化${KLleft( {Qleft| P ight.} ight)}$, 从而使得$Qleft( {x; heta } ight)$的逼近更准确。