概率图模型课本笔记（四）

先说一个关系：

概率图模型---->玻尔兹曼机器---->受限玻尔兹曼机器

玻尔兹曼机器是一种特殊的概率图模型，其特殊体现在：

（1）二值的

（2）从定义能量开始，能量---->概率

（3）两种区分的节点v,h,共n_v+n_h个，状态有2^(n_v+n_h)个，分析时根据每个状态的翻转会带来的能量减少。故有2^(n_v+n_h)项

受限玻尔兹曼机器的详细各种推导：非常好！非常清晰。其主要利用单个节点的翻转，在v下h_i相互独立，在h下v_i相互独立，各种求和求积交替，两个状态，0状态变成e⁰=1,就是sigmoid的来源。实际上表达分布并不困难，但是参数还没学好呢！那用最大似然如何？问题是求对数似然函数的梯度时（最大似然函数显然不可能求出解，梯度下降或梯度上升则需要梯度计算），出现了一项期望项（∑ε(x,y).p(x,y)）,怎么解决？CD-k（k步对比散度算法），即特殊的吉布斯采样（交错吉布斯采样）来计算对数似然梯度。

再回顾分布的近似学习和推理：

变分方法：sequence 方法，block 方法（KL）

采样：马尔科夫链蒙特卡洛方法、吉布斯采样

变分方法参考：An Introduction to Variational Methods for Graphical Model 和知乎1，知乎2，博客1（和详细）

采样方法参考: Gibbs sampler by sampling-importance-resampling 和博客