概率图模型课本笔记(四)

先说一个关系:

概率图模型---->玻尔兹曼机器---->受限玻尔兹曼机器

玻尔兹曼机器是一种特殊的概率图模型,其特殊体现在:

(1)二值的

(2)从定义能量开始,能量---->概率

(3)两种区分的节点v,h,共nv+nh个,状态有2^(nv+nh)个,分析时根据每个状态的翻转会带来的能量减少。故有2^(nv+nh)项

(4)玻尔兹曼机器的训练方法

受限玻尔兹曼机器的详细各种推导:非常好!非常清晰。其主要利用单个节点的翻转,在v下hi相互独立,在h下vi相互独立,各种求和求积交替,两个状态,0状态变成e0=1,就是sigmoid的来源。实际上表达分布并不困难,但是参数还没学好呢!那用最大似然如何?问题是求对数似然函数的梯度时(最大似然函数显然不可能求出解,梯度下降或梯度上升则需要梯度计算),出现了一项期望项(∑ε(x,y).p(x,y)),怎么解决?CD-k(k步对比散度算法),即特殊的吉布斯采样(交错吉布斯采样)来计算对数似然梯度。

再回顾分布的近似学习和推理:

变分方法:sequence 方法,block 方法(KL)

采样:马尔科夫链蒙特卡洛方法、吉布斯采样

变分方法参考:An Introduction to Variational Methods for Graphical Model 和知乎1知乎2博客1(和详细)

采样方法参考: Gibbs sampler by sampling-importance-resampling 和博客

原文地址:https://www.cnblogs.com/Wanggcong/p/6661608.html