蒙特卡洛马尔科夫链（MCMC）

2016-12-30 20:34 3299人阅读评论(0) 收藏举报

分类：

数据挖掘与机器学习（41）

在以贝叶斯方法为基础的机器学习技术中，通常需要计算后验概率，然后通过最大后验概率（MAP）等方法进行参数推断和决策。然而，在很多时候，后验分布的形式可能非常复杂，这个时候寻找其中的最大后验估计或者对后验概率进行积分等计算往往非常困难，此时可以通过采样的方法来求解。

作为本系列文章的组成部分，也作为你阅读本文所必须的预备知识，希望各位读者确认已经对如下文章所谈之话题了然于心：

欢迎关注白马负金羁的CSDN博客 http://blog.csdn.net/baimafujinji，为保证公式、图表得以正确显示，强烈建议你从该地址上查看原版博文。本博客主要关注方向包括：数字图像处理、算法设计与分析、数据结构、机器学习、数据挖掘、统计分析方法、自然语言处理。

从蒙特卡洛积分开始

在此前的文章《蒙特卡洛（Monte Carlo）法求定积分》一文中我们已经详细介绍了基于随机算法进行定积分求解的技术。这里主要用到其中的平均值法。为了便于后续介绍，这里先做简单回顾。

在计算定积分

\int b a g (x) d x = \int b a f (x) p (x) d x = E [f (x)]

当然，

\int b a g (x) d x = E [f (x)] = 1 n \sum i = 1 n f ( x i )

I (y) = \int f (y | x) p (x) d x

I^(y) = 1 n \sum i = 1 n f ( y | x i )

采样方法

不难发现，在利用蒙特卡洛法进行积分求解时，非常重要的一个环节就是从特定的分布中采样。这里的“采样”的意思也即是生成满足某种分布的观测值。就此，本博客之前已经介绍过“逆采样”和“拒绝采样”等方法。如果你对此不甚了解，可以参考：

《蒙特卡洛采样之拒绝采样（Reject Sampling）》

我们采样的目的很多时候都是为了近似积分运算，前面的采样方法（逆采样和拒绝采样）都是先对分布进行采样，然后再用采样的结果近似计算积分。下面要介绍的另外一种方法“重要性采样”（Importance sampling）则两步并做一步，直接的近似计算积分。

我们现在的目标是计算下面的积分

E [f (x)] = \int f (x) p (x) d x

E [f (x)] \approx 1 N \sum i = 1 N f ( x i )

\int f (x) p (x) d x = \int f (x) p ( x ) q ( x ) q ( x ) d x

\int f (x) p ( x ) q ( x ) q ( x ) d x = \int h ( x ) q ( x ) d x \approx 1 N \sum i = 1

如下图所示，当使用Importance Sampling时，我们并不会像在拒绝采样那样拒绝掉某些采样点。此时，所有的采样点都将为我们所用，但是它们的权重是不同的。因为权重为

蒙特卡洛马尔科夫链之基本概念

In statistics, Markov chain Monte Carlo (MCMC) methods are a class of algorithms for sampling from a probability distribution based on constructing a Markov chain that has the desired distribution of its equilibrium distribution.

MCMC构造Markov chain，使其稳态分布等于我们要采样的分布，这样我们就可以通过Markov chain来进行采样。这种等价如何来理解是我们深入探讨具体操作方法之前需要先攻克的一个问题。在此之前，希望你对马尔科夫链有一个比较清晰的认识，为此你可以参考

《矩阵的极限与马尔科夫链》

我们用下面的式子来表示每一步（时刻推进）中从状态

Markov chain在时刻

Markov chain在

π i (t + 1) = P r (X t + 1 = s i) = \sum k P r (X t + 1 = s i |

π (t + 1) = π (t) P

一条Markov chain有一个平稳分布

一条Markov chain拥有平稳分布的一个充分条件是对于任意两个状态

(π P) j = \sum i π i P (i \to j) = \sum i π j P (j \to i) = π j \sum i P (j \to i)

如果一条Markov chain满足detailed balance，我们就说它是reversible的。在Markov chain中，对于随机变量的取值是连续的情况，上面的这些定义和性质都是类似的。比如这时转移概率为

π t (y) = \int π t - 1 (y) P (x | y) d y

π * (y) = \int π * (y) P (x | y) d y

\int π (x) P (y | x) d x = \int π (y) P (x | y) d x = π (y) \int P (x

最后我们来总结一下MCMC的基本思想。在拒绝采样和重要性采样中，当前生成的样本点与之前生成的样本点之间是没有关系的，它的采样都是独立进行的。然而，MCMC是基于马尔科夫链进行的采样。这就告诉我们，当前的样本点生成与上一时刻的样本点是有关的。如下图所示，假设我们当前时刻生成的样本点是

π (x') = \int π (x) P (x' | x) d x

π * (x') = \int π * (x') P (x | x') d x'

实际应用中有两个MCMC采样算法非常常用，即Metropolis–Hastings算法与吉布斯采样，可以证明吉布斯采样是Metropolis–Hastings算法的一种特殊情况，而且二者都满足detailed balance的条件。

我们将在本系列的最后一篇文章里介绍Metropolis–Hastings算法与吉布斯采样有关的内容。彼时亦将通过一些具体的例子和R语言程序来体会一下这两种采样方法的威力。

参考文献

[1] 本文中的英文定义来自于维基百科
[2] http://zhfuzh.blog.163.com/blog/static/1455393872012822854853/
[3] 悉尼科技大学徐亦达博士的机器学习公开课授课材料
[4] 莱斯大学Justin Esarey助理教授(http://jee3.web.rice.edu/index.htm)的公开课资料(https://www.youtube.com/watch?v=j4nEAqUUnVw)
[5] https://theoreticalecology.wordpress.com/2010/09/17/metropolis-hastings-mcmc-in-r/
[6] Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2007