EM算法

转自：https://snaildove.github.io/2018/10/01/9.EM_and_GEM_LiHang-Statistical-Learning-Methods/

前言

EM（期望最大）算法有很多的应用，最广泛的就是混合高斯模型、聚类、HMM等等，本质上就是一种优化算法，不断迭代，获得优值，与梯度下降、牛顿法、共轭梯度法都起到同一类的作用。

本文是对李航《统计学习方法》的第9章复习总结，主要内容如下

EM（期望最大）算法证明有跳跃性的地方全部事无巨细地写出来，
在三硬币例子解析这一节将会把这个例子跟公式一一对应起来
GMM（高斯混合模型）迭代公式证明
F函数的极大-极大算法（Maximization-Maximization-algorithm）和GEM 详细证明

当然大家也可以参考 Stanford 吴恩达主讲的 CS299 Machine Learning 的 EM课件，相比之下《统计学习方法》这本书在 Jensen‘s inequality（琴声不等式）讲的不够详细，其他都差不多，只是Q函数定义不同，这两种定义都很流行所以后文也会介绍区别。

正文

9.1 EM算法的引入

概率模型有时既含有观测变量（observable variable） ，又含有隐变量（hidden variable）或潜在变量（latent variable） 。

如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法或贝叶斯估计法估计模型参数。但是，当模型含有隐变量时，就不能简单地使用这些估计方法。 EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。我们仅讨论极大似然估计，极大后验概率估计与其类似。

9.1.1 EM算法

这里，随机变量 $y$ 是观测变量，表示一次试验观测的结果是1或0；随机变量 $z$ 是隐变量，表示未观测到的掷硬币 $A$ 的结果； $θ ＝ (π, p ， q)$ 是模型参数。这一模型是以上数据的生成模型。注意，随机变量 $y$ 的数据可以观测，随机变量 $z$ 的数据不可观测。

\begin{aligned} P (y | θ) & = \sum_{z} P (y, z | θ) = \sum_{z} \frac{P (z, θ)}{P (θ)} \cdot \frac{P (y, z, θ)}{P (z, θ)} = \sum_{z} P (z | θ) P (y | z, θ) \\ = P (z = 1 | θ) P (y | z = 1, θ) + P (z = 0 | θ) P (y | z = 0, θ) \\ (9.1) & = π p^{y} (1 - p)^{(1 - y)} + (1 - π) q^{y} (1 - q)^{(1 - y)} \\ = {\begin{cases} π p + (1 - π) q, & y = 1 \\ π (1 - p) + (1 - π) (1 - q), & y = 0 \end{cases} \end{aligned}

将观测数据表示为

Y ＝ (Y_{1} ， Y_{2}, \dots, Y_{n})^{T}

，未观测数据表示为

Z ＝ (Z_{1}, Z_{2}, \dots, Z_{n})^{T}

，则观测数据的似然函数为

\begin{matrix} (9.2) & P (Y | θ) = \sum_{Z} P (Y, Z | θ) = \sum_{Z} P (Z | θ) P (Y | Z, θ) \end{matrix}

即：

\begin{matrix} (9.3) & P (Y | θ) = \prod_{j = 1}^{n} {π p^{y_{j}} (1 - p)^{(1 - y_{j})} + (1 - π) q^{y_{j}} (1 - q)^{(1 - y_{j})}} \end{matrix}

考虑求模型参数

θ = (π, p, q)

的极大似然估计，即：

\begin{aligned} \hat{θ} & = \underset{θ}{\arg max} l o g P (Y | θ) \\ = \underset{θ}{\arg max} \log \prod_{j = 1}^{n} P (Y | θ) \Leftarrow n次抛硬币试验都是独立 \\ = \underset{θ}{\arg max} \sum_{j = 1}^{n} \log P (Y | θ) \\ (9-3) & = \underset{θ}{\arg max} \sum_{j = 1}^{n} \log {\sum_{Z} P (Z | θ) P (Y | Z, θ)} \end{aligned}

问题：这里为什么要取对数？

取对数之后累积变为累和，求导更加方便（后面三硬币例子解析将会看到）
概率累积会出现数值非常小的情况，比如1e-30，由于计算机的精度是有限的，无法识别这一类数据，取对数之后，更易于计算机的识别(1e-30以10为底取对数后便得到-30)。

这个问题没有解析解，因为隐变量数据无法获得，只有通过迭代的方法求解。 EM算法就是可以用于求解这个问题的一种迭代算法。

一般地，用 $Y$ 表示观测随机变量的数据， $Z$ 表示隐随机变量的数据。 $Y$ 和 $Z$ 连在一起称为完全数据（complete-data） ，观测数据 $Y$ 又称为不完全数据（incomplete-data） 。假设给定观测数据 $Y$ ，其概率分布是 $P (Y | θ)$ ，其中是需要估计的模型参数，那么不完全数据 $Y$ 的似然函数是 $P (Y | θ)$ ，对数似然函数 $L (θ) ＝ l o g P (Y | θ)$ ；假设 $Y$ 和 $Z$ 的联合概率分布是 $P (Y, Z | θ)$ ，那么完全数据的对数似然函数是 $l o g P (Y, Z | θ)$ 。

9.1.2 EM算法的导出

注：书上给出琴声不等式（ $\ln \sum_{j} λ_{j} y_{j} \geq \sum_{j} λ_{j} \log y_{j}, λ_{j} \geq 0, \sum_{j} λ_{j} = 1$ ），自行维基百科一下了解详情。最后一步源自于 $Z$ 所有可能取值的概率和为1

l o g P (Y | θ^{(i)}) = l o g P (Y | θ^{(i)}) \cdot \sum_{Z} P (Z | Y, θ^{(i)})

\begin{aligned} θ^{(i + 1)} & = \underset{θ}{\arg max} {L (θ^{(i)}) + \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})}} \\ = \underset{θ}{\arg max} {l o g P (Y | θ^{(i)}) \sum_{Z} P (Z | Y, θ^{(i)}) + \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})}} \end{aligned}

加号右边，利用对数函数的性质得到：

\begin{aligned} \sum_{Z} P (Z | Y, θ^{(i)}) l o g \frac{P (Y | Z, θ) P (Z | θ)}{P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})} \\ = \sum_{Z} P (Z | Y, θ^{(i)}) {l o g [P (Y | Z, θ) P (Z | θ)] - l o g [P (Z | Y, θ^{(i)}) P (Y | θ^{(i)})]} \\ = \sum_{Z} P (Z | Y, θ^{(i)}) {l o g [P (Y | Z, θ) P (Z | θ)] - l o g P (Z | Y, θ^{(i)}) - l o g P (Y | θ^{(i)})} \\ = \sum_{Z} P (Z | Y, θ^{(i)}) l o g [P (Y | Z, θ) P (Z | θ)] - \sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Z | Y, θ^{(i)}) - \sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Y | θ^{(i)}) \end{aligned}

代入上式可得：

\begin{aligned} θ^{(i + 1)} & = \underset{θ}{\arg max} {\sum_{Z} P (Z | Y, θ^{(i)}) l o g [P (Y | Z, θ) P (Z | θ)] - \sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Z | Y, θ^{(i)})} \end{aligned}

由于在迭代求第 $i + 1$ 步时， $θ^{(i)}$ 是已知的，那么由训练数据中可以求得 $P (Z | Y, θ^{(i)})$ ，所以在 $θ^{(i)}$ 值确定的情况下， $P (Z | Y, θ^{(i)})$ 的值也是确定的而不是变量，那么对上式极大化等价求解对下面式子的极大化

\begin{aligned} θ^{(i + 1)} & = \underset{θ}{\arg max} {\sum_{Z} P (Z | Y, θ^{(i)}) l o g [P (Y | Z, θ) P (Z | θ)]} \\ = \underset{θ}{\arg max} {\sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Y, Z | θ)} \\ (9.17) & = \underset{θ}{\arg max} Q (θ, θ^{(i)}) \end{aligned}

Q函数

EM算法

EM算法解释

9.1.3 EM算法在非监督学习中的应用

9.2 EM算法的收敛性

这一部分原书讲的比较详细，不画蛇添足，贴上来。

三硬币例子解析

前文讲到抛硬币的例子，现在重新详细推导一下三硬币这个例子。

$j$ 是训练集中的数据编号，实际上书上这里求得是

\begin{aligned} P (Z | y_{j}, θ^{(i)}) = {\begin{cases} P (Z = 1 | y_{j}, θ^{(i)}) = μ_{j}^{(i + 1)} \\ P (Z = 0 | y_{j}, θ^{(i)}) = 1 - μ_{j}^{(i + 1)} \end{cases} \end{aligned}

前文已知Q函数：

Q (θ, θ^{(i)}) = \sum_{Z} P (Z | Y, θ^{(i)}) l o g P (Y, Z | θ)

第一步求期望

即求Q函数，由本文开头的 9.1.1 EM算法这一节的公式 (9-3) 和 Q函数得到，在多个样本情况下 Q 函数为：

\begin{aligned} Q (θ, θ^{(i)}) & = \sum_{j = 1}^{n} \sum_{Z} P (Z | y_{j}, θ^{(i)}) \log P (y_{j}, Z | θ) \\ = \sum_{j = 1}^{n} {P (Z = 1 | y_{j}, θ^{(i)}) l o g P (y_{j}, Z = 1 | θ) + P (Z = 0 | y_{j}, θ^{(i)}) l o g P (y_{j}, Z = 0 | θ)} \\ = \sum_{j = 1}^{n} {μ_{j}^{(i + 1)} l o g P (y_{j}, Z = 1 | θ) + (1 - μ_{j}^{(i + 1)}) l o g P (y_{j}, Z = 0 | θ)} \\ = \sum_{j = 1}^{n} {μ_{j}^{(i + 1)} \log [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \log [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]} \end{aligned}

第二步极大化Q函数

$\begin{aligned} θ^{(i + 1)} = \underset{θ}{\arg max} Q (θ, θ^{(i)}) = \underset{θ}{\arg max} {\sum_{j = 1}^{n} \sum_{Z} P (Z | y_{j}, θ^{(i)}) \log P (y_{j}, Z | θ)} \end{aligned}$ 用微积分求解最大值，先求导数为0点（为了求导方便令对数的底数为e，即认为此处对数函数为自然对数）：

\begin{aligned} \frac{\partial Q (θ, θ^{(i)})}{\partial π} & = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \ln [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]}{\partial π}} \\ = \sum_{j = 1}^{N} {μ_{j}^{(i + 1)} \frac{p^{y_{j}} (1 - p)^{1 - y_{j}}}{π p^{y_{j}} (1 - p)^{1 - y_{j}}} + (1 - μ_{j}^{(i + 1)}) \frac{- q^{y_{j}} (1 - q)^{1 - y_{j}}}{(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}}} \\ = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} - π}{π (1 - π)}} \\ = \frac{(\sum_{j = 1}^{N} μ_{j}^{(i + 1)}) - n π}{π (1 - π)} \end{aligned}

\begin{aligned} ∵ \frac{\partial Q (θ, θ^{(i)})}{\partial π} = 0 & ⟹ π = \frac{1}{n} \sum_{j = 1}^{N} μ_{j}^{(i + 1)} \\ ∴ π^{(i + 1)} & = \frac{1}{n} \sum_{j = 1}^{N} μ_{j}^{(i + 1)} \end{aligned}

\begin{aligned} \frac{\partial Q (θ, θ^{(i)})}{\partial p} & = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} \ln [π p^{y_{j}} (1 - p)^{1 - y_{j}}] + (1 - μ_{j}^{(i + 1)}) \ln [(1 - π) q^{y_{j}} (1 - q)^{1 - y_{j}}]}{\partial p}} \\ = \sum_{j = 1}^{N} {μ_{j}^{(i + 1)} \frac{π (y_{j} p^{y_{j} - 1} (1 - p)^{1 - y_{j}} + p^{y_{j}} (- 1) (1 - y_{j}) (1 - p)^{1 - y_{j} - 1})}{π p^{y_{j}} (1 - p)^{1 - y_{j}}} + 0} \\ = \sum_{j = 1}^{N} {\frac{μ_{j}^{(i + 1)} (y_{j} - p)}{p (1 - p)}} \\ = \frac{(\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}) - (p \sum_{j = 1}^{N} μ_{j}^{(i + 1)})}{p (1 - p)} \end{aligned}

\begin{aligned} ∵ \frac{\partial Q (θ, θ^{(i)})}{\partial p} = 0 & ⟹ p = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{\sum_{j = 1}^{N} μ_{j}^{(i + 1)}} \\ ∴ p^{(i + 1)} & = \frac{\sum_{j = 1}^{N} μ_{j}^{(i + 1)} y_{j}}{\sum_{j = 1}^{N} μ_{j}^{(i + 1)}} \\ q^{(i + 1)} & = \frac{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)}) y_{j}}{\sum_{j = 1}^{N} (1 - μ_{j}^{(i + 1)})} \end{aligned}

可以参照书上的结果，一模一样：

CS299 EM算法与《统计学习方法》的表述不同点

《统计学习方法》这部分术语源自于鼎鼎大名的ESL 全称：The Elements of Statistical Learning，这也是Stanford统计经典巨作。
Stanford 吴恩达主讲的 CS299 Machine Learning 的 EM课件

由本文的推导，易得 ESL 中的 $Q_{E S L} = Q_{C S 299} \frac{\log P (X, Z; θ)}{Q_{C S 299}}$