EM算法理论与推导

EM算法（Expectation-maximization），又称最大期望算法，是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计（或极大后验概率估计）

从定义可知，该算法是用来估计参数的，这里约定参数为 $heta$ 。既然是迭代算法，那么肯定有一个初始值，记为 $heta^{(0)}$ ，然后再通过算法计算 $heta^{(1)}, heta^{(2)},dots, heta^{(t)}$

通常，当模型的变量都是观测变量时，可以直接通过极大似然估计法，或者贝叶斯估计法估计模型参数。但是当模型包含隐变量时，就不能简单的使用这些估计方法

举个具体的栗子：

永远在你身后：Matplotlib输出动画实现K-means聚类过程可视化zhuanlan.zhihu.com

K-means算法中，除了给定的样本（也就是观测变量） $X$ 以及参数 $heta$ （也就是那些个聚类的中心）之外，还包含一个隐变量（记为 $Z$ ），它是每个样本的所属类别

可以理解为，我们之所以对一批样本进行聚类，也是因为认为这些样本是有它们潜在的类别的，也就是说还有一个隐变量是我们没有（或者无法）观测到的

下面先给出EM算法的步骤公式，然后再对公式进行推导。假设在第 $i$ 次迭代后参数的估计值为 $heta^{(i)}$ ，对于第 $i+1$ 次迭代，分为两步

E步，求期望：

$egin{align} Qleft( heta, heta^{left(i ight)} ight)&=sum_{Z}{Pleft(Z|X, heta^{left(i ight)} ight)log{Pleft(X,Z| heta ight)}}\ &=mathbb{E}_{Z|X, heta^{left(i ight)}}left[log{Pleft(X,Z| heta ight)} ight] end{align} \$

关于的随机变量的函数的期望，公式在后面会给出

M步，最大化：

$heta^{(i+1)} =arg max_ heta{Qleft( heta, heta^{left(i ight)} ight)} \$

其中， $Qleft( heta, heta^{left(i ight)} ight)$ 称为 $Q$ 函数，是EM算法的核心。下面就来对公式进行推导

给定一组观测数据记为 $X=(x_1,x_2,dots,x_n)$ ，以及参数 $heta$ 。因为 $x_1,x_2,dots,x_n$ 是独立同分布，所以有以下对数似然函数：

$egin{align} ell( heta|X)&=log{Pleft(X| heta ight)} \ &=logleft( prod_{i=1}^n Pleft(x_i| heta ight) ight) \ &=sum_{i=1}^n log P(x_i| heta) end{align} \$

可以通过极大似然估计来求解最优参数，即：

$egin{align} hat{ heta}&=arg max_ heta log{ellleft( heta|X ight)}\ &=arg max_ heta sum_{i=1}^n log P(x_i| heta) end{align} \$

但是由于隐变量的存在， $log{Pleft(X| heta ight)}$ 变为

$egin{align} log{Pleft(Xmiddle| heta ight)}&=log{sum_{Z} Pleft(X,Z| heta ight)}\ &=log{left(sum_{Z} Pleft(X| heta,Z ight)Pleft(Z| heta ight) ight)} end{align}\$

注意：联合概率公式 P(XZ)=P(X|Z)P(Z)

这样直接求解就变得困难，一个办法是构造一个容易优化的——关于对数似然函数的——下界函数，通过不断的优化这个下界，迭代逼近最优参数。为了方便下面推导流畅，提前先贴几个公式

随机变量的数学期望

$mathbb{E}left[X ight]=sum_{xin X} x Pleft(x ight) \$

随机变量函数的数学期望。设 $= ( )$ ，则 $Y$ 的期望为：

$mathbb{E}left[Y ight]=mathbb{E}left[gleft(X ight) ight]=sum_{xin X} gleft(x ight)Pleft(x ight) \$

相对熵

$KLleft(p||q ight)=sum_{xin X}{pleft(x ight)log{frac{pleft(x ight)}{qleft(x ight)}}} \$

下面是具体的推导。首先引入隐变量 $Z$ 的概率分布 $q(Z)$ ，满足

$sum_Z q(Z)=1 \$

并且以下等式成立

$Pleft(X| heta ight)=frac{Pleft(X,Z| heta ight)}{Pleft(Z|X, heta ight)}=frac{Pleft(X,Z| heta ight)/qleft(Z ight)}{Pleft(Z|X, heta ight)/qleft(Z ight)} \$

两边同时取对数

$egin{align} log{Pleft(X| heta ight)}&=log{frac{Pleft(X,Z| heta ight)/qleft(Z ight)}{Pleft(Z|X, heta ight)/qleft(Z ight)}} end{align}\$

同时求两边在 $Z$ 上的期望

$mathbb{E}_Zleft[log{Pleft(X| heta ight)} ight]=mathbb{E}_Zleft[log{frac{Pleft(X,Z| heta ight)/qleft(Z ight)}{Pleft(Z|X, heta ight)/qleft(Z ight)}} ight] \$

因为 $log{Pleft(X| heta ight)}$ 与 $Z$ 无关，所以求期望仍然不变：

$egin{align} mathbb{E}_Zleft[log{Pleft(X| heta ight)} ight]&=sum_{Z}{qleft(Z ight)log{Pleft(X| heta ight)}}\ &=log{Pleft(X| heta ight)}sum_{Z} qleft(Z ight)\ &=log{Pleft(X| heta ight)} end{align}\$

然后将右边展开

$egin{align} mathbb{E}_Zleft[log{frac{Pleft(X,Z| heta ight)/qleft(Z ight)}{Pleft(Z|X, heta ight)/qleft(Z ight)}} ight]&=sum_{Z}{qleft(Z ight)log{frac{Pleft(X,Z| heta ight)/qleft(Z ight)}{Pleft(Z|X, heta ight)/qleft(Z ight)}}}\ &=sum_{Z}{qleft(Z ight)log{frac{Pleft(X,Z| heta ight)}{qleft(Z ight)}}}-sum_{Z}{qleft(Z ight)log{frac{Pleft(Z|X, heta ight)}{qleft(Z ight)}}}\ &=sum_{Z}{qleft(Z ight)log{frac{Pleft(X,Z| heta ight)}{qleft(Z ight)}}}+sum_{Z}{qleft(Z ight)log{frac{qleft(Z ight)}{Pleft(Z|X, heta ight)}}}\ &=sum_{Z}{qleft(Z ight)log{frac{Pleft(X,Z| heta ight)}{qleft(Z ight)}}}+KLleft(qleft(Z ight)||Pleft(Z|X, heta ight) ight)\ &geqsum_{Z}{qleft(Z ight)log{frac{Pleft(X,Z| heta ight)}{qleft(Z ight)}}} end{align}\$

由此得到对数似然函数的下界。并且当 $KLleft(qleft(Z ight)||Pleft(Z|X, heta ight) ight) = 0$ ，上式可以取到等号，由相对熵的性质可知，相对熵为0，也就是 $q(Z)=P(Z|X, heta)$

其中 $q(Z)$ 是 $Z$ 的概率分布，但是因为无法观测 $Z$ ，所以 $q(Z)$ 未知，可以假设其等于 $P(Z|X, heta)$ ，也就是 $Z$ 关于给定 $X$ 与 $heta$ 的后验，且 $heta$ 是由初始值 $heta^{(0)}$ 一次次迭代计算而来，所以此处的 $heta$ 是迭代 $i$ 次后的值

$P(Z|X, heta) = P(Z|X, heta^{(i)}) \$

然后通过极大似然估计得到：

$egin{align} hat{ heta}&=arg{max_ heta{sum_{Z}{qleft(Z ight)log{frac{Pleft(X,Z| heta ight)}{qleft(Z ight)}}}}}\ &=arg{max_ heta{sum_{Z}{Pleft(Z|X, heta^{left(i ight)} ight)log{frac{Pleft(X,Z| heta ight)}{Pleft(Z|X, heta^{left(i ight)} ight)}}}}}\ &=arg{max_ heta{sum_{Z} Pleft(Z|X, heta^{left(i ight)} ight)left(log{Pleft(X,Z| heta ight)}-log{Pleft(Z|X, heta^{left(i ight)} ight)} ight)}}\ &=arg{max_ heta{sum_{Z}{Pleft(Z|X, heta^{left(i ight)} ight)log{Pleft(X,Z| heta ight)}}}}\ &=arg{max_ heta{mathbb{E}_{Z|X, heta^{left(i ight)}}left[log{Pleft(X,Z| heta ight)} ight]}} end{align}\$

以上，就是EM算法中E步的由来，然后令 $hat{ heta}= heta^{(i+1)}$ ，就得到了M步的公式

$heta^{(i+1)}=arg{max_ heta{mathbb{E}_{Z|X, heta^{left(i ight)}}left[log{Pleft(X,Z| heta ight)} ight]}}\$

以上就是EM算法的推导过程，为了加深理解，我们可以换一个角度来总结一下。前面我们定义了似然函数

$ell( heta|X)= log{Pleft(X| heta ight)}=log{left(sum_{Z} Pleft(X| heta,Z ight)Pleft(Z| heta ight) ight)}\$

由于累加号嵌套在 $log$ 函数中，难以直接进行求解，如果换一个似然函数，就容易的多

$ell( heta|X,Z)=log{Pleft(X,Z| heta ight)}\$

但是，又由于的 $Z$ 是隐变量，无法得到它的概率分布，只能通过给定的 $X$ 和 $heta$ 来计算它的后验分布，然后求似然函数在此分布上的期望

$mathbb{E}_{Z|X, heta^{left(i ight)}}left[log{Pleft(X,Z| heta ight)} ight] = mathbb{E}_{Z|X, heta^{left(i ight)}}left[ell( heta|X,Z) ight] \$

最后，再寻找能使似然函数的期望最大化的参数