简单易学的机器学习算法——EM算法

一、机器学习中的參数预计问题

在前面的博文中，如“简单易学的机器学习算法——Logistic回归”中，採用了极大似然函数对其模型中的參数进行预计，简单来讲即对于一系列样本 $left { X_i,y_i ight },i=1,cdots ,n$ ，Logistic回归问题属于监督型学习问题，样本中含有训练的特征 $X_i$ 以及标签 $y_i$ 。在Logistic回归的參数求解中。通过构造样本属于类别 $1$ 和类别 $0$ 的概率：

$Pleft ( y=1mid x; heta ight )=sigma left ( heta ^TX ight )$

$Pleft ( y=0mid x; heta ight )=1-sigma left ( heta ^TX ight )$

这样便能得到Logistic回归的属于不同类别的概率函数：

$Pleft ( ymid x; heta ight )=left ( sigma left ( heta ^TX ight ) ight )^yleft (1-sigma left ( heta ^TX ight ) ight )^left ( 1-y ight )$

此时，使用极大似然预计便可以预计出模型中的參数。

可是。假设此时的标签 $y$ 是未知的。称为隐变量，如无监督的学习问题，典型的如K-Means聚类算法，此时不能直接通过极大似然预计预计出模型中的參数。

二、EM算法简单介绍

在上述存在隐变量的问题中，不能直接通过极大似然预计求出模型中的參数，EM算法是一种解决存在隐含变量优化问题的有效方法。

EM算法是期望极大(Expectation Maximization)算法的简称，EM算法是一种迭代型的算法。在每一次的迭代过程中。主要分为两步：即求期望(Expectation)步骤和最大化(Maximization)步骤。

三、EM算法推导的准备

1、凸函数

设 $f$ 是定义在实数域上的函数，假设对于随意的实数 $x$ 。都有

${f}''geqslant 0$

那么 $f$ 是凸函数。若 $x$ 不是单个实数，而是由实数组成的向量，此时。假设函数 $f$ 的Hesse矩阵 $H$ 是半正定的，即

${H}''geqslant 0$

那么 $f$ 是凸函数。特别地。假设 ${f}''> 0$ 或者 ${H}''> 0$ 。那么称 $f$ 为严格凸函数。

2、Jensen不等式

假设函数 $f$ 是凸函数， $x$ 是随机变量，那么

$Eleft [ fleft ( x ight ) ight ]geqslant fleft ( Ex ight )$

特别地，假设函数 $f$ 是严格凸函数，那么 $Eleft [ fleft ( x ight ) ight ]= fleft ( Ex ight )$ 当且仅当

$pleft ( x=Ex ight )=1$

即随机变量 $x$ 是常量。

(图片来自參考文章1)

注：若函数 $f$ 是凹函数。上述的符号相反。

3、数学期望

3.1随机变量的期望

设离散型随机变量 $X$ 的概率分布为：

$p_i=pleft { X=x_i ight }$

当中。 $i=1,2,cdots$ ，假设 $sum_{i}x_ip_i$ 绝对收敛，则称 $sum_{i}x_ip_i$ 为 $X$ 的数学期望，记为 $Eleft ( X ight )$ ，即：

$Eleft ( X ight )=sum_{i}x_ip_i$

若连续型随机变量 $X$ 的概率密度函数为 $fleft ( x ight )$ 。则数学期望为：

$Eleft ( X ight )=int_{-infty }^{+infty }xfleft ( x ight )dx$

3.2随机变量函数的数学期望

设 $Y$ 是随机变量 $X$ 的函数。即 $Y=gleft ( X ight )$ ，若 $X$ 是离散型随机变量，概率分布为：

$p_i=pleft { X=x_i ight }$

则：

$Eleft ( Y ight )=Eleft ( gleft ( X ight ) ight )=sum_{i}gleft ( x_i ight )p_i$

若 $X$ 是连续型随机变量，概率密度函数为 $fleft ( x ight )$ 。则

$Eleft ( Y ight )=Eleft ( gleft ( X ight ) ight )=int_{-infty }^{+infty }gleft ( x ight )fleft ( x ight )dx$

四、EM算法的求解过程

如果 $Y$ 表示观測变量， $Z$ 表示潜变量，则此时 $left ( Y,Z ight )$ 即为全然数据， $Y$ 的似然函数为 $Pleft ( Ymid heta ight )$ ，当中， $heta$ 为须要预计的參数，那么对于全然数据， $left ( Y,Z ight )$ 的似然函数为 $Pleft ( Y,Zmid heta ight )$ 。

构建好似然函数，对于给定的观測数据，为了预计參数 $ heta$ ，我们能够使用极大似然预计的方法对其进行预计。由于变量 $Z$ 是未知的。我们仅仅能对 $Y$ 的似然函数为 $Pleft ( Ymid heta ight )$ 进行极大似然预计，即须要极大化：

$egin{align*} lleft ( heta ight )&=log; Lleft ( heta ight )=log; Pleft ( Ymid heta ight ) \ &= log; sum_{Z}Pleft ( Y,Zmid heta ight ) end{align*}$

上述式子中无法直接对 $lleft ( heta ight )$ 求极大值，由于在函数中存在隐变量 $Z$ ，即未知变量。若此时，我们可以确定隐变量 $Z$ 的值，便可以求出 $lleft ( heta ight )$ 的极大值，可以用过不断的改动隐变量 $Z$ 的值，得到新的 $lleft ( heta ight )$ 的极大值。这便是EM算法的思路。通过迭代的方式求出參数 $ heta$ 。

首先我们须要对參数 $heta$ 赋初值，进行迭代运算，如果第 $i$ 次迭代后參数 $heta$ 的值为 $heta ^left ( i ight )$ ，此时的log似然函数为 $lleft ( heta ^left ( i ight ) ight )$ ，即：

$egin{align*} lleft ( heta ^{left ( i ight )} ight ) &=log; sum_{Z}Pleft ( Y,Zmid heta ^{left ( i ight )} ight ) \ &= log; sum_{Z}Q_ileft ( Z ight )cdot frac{Pleft ( Y,Zmid heta ^{left ( i ight )} ight )}{Q_ileft ( Z ight )}\ &geqslant sum_{Z}Q_ileft ( Z ight )cdot log; frac{Pleft ( Y,Zmid heta ^{left ( i ight )} ight )}{Q_ileft ( Z ight )} end{align*}$

在上式中，第二行到第三行使用到了Jensen不等式，因为log函数是凹函数，由Jensen不等式得到：

$Eleft [ fleft ( x ight ) ight ]leqslant fleft ( Ex ight )$

而

$sum_{Z}Q_ileft ( Z ight )cdot frac{Pleft ( Y,Zmid heta ^{left ( i ight )} ight )}{Q_ileft ( Z ight )}$

表示的是 $frac{Pleft ( Y,Zmid heta ^{left ( i ight )} ight )}{Q_ileft ( Z ight )}$ 的期望。当中， $Q_ileft ( Z ight )$ 表示的是隐变量 $Z$ 满足的某种分布。这样，上式 $lleft ( heta ^left ( i ight ) ight )$ 的值取决于 $Q_ileft ( Z ight )$ 和 $Pleft ( Y,Zmid heta ^{left ( i ight )} ight )$ 的概率。

在迭代的过程中。调整这两个概率，使得下界不断的上升，这样就能求得 $lleft ( heta ight )$ 的极大值。

注意，当等式成立时。说明此时已经等价于 $lleft ( heta ight )$ 。由Jensen不等式可知，等式成立的条件是随机变量是常数，即：

$frac{Pleft ( Y,Zmid heta ^{left ( i ight )} ight )}{Q_ileft ( Z ight )}=C$

已知：

$sum_{Z}Q_ileft ( Z ight )=1$

所以：

$sum_{Z}Pleft ( Y,Zmid heta ^{left ( i ight )} ight )=C$

则：

$egin{align*} Q_ileft ( Z ight )&= frac{Pleft ( Y,Zmid heta ^{left ( i ight )} ight )}{sum_{Z}Pleft ( Y,Zmid heta ^{left ( i ight )} ight )}\ &= frac{Pleft ( Y,Zmid heta ^{left ( i ight )} ight )}{Pleft ( Ymid heta ^{left ( i ight )} ight )}\ &=Pleft ( Zmid Y, heta ^{left ( i ight )} ight ) end{align*}$

至此，我们得出了隐变量 $Z$ 满足的分布的形式 $Q_ileft ( Z ight )$ 。这就是EM算法中的E步。

在确定了 $Q_ileft ( Z ight )$ 后，调整參数 $heta$ 使得 $lleft ( heta ight )$ 取得极大。这便是M步。EM算法的步骤为：

初始化參数 $heta ^left ( 0 ight )$ 。開始迭代；
E步：如果 $heta ^left ( i ight )$ 为第 $i$ 次迭代參数 $heta$ 的预计值，则在第 $i+1$ 次迭代中。计算 $Q_ileft ( Z ight )$ ： $Q_ileft ( Z ight )=Pleft ( Zmid Y, heta ^left ( i ight ) ight )$
M步：求使 $lleft ( heta ^left ( i ight ) ight )$ 极大化的 $ heta$ ，确定第 $i+1$ 次的參数的预计值 $ heta ^left ( i+1 ight )$ ： $heta ^{left ( i+1 ight )}=underset{ heta }{arg: max}sum_{Z}Q_ileft ( Z ight )cdot log; frac{Pleft ( Y,Zmid heta ^left ( i ight ) ight )}{Q_ileft ( Z ight )}$

五、EM算法的收敛性保证

迭代的过程是否能保证最后找到的就是最大的似然函数值呢？即须要证明在整个迭代的过程中，极大似然预计是单调添加的。假定 $heta ^left ( t ight )$ 和 $ heta ^left ( t+1 ight )$ 是EM算法的第 $t$ 次和第 $t+1$ 次迭代后的结果，选定 $heta ^left ( t ight )$ ，进行迭代：

E步： $Q_{t}left ( Z ight )=Pleft ( Zmid Y, heta ^left ( i ight ) ight )$
M步： $lleft ( heta ^{left ( t ight )} ight )=sum_{Z}Q_{t}left ( Z ight )cdot log; frac{Pleft ( Y,Zmid heta ^{left ( t ight )} ight )}{Q_{t}left ( Z ight )}$

固定 $Q_tleft ( Z ight )$ 。将 $ heta ^left ( t ight )$ 看成变量：

$egin{align*} lleft ( heta ^{left ( t+1 ight )} ight ) &= sum_{Z}Q_{t+1}left ( Z ight )cdot log; frac{Pleft ( Y,Zmid heta ^{left ( t+1 ight )} ight )}{Q_{t+1}left ( Z ight )}\ &geqslant sum_{Z}Q_{t}left ( Z ight )cdot log; frac{Pleft ( Y,Zmid heta ^{left ( t+1 ight )} ight )}{Q_{t}left ( Z ight )} \ &geqslant sum_{Z}Q_{t}left ( Z ight )cdot log; frac{Pleft ( Y,Zmid heta ^{left ( t ight )} ight )}{Q_{t}left ( Z ight )} \ &=lleft ( heta ^{left ( t ight )} ight ) end{align*}$

上式中，第一个大于等于是由于：

$heta ^{left ( i+1 ight )}=underset{ heta }{arg: max}sum_{Z}Q_ileft ( Z ight )cdot log; frac{Pleft ( Y,Zmid heta ^left ( i ight ) ight )}{Q_ileft ( Z ight )}$

六、利用EM算法參数求解实例

如果有有一批数据 $left ( x_1,x_2,cdots ,x_n ight )$ 各自是由两个正态分布：

$X_1sim Nleft ( mu _1,sigma ^2_1 ight )$

$X_2sim Nleft ( mu _2,sigma ^2_2 ight )$

产生，当中， $mu _1$ 和 $mu _2$ 未知， $sigma ^2_1=sigma ^2_2$ 。可是不知道详细的 $x_i$ 是第产生，即能够使用 $z_{i,1}$ 和 $z_{i,2}$ 表示。

这是一个典型的涉及到隐藏变量的样例，隐藏变量为 $z_{i,1}$ 和 $z_{i,2}$ 。

能够使用EM算法对參数进行预计。

首先是初始化 $mu _1$ 和 $mu _2$ ；
E步： $Q_{t}left ( Z ight )=Pleft ( Zmid Y, heta ^left ( i ight ) ight )$ ，即求数据 $x_i$ 是由第 $j$ 个分布产生的概率： $Pleft ( z_{i,j}mid x_i,mu_j ight )=frac{e^{-frac{1}{2sigma ^2}left ( x_i-mu _j ight )^2}}{sum_{n=1}^{2}e^{-frac{1}{2sigma ^2}left ( x_i-mu _n ight )^2}}$
M步： $heta ^{left ( i+1 ight )}=underset{ heta }{arg: max}sum_{Z}Q_ileft ( Z ight )cdot log; frac{Pleft ( Y,Zmid heta ^left ( i ight ) ight )}{Q_ileft ( Z ight )}$ ，即计算最大的期望值。
然而我们要求的參数是均值，能够通过例如以下的方式预计： $mu _j=frac{sum_{i=1}^{m}Pleft ( z_{i,j}mid x_i,mu _j ight )x_i}{sum_{i=1}^{m}Pleft ( z_{i,j}mid x_i,mu _j ight )}$

Python代码

#coding:UTF-8
'''
Created on 2015年6月7日

@author: zhaozhiyong
'''
from __future__ import division
from numpy import *
import math as mt
#首先生成一些用于測试的样本
#指定两个高斯分布的參数，这两个高斯分布的方差同样
sigma = 6
miu_1 = 40
miu_2 = 20

#随机均匀选择两个高斯分布，用于生成样本值
N = 1000
X = zeros((1, N))
for i in xrange(N):
    if random.random() > 0.5:#使用的是numpy模块中的random
        X[0, i] = random.randn() * sigma + miu_1
    else:
        X[0, i] = random.randn() * sigma + miu_2

#上述步骤已经生成样本
#对生成的样本，使用EM算法计算其均值miu

#取miu的初始值
k = 2
miu = random.random((1, k))
#miu = mat([40.0, 20.0])
Expectations = zeros((N, k))

for step in xrange(1000):#设置迭代次数
    #步骤1。计算期望
    for i in xrange(N):
        #计算分母
        denominator = 0
        for j in xrange(k):
            denominator = denominator + mt.exp(-1 / (2 * sigma ** 2) * (X[0, i] - miu[0, j]) ** 2)
        
        #计算分子
        for j in xrange(k):
            numerator = mt.exp(-1 / (2 * sigma ** 2) * (X[0, i] - miu[0, j]) ** 2)
            Expectations[i, j] = numerator / denominator
    
    #步骤2。求期望的最大
    #oldMiu = miu
    oldMiu = zeros((1, k))
    for j in xrange(k):
        oldMiu[0, j] = miu[0, j]
        numerator = 0
        denominator = 0
        for i in xrange(N):
            numerator = numerator + Expectations[i, j] * X[0, i]
            denominator = denominator + Expectations[i, j]
        miu[0, j] = numerator / denominator
        
    
    #推断是否满足要求
    epsilon = 0.0001
    if sum(abs(miu - oldMiu)) < epsilon:
        break
    
    print step
    print miu
    
print miu

终于结果

[[ 40.49487592 19.96497512]]

參考文章：

1、(EM算法)The EM Algorithm (http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html)

2、数学期望(http://wenku.baidu.com/view/915a9c1ec5da50e2524d7f08.html?re=view)