隐马尔可夫模型

本文主要是学习笔记，一方面是为了加强理解，感觉在做笔记过程中理解起来更简单，另一方面为了加强记忆，建立大脑关于‘隐马尔可夫模型’的神经网络

回到顶部

1. 模型场景

在介绍隐马尔可夫模型之前先来看个例子：
假设有4个盒子，每个盒子里面都装有红、白两种颜色的求，盒子里面的红包球数量如下：

按照下面的方式抽球，产生一个球的颜色的观测序列：

(1)开始，从4个盒子里以等概率随机选取一个盒子，从这个盒子里随机抽出一个球，记录其颜色，然后放回
(2)然后，从当前盒子随机转移到下一个盒子，规则是：如果当前盒子是盒子1，那么下一个盒子一定是盒子2，如果当前盒子是盒子2或3，那么分别以概率0.4和0.6转移到左边或右边的盒子，如果当前是盒子4，那么各以0.5的概率停留在盒子4或转移到盒子3
(3)确定转移的盒子后，再从这个盒子里随机抽出一个球，记录其颜色，放回
(4)如此下去，重复进行5次，得到一个球的颜色的观测序列： $O = (红，红，白，白，红)$

在这个过程中，观察者只能观测到球的颜色的序列，观测不到球是从哪个盒子取出的，即观测不到盒子的序列

回到顶部

2. 隐马尔可夫模型三要素

上面的例子是一个典型的隐马尔可夫模型。有两个随机序列，一个是盒子的序列(状态序列)，一个是球的颜色的观测序列，前者是隐藏的，只有后者是可观测的。

隐马尔可夫模型有三要素，表示为

λ = (A, B, π)

注：A为状态转移矩阵，B为观测概率分布矩阵，

通过上面的例子，来分别计算下A,B和

状态转移概率分布矩阵：

A = ⎡⎣⎢⎢⎢ 0 0.4 0 0 1 0 0.4 0 0 0.4 0 0.5 00

观测概率分布矩阵：

B = ⎡⎣⎢⎢⎢ 0.5 0.3 0.6 0.8 0.5 0.7 0.4 0.2 ⎤⎦⎥⎥⎥

初始概率分布：

π = (0.25, 0.25, 0.25, 0.25)

回到顶部

3. 隐马尔可夫模型的三个基本问题

(1) 概率计算问题

给定模型

(2) 学习问题

已知观测序列

(3) 预测问题，也称为解码问题

已知模型

下面分别介绍针对不同问题的解决算法

回到顶部

4. 概率计算算法

4.1 问题描述

给定模型

4.2 前向算法

(1) 计算状态t1下观测为红球的情况,注：序列和矩阵索引都从1开始

第一次从盒子1选择红球的情况：

a 1 (1) = π 1 B 1 (o 1) = 0.25 * 0.5 = 0.125

a 1 (2) = π 2 B 2 (o 1) = 0.25 * 0.3 = 0.075

a 1 (3) = π 3 B 3 (o 1) = 0.25 * 0.6 = 0.15

a 1 (4) = π 4 B 4 (o 1) = 0.25 * 0.8 = 0.20

(2) 计算状态t2下观测为红球的情况，及第二次选择为红球的情况

第二次从盒子1选择红球的情况：

a 2 (1) = a 1 (1) A 11 B 1 (o 2) + a 1 (2) A 21 B 1 (o 2) +

a 2 (2) = a 1 (1) A 12 B 2 (o 2) + a 1 (2) A 22 B 2 (o 2) +

a 2 (3) = a 1 (1) A 13 B 3 (o 2) + a 1 (2) A 23 B 3 (o 2) +

a 2 (4) = a 1 (1) A 14 B 4 (o 2) + a 1 (2) A 24 B 4 (o 2) +

...

通过上述规律我们得到公式:

(1) 初值

a 1 (i) = π (i) B i (o 1)

(2) 递推

a t + 1 (i) = [\sum j = 1 N a t (j) A j i] B i (o t + 1)

(3) 终止

P (O | λ) = \sum i = 1 N a T (i)

4.3 后向算法

顾名思义，后向算法就是根据t时刻的观测序列概率算出t-1时刻观测序列的概率

令在t时刻状态为

β t (i) = P (o t + 1 ， o t + 2, . . ., o T | i t = q i, λ)

要特别注意

(1) 对最终时刻的所有状态

β T (i) = 1

(2)

β t (i) = \sum j = 1 N a i j b j (0 t + 1) β t + 1 (j)

(3)

P (O | λ) = \sum i = 1 N π i b i (o 1) β 1 (i)

回到顶部

5. 学习算法

5.1 问题描述

已知观测序列

隐马尔可夫模型的学习，根据训练数据集是包括观测序列和对应的状态序列还是只有观测序列，可以分别由监督学习与无监督学习实现

对于监督学习，由于数据集包含了观测序列和对应的状态序列，这样就可以直接根据利用数据集预估模型参数

对于非监督学习，可以使用EM算对隐参数进行学习。EM算法参考附录

回到顶部

6. 预测算法

6.1 问题描述

已知模型

6.2 维特比算法

维特比算法实际是用动态规划解隐马尔可夫模型预测问题，即用动态规划求概率最大路径

定义两个变量：

δ t (i) = m a x P (i t = i, i t - 1, . . ., i 1, o t, . . ., o 1

ψ t (i) = a r g m a x 1 <= j <= N [δ t - 1 (j) a j i], i = 1, 2, .

(1) 初始化

δ 1 (i) = π i b i (o 1)

ψ 1 (i) = 0

(2) 递推，对t=2,3,...,T

δ t (i) = m a x 1 <= j <= N [δ t - 1 (j) a j i] b i (o t)

ψ t (i) = a r g m a x 1 <= j <= N [δ t - 1 (j) a j i]

(3) 终止

P * = m a x 1 <= i <= N δ T (i)

i * T = a r g m a x 1 <= i <= N [δ T (i)]

回到顶部

7. 附：EM算法

7.1 EM算法定义

输入：观测变量数据X，隐变量数据Z,联合分布

输出：模型参数

(1)选择初始模型参数

(2)E步：记

Q (θ, θ (i)) = E (l o g P (x, z | θ) | x, θ (i))) = \int z l

(4)重复第(2)步和第(3)步

7.2 EM算法几点说明

(1)参数的初值可以任意选择，但需注意EM算法对初始值是敏感的

(2)E步求

(3)给出停止迭代的条件，一般是对较小的正数

7.3 EM算法推导

L (θ) = a r g m a x l o g P (x | θ) = a r g m a x l o g \int z p (x, z | θ) d z

L (θ) = a r g m a x l o g \int z p ( x , z | θ ) p ( z | θ ( i ) ) p (

L (θ) \geq \int z l o g p ( x , z | θ ) p ( z | θ ( i ) ) p ( z | θ

L (θ) \geq \int z l o g p (x, z | θ) p (z | θ (i)) d z - \int z l o g (p (

Q (θ, θ (i)) = \int z l o g p (x, z | θ) p (z | θ (i))

θ (i + 1) = a r g m a x Q (θ, θ (i))

7.4 EM算法收敛性

定理1：

(1)

以上为EM算法的'官方'说明，若不理解可以参考博客https://www.jianshu.com/p/1121509ac1dc

最后针对隐马尔可夫模型抛出抛出两个问题：

(1) 如何对中文分词问题用隐马尔可夫模型进行建模和训练？

(2) 最大熵马尔可夫模型为什么会产生标注偏置问题？如何解决？

参考资料：
李航老师的《统计学习方法》

隐马尔可夫模型

隐马尔可夫模型

1. 模型场景

2. 隐马尔可夫模型三要素

注：A为状态转移矩阵，B为观测概率分布矩阵，π为初始状态概率向量π为初始状态概率向量

A[ij]A[ij]表示从状态i转移到状态j的概率

B[i0]B[i0]表示盒子i中取出红球的概率，B[i1]B[i1]表示盒子i中取出白球的概率

3. 隐马尔可夫模型的三个基本问题

4. 概率计算算法

4.1 问题描述

4.2 前向算法

第一次从盒子2选择红球的情况：

第一次从盒子3选择红球的情况：

第一次从盒子4选择红球的情况：

第二次从盒子2选择红球的情况：

第二次从盒子3选择红球的情况：

第二次从盒子4选择红球的情况：

4.3 后向算法

5. 学习算法

5.1 问题描述

6. 预测算法

6.1 问题描述

6.2 维特比算法

7. 附：EM算法

7.1 EM算法定义

(3)M步：求使θ(i+1)=Q(θ,θ(i))的最大值θ(i+1)=Q(θ,θ(i))的最大值

7.2 EM算法几点说明

7.3 EM算法推导

由于log函数为凹函数，则

由于减式后面与模型参数θθ无关，P(z|θ(i))是已知的P(z|θ(i))是已知的，所以只需关注减式前面的式子，令

7.4 EM算法收敛性

注：A为状态转移矩阵，B为观测概率分布矩阵，