隐马尔可夫模型（hidden Markov model,HMM）

定义：

隐马尔科夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。

隐马尔科夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定。

Q={q₁,q_2,q₃,…….q_N}————————————所有可能的状态集合（共有N个状态）

V={v₁,v₂,v₃,…….v_M}————————————所有可能的观测集合（共有M种可能的观测）

I={i₁,i₂,i₃,…….…..i_T}————————————长度为T的状态序列（随时间变化的状态序列）

O={o₁,o₂,o₃,…….o_T}—————————————长度为T的观察序列（随时间变化的观察序列）

A=[a_ij]_N×N —————————————————在某一时刻t下状态为i，转移到下一时刻t+1状态为j的概率为aij. 状态转移矩阵A

B=[b_j(k)]_N×M————————————————在某一时刻t处于状态q_j的条件下生成观测v_k的概率观测概率矩阵B

π=（π_i）——————————————————时刻t=1时的处于状态q_i的概率初始状态概率π

隐马尔科夫模型可以用三元符号（A,B,π）来表示。

隐马尔科夫模型做的两个基本假设：

1）齐次马尔科夫性假设，即下一时刻t+1的状态只依赖于当前状态t与之前的时刻t-1,……1的状态无关

2）观测独立性假设，任意时刻的观测只依赖于当前时刻的状态，与其他时刻的状态和观测无关。

观测序列的生成过程

输入：隐马尔科夫模型（A,B,π），观测序列长度T

输出：观测序列O=(o₁,o₂,o₃,…….o_T)

(1)按照初始状态分布π产生状态i₁

(2)令t=1

(3)按照状态i_t的观察概率分布bi_t(k)生成o_t

(4)利用状态转移矩阵A，求出下一时刻的状态

(5)令t=t+1；如果t<T，转步(3)，否则停止

隐马尔科夫模型的三个基本问题

(1)概率计算问题。给定模型L=（A,B,π）和观察序列O=(o₁,o₂,o₃,…….o_T),计算在模型L下观测序列O出现的概率P(O|L)

(2)学习问题。已知观察序列O=(o₁,o₂,o₃,…….o_T),估计模型L=（A,B,π）参数，使得该模型下观测序列概率P(O|L)最大，极大似然估计的方法

(3)预测问题，也称为解码问题，即给定观测序列，求最有可能的对应的状态序列

解决问题1——概率计算

常见的算法有两类：前向算法（forward）和后向（backward）算法。

先介绍概念上可行但计算上不可行的直接计算法，

直接计算法

给定模型L(A,B,π)和观测序列O=(o₁,o₂,o₃,…….o_T),计算P(O|L)。最直接的方法就是按概率公式直接计算。通过列举所有可能的长度为T的状态序列 I=(i₁,i₂,i₃,…….…..i_T),求各个状态序列I与观测序列O=(o₁,o₂,o₃,…….o_T)的联合概率P(O,I|L)，然后对所有可能的状态序列求和，得到P(O|L)

前向算法

定义前向概率：给定隐马尔科夫模型L,定义到时刻t部分观测序列为o₁,o₂,o₃,…….o_t且状态为q_i的概率为前向概率，即

α_t(i)=P(o₁,o₂,o₃,…….o_t,i_t=q_i|L)

可以递推地求得前向概率α_t(i)及观测序列概率P(O|L)

输入：隐马尔科夫模型L，观测序列O

输出：观测序列概率P(O|L)

(1)初值 α₁(i)=π_ib_i(o₁) i=1,2,……N

(2)递推对t=1,2,…….,T-1,

α_t+1(i)=[Σα_t(j)a_ji]b_i(o_t+1) i=1,2,……N

(3)终止

P(O|L)=Σα_T(i)

理解：α_t(j)可以看作某个节点此时的状态他们有一个共同点就是前t时刻的观测序列都为o₁,o₂,o₃,…….o_t，现在要求α_t+1(i),即前t时刻的观测序列仍为o₁,o₂,o₃,…….o_t但第t+1次的观测为o_t+1状态为q_i,因此我们要先求得t+1时刻状态为q_i的概率然后转化再求观测o_t+1 。由于我们最终求出的概率是考虑进去了状态q_i因此要求得的P（O|L）还要进行求和（步骤3）。

后向算法

首先同样要定义一个后向概率：定义在时刻t状态为q_i的条件下，从t+1到T的部分观测序列为o_1+t,o_t+2,o_t+3,…….o_T的概率为后向概率，即

β_t(i)=P(o_1+t,o_t+2,o_t+3,…….o_T|i_t=q_i,L)

可以用递推的方法求得后向概率β_t(i)及观测序列概率P(O|L)

算法：

输入：隐马尔科夫模型L，观测序列O

输出：观测序列概率P(O|L)

(1)β_T(i)=1 i=1，2，3..。。。N

(2)对时间t=T-1,T-2,…..1

β_t(i)=Σa_ijb_j(o_t+1)β_t+1(j) i=1，2，……..N

(3)P(O|L)=Σπ_ib_i(o₁)β₁(i)

理解：β_t+1(i)可以看作某时刻t+1状态为q_j，对之后时刻t+2….T观测到的序列。由于后一项状态只与前一项状态有关，因此只需考虑时刻t到t+1的转换为q_j的概率，即可能的N个转换为q_j的概率a_ij.以及在时刻t+1此状态下观测值为o_1+t的观测概率。

(一些概率和期望的计算：利用我们的前向概率和后向概率，可以得到单个状态的概率和两个状态的概率：1.已知L和O，求t时刻状态为q_i的概率，2.已知L和O，求t时刻状态为的q_i且t+1时刻状态为q_j的概率（某时刻的后验转换概率）3.可以根据上述计算期望)

学习算法

监督学习方法

假设已知训练数据包含S个长度相同的观测序列和对应的状态序列{ (O₁,I₁),(O₂,I₂),………..,(O_S,I_S)},那么可以利用极大似然估计法来估计隐马尔科夫模型的参数。具体方法如下：

1.转移矩阵a_ij的估计

设样本中时刻t处于状态i时刻t+1转移到状态j的频数为A_ij,那么状态转移概率a_ij为A_ij/ΣA_ij

2.观测概率b_j(k)的估计

设样本中状态为j并观测为k的频数是B_jk,那么状态为j观测为k的概率b_j(k)为 B_jk/ΣB_jk

3.初始状态概率π_i的估计为S个样本中初始状态为q_i的频率

由于监督学习需要使用训练数据，而人工标注训练数据往往代价很高，有时会利用非监督学习的方法。

Baum-Welch算法

假设训练数据只包含S个长度为T的观测序列{O₁,O₂,…..O_S}，将状态变量看作是隐变量，那么隐马尔科夫模型实际上是含有隐变量的概率模型。

P(O|L)=ΣP(O|I,L)P(I|L)

他的参数可以由EM算法来实现。

预测算法

隐马尔科夫模型预测的两种算法：近似算法与维特比算法。

近似算法

在每个时间t选择在该时刻最有可能出现的状态i*，从而得到一个状态序列I*=(i₁*,i₂*,……..,i_T*)

可以根据前面的前向概率和后向概率求出某一时刻，最大概率的状态。

维特比算法

用动态规划解隐马尔科夫模型预测问题，即用动态规划求概率最大路径。这时一条路径对应着一个状态序列。

参考文献:统计学习方法