fromzhihuHMM

机器学习-隐马尔科夫模型

隐马尔科夫模型

1 基本概念

状态序列（state sequence）：隐藏的马尔可夫随机链生成的状态序列，不可观测

观测序列（observation sequence）：每个状态生成一个观测，由此产生观测的随机序列

隐马尔科夫模型的三要素：

状态转移概率矩阵： $A=[a_{ij}]_{N imes N}$ ， $N$ 为所有可能的状态数
观测概率矩阵： $B=[b_{j}(k)]_{N imes M}$ ， $M$ 为所有的观测的集合
初始状态概率向量： $pi=left(pi_{i} ight)$ ，其中， $pi_{i}=Pleft(i_{1}=q_{i} ight) ,i=1,2,ldots,N$

隐马尔可夫模型的表示： $lambda=left(A,B,pi ight)$

隐马尔科夫模型的两个基本假设：

齐次马尔可夫假设： $P(i_t|i_{t-1},o_{t-1},dots,i_1,o_1) = P(i_t|i_{t-1}), t=1,2,dots,T$
假设隐藏的马尔可夫链在任意时刻 $t$ 的状态 $ightarrow i_t$
只依赖于其前一时刻的状态 $ightarrow i_{t-1}$
与其他时刻的状态 $ightarrow i_{t-1, dots, i_1}$
及观测无关 $ightarrow o_{t-1},dots,o_1$
也与时刻 $t$ 无关 $ightarrow t=1,2,dots,T$
观测独立性假设： $P(o_t|i_T,o_T,i_{T-1},o_{T-1},dots,i_{t+1},o_{t+1},i_t,i_{t-1},o_{t-1},dots,i_1,o_1)=P(o_t|i_t)$
假设任意时刻 $t$ 的观测 $ightarrow o_t$
只依赖于该时刻的马尔可夫链的状态 $ightarrow i_t$
与其他观测 $ightarrow o_T,o_{T-1},dots,o_{t+1},o_{t-1},dots,o_1$
及状态无关 $ightarrow i_T,i_{T-1},dots,i_{t+1},i_{t-1},dots,i_1$

隐马尔科夫模型的三个基本问题：

概率计算问题：在模型 $lambda=(A,B,pi)$ 下观测序列 $O=(o_1,o_2,dots,o_T)$ 出现的概率 $P(O|lambda)$
输入：模型 $lambda=(A,B,pi)$ ，观测序列 $O=(o_1,o_2,dots,o_T)$ 输出： $P(O|lambda)$
学习问题：已知观测序列 $O=(o_1,o_2,dots,o_T)$ ，估计模型 $lambda=(A,B,pi)$ 的参数，使观测序列概率 $P(O|lambda)$ 最大，用极大似然法估计
输入：观测序列 $O=(o_1,o_2,dots,o_T)$ 输出：输出 $lambda=(A,B,pi)$
预测问题，也称为解码问题(Decoding)
输入：模型 $lambda=(A,B,pi)$ ，观测序列 $O=(o_1,o_2,dots,o_T)$ 输出：状态序列 $I=(i_1,i_2,dots,i_T)$

标注问题，给定观测的序列预测对应的标记序列。状态对应着标记。

2 概率计算问题

2.1 直接计算法

列举所有的可能状态序列 $I=(i_{1},i_{2},dots,i_{T})$ ，长度为 $T$

计算： $P(O|lambda)=sum_{I}P(O|I,lambda)P(I|lambda)$

计算量： $O(TN^T)$ 阶的，故不可行

2.2 前向算法

前向概率：给定马尔可夫模型 $lambda$ ，定义到时刻 $t$ 部分观测序列为 $o_1, o_2, dots ,o_t$ ，且状态 $q_i$ 的概率

记作： $alpha_t(i)=P(o_1,o_2,dots,o_t,i_t=q_i|lambda)$

观测序列概率的前向算法：

输入： $lambda , O$
输出： $P(O|lambda)$

初值： $alpha_1(i)=pi_ib_i(o_1), i=1,2,dots,N$ ，式中观测值为 $o_1$ ， $i$ 的含义是对应状态 $q_i$
递推： $alpha_{t+1}(i) = left[sumlimits_{j=1}^Nalpha_t(j)a_{ji} ight]b_i(o_{t+1})color{black}, i=1,2,dots,N, t = 1,2,dots,T-1$
式中， $q_{j}$ 为 $t$ 时刻所处的状态， $q_{i}$ 为 $t+1$ 时刻所处的状态，从中可以看出 $i,j$ 的含义
转移矩阵 $A$ 维度 $N imes N$ , 观测矩阵 $B$ 维度 $N imes M$ ，具体的观测值 $o$ 可以表示成one-hot形式，维度 $M imes N$
所以 $Nalpha$ 的维度： $alpha = alpha ABo=1 imes N imes N imes N imes N imes M imes M imes N=1 imes N$
终止： $P(O|lambda)=sumlimits_{i=1}^Nalpha_T(i)=sumlimits_{i=1}^Nalpha_T(i)eta_T(i)$

计算量： $O(N^2T)$ 阶的，故可行

前向算法高效的关键：局部计算前向概率，然后利用路径结构将前向的概率“递推”到全局，得到 $P(O|lambda)$ ，每一次计算直接引用前一时刻的计算结果，避免重复计算

2.3 后向算法

后向概率：给定马尔可夫模型 $lambda$ ，定义到时刻 $t$ 状态为 $q_i$ 的条件下，从 $t+1$ 到 $T$ 的部分观测序列为 $o_{t+1}, o_{t+2}, dots ,o_T$ 的概率

记作： $eta_t(i)=P(o_{t+1},o_{t+2},dots,o_T|i_t=q_i, lambda)$

观测序列概率的后向算法：

输入: $lambda , O$ 输出: $P(O|lambda)$

终值： $eta_T(i)=1, i=1,2,dots,N$ ，在 $t=T$ 时刻, 观测序列已经确定
从后往前递推： $eta_t(i)=sumlimits_{j=1}^Na_{ij}b_j(o_{t+1})eta_{t+1}(j)color{black}, i=1,2,dots,N, t=T-1, T-2,dots,1$
$eta = ABoeta = N imes N imes N imes M imes M imes N imes N imes 1 = N imes 1$
计算 $eta_t(i)$ ：到时刻 $t$ 状态为 $q_i$ 的条件下，从 $t+1$ 之后的观测序列为 $o_{t+1}, o_{t+2}, dots ,o_T$ 的后向概率，需要考虑三项：

$a_{ij}$ ：在时刻 $t+1$ 所有可能的 $N$ 个状态 $q_j$ 的转移概率
$b_j(o_{t+1})$ ：在此状态下的观测 $o_{t+1}$ 的观测概率
$eta_{t+1}(j)$ ：考虑状态 $q_j$ 之后的观测序列的后向概率

$P(O|lambda)=sumlimits_{i=1}^Npi_ib_i(o_1)eta_1(i)=sumlimits_{i=1}alpha_1(i)eta_1(i)$

2.4 概率与期望

输入模型 $lambda$ 与观测 $O$ ，输出在时刻 $t$ 处于状态 $q_i$ 的概率： $gamma_t(i)$
输入模型 $lambda$ 与观测 $O$ ，输出在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t+1$ 处于状态 $q_j$ 的概率： $xi_t(i,j)$
在观测 $O$ 下状态 $i$ 出现的期望值： $sumlimits_{t=1}^{T}gamma_t(i)$
在观测 $O$ 下状态 $i$ 转移的期望值： $sumlimits_{t=1}^{T-1}gamma_t(i)$
在观测 $O$ 下状态 $i$ 转移到状态 $j$ 的期望值： $sumlimits_{t=1}^{T-1}xi_t(i)$

3 学习问题

3.1 监督学习算法

提供训练数据包括观测序列和对应的状态序列，利用极大似然估计法来估计隐马尔可夫模型的参数

人工标注训练数据成本很高

3.2 Baum-Welch算法

Baum-Welch算法是EM算法在隐马尔可夫模型学习中的具体实现，由Baum和Welch提出

马尔可夫模型实际上是一个含有隐变量的概率模型： $P(O|lambda)=sumlimits_IP(O|I,lambda)P(I|lambda)$

Baum-Welch算法：

输入: 观测数据 $O=(o_1, o_2, dots, o_T)$
输出: 隐马尔可夫模型参数

初始化：对 $n=0$ ，选取 $a_{ij}^{(0)}, b_j(k)^{(0)}, pi_i^{(0)}$ ，得到模型参数 $lambda^{(0)}=(A^{(0)}, B^{(0)},pi^{(0)})$
递推：对 $n=1,2,dots$ ，

$a{ij}^{(n+1)}=frac{sumlimits{t=1}^{T-1}xi_t(i,j)}{sumlimits_{t=1}^{T-1}gamma_t(i)} \$ $b_j(k)^{(n+1)}=frac{sumlimits_{t=1,o_t=v_k}^{T}gamma_t(j)}{sumlimits_{t=1}^Tgamma_t(j)}pi_i^{(n+1)}=gamma_1(i) \$ $pi_i^{(n+1)}=gamma_1(i) \$

3. 终止：得到模型参数 $lambda^{(n+1)}=(A^{(n+1)}, B^{(n+1)},pi^{(n+1)})$

4 预测算法

4.1 近似算法

每个时刻最有可能的状态 $i_t^*$ 是： $i_t^*=arg maxlimits_{1leqslant ileqslant N}left[gamma_t(i) ight], t=1,2,dots,T$

得到序列 $I^*=(i_1^*,i_2^*,dots,i_T^*)$ ，作为预测的结果

特点：计算简单，不能保证预测的状态序列整体是最有可能的状态序列，有可能存在转移概率为0的相邻状态

即对某些 $i,j,a_{ij}=0$

4.2 维特比算法

维特比算法：使用动态规划解隐马尔科夫模型，求概率最大路径，这条路径对应一个状态序列

输入: 模型 $lambda=(A, B, pi)$ 和观测 $O=(o_1, o_2,dots,o_T)$
输出: 最优路径 $I^*=(i_1^*, i_2^*,dots,i_T^*)$

初始化 $delta_1(i)=pi_ib_i(o_1), i=1,2,dots,N$ $psi_1(i)=0, i=1,2,dots,N$
递推 $t=2,3,dots,T$ $delta_t(i)=maxlimits_{1leqslant j leqslant N}left[delta_{t-1}(j)a_{ji} ight]b_i(o_t), i=1,2,dots,N$ $psi_t(j)=argmaxlimits_{1leqslant j leqslant N}left[delta_{t-1}(j)a_{ji} ight], i=1,2,dots,N$
终止 $P^*=maxlimits_{1leqslant ileqslant N}delta_T(i)$ $i_T^*=argmaxlimits_{1leqslant i leqslant N}left[ delta_T(i) ight]$
最优路径回溯 $t=T-1, T-2, dots,1$ $i_t^*=psi_{t+1}(i_{i+1}^*)$

未完，待续。

参考

李航-统计学习方法
李航-统计学习方法笔记：https://github.com/SmirkCao/Lihang