概率图基础

概率图模型分类

$HMM<S,O,Theta>, Theta=<pi ,A, B>$

隐藏状态S，观测状态O，初始状态的概率分布$pi$，隐藏状态转移概率A，观测状态转移概率B

计算观测序列概率

递归公式（前向算法）

$p(O_1^t|Theta)=sum_i^{ } p(O_1^t,S_{t+1}=i|Theta)=sum_i^{ }alpha_t(i)$
$alpha_{t+1}(i)=sum_j^{ } p(O_1^t,O_{t+1},S_t=j,S_{t+1}=i|Theta)=sum_j^{ } p(O_{t+1},S_{t+1}=i|S_t=j,O_1^t,Theta)p(O_1^t,S_t=j|Theta)$
- $=sum_j^{ } p(O_{t+1},S_{t+1}=i|S_t=j,Theta)alpha_t(i)=sum_j^{ } B(O_{t+1},i)A(i,j)alpha_t(i)$

解码问题：求解隐藏序列$arg\,max_Sp(S|O,Theta)$，viterbi/A*算法

输入为音子时，观察与状态之间为多对一关系
$arg\,max_Sp(S|O,Theta)=arg\,max_Sp(O|S,Theta)p(S|Theta)=arg\,max_Sprod_{i}^{ }B(O_i,S_i)pi(S_0)prod_{i}^{ }A(S_{i+1},S_i)$
序列空间约束：$given\,S_{n+1}, S_n=arg\,max_sB(O_{n+1}, S_{n+1})A(S_{n+1}, s)$
递归公式：$delta_i(t)=max_{q_{1}^{t-1}}p(O_{1}^{t},q_{1}^{t-1},q_t=i)$；$delta_{i+1}(t)=max_{i}[delta_i(t)A(j,i)]B(O_{t+1},j)$

参数估计$arg\,max_{Theta}p(O|Theta)$

引入中间变量，采用 EM/向前向后算法
后向变量：$eta_t(j)=p(O_{t+1}^T |q_t=j,Theta)$
$xi_t(i,j)=p(q_t=i,q_{t+1}=j|O,Theta)=frac{p(q_t=i,q_{t+1}=j,O|Theta)}{p(O|Theta)}=frac{alpha_t(i)A(j,i)B(O_{t+1},j)eta_{t+1}(j)}{sum_{i}^{ }alpha_T(i)}$
$pi(i)=p(q_1=i|O)=sum_{i}^{ }xi_1(i,j)=gamma_1(i)$
$A(j,i)=frac{sum_{t}^{ }p(q_t=i,q_{t+1}=j|O)}{sum_{t}^{ }p(q_t=i|O)}=frac{sum_{t}^{ }xi_t(i,j)}{sum_{t}^{ }gamma_t(i)}$
$B(O_T,i)=frac{sum_{t}^{ }p(q_t=i,O_t|O)}{sum_{t}^{ }p(q_t=i|O)}=frac{sum_{t}^{ }gamma_t(i)delta(o=O_t)}{sum_{t}^{ }gamma_t(i)}$

马尔可夫随机场MRF

条件随机场CRF

如果 Y 为 MRF，那么P(Y|X)为CRF
线性链随机场：$p(Y_i|X,Y)=p(Y_i|X,Y_{i-1},Y_{i+1})$
- $=frac{1}{Z(x)}exp(sum_{i,k}^{ } w_kf_k(y_{i-1},y_i,x,i))=frac{1}{Z(x)}exp( W^TF(y,x))$
预测问题：$arg\,max_yfrac{1}{Z(x)}exp( W^TF(y,x))=arg\,max_yexp( W^TF(y,x))$
学习问题：$arg\,max_wfrac{1}{Z(x)}exp( W^TF(y,x))$

定理：[细致平稳条件](detailed balance condition)

如果非周期马氏链的转移矩阵P和分布$pi(x)$满足$forall i,j\,pi(i)P_{ij}=pi(j)P_{ji}$，则$pi(x)$是马氏链的平稳分布

Metropolis-Hastings

根据转移矩阵P的马氏链，构造平稳分布为p(x)的马氏链
需要串联一个因子$alpha$，$pi(i)P_{ij}alpha_{ij}=pi(j)P_{ji}alpha_{ji}$，满足细致平稳条件。相当于修正转移矩阵。
$alpha=min(1,frac{pi(i)P_{ij}}{pi(j)P_{ji}})$

Metropolis/MCMC伪代码

模拟退火

Gibbs采样算法

Boltzmann机

受限Boltzmann机

CD算法