条件随机场

(一)马尔可夫随机场(Markov random field,无向图模型)

(二)条件随机场(Conditional random field,CRF)

   

(一)马尔可夫随机场

      概率图模型(Probabilistic graphical model,PGM)是由图表示的概率分布。概率无向图模型(Probabilistic undirected graphical model)又称马尔可夫随机场(Markov random field),表示一个联合概率分布,其标准定义为:

      设有联合概率分布 P(V) 由无向图 G=(V, E) 表示,图 G 中的节点表示随机变量,边表示随机变量间的依赖关系。如果联合概率分布 P(V) 满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。

      设有一组随机变量 Y ,其联合分布为 P(Y) 由无向图 G=(V, E) 表示。图 G 的一个节点 vVv∈V 表示一个随机变量 YvYv ,一条边 eEe∈E 就表示两个随机变量间的依赖关系。

      1. 成对马尔可夫性(pairwise Markov property)

      设无向图 G 中的任意两个没有边连接的节点 u 、v ,其他所有节点为 O ,成对马尔可夫性指:给定 YOYO 的条件下,YuYu 和 YvYv 条件独立

P(Yu,Yv|YO)=P(Yu|YO)P(Yv|YO)P(Yu,Yv|YO)=P(Yu|YO)P(Yv|YO)

      2. 局部马尔可夫性(local)

      设无向图 G 的任一节点 v ,W 是与 v 有边相连的所有节点,O 是 v 、W 外的其他所有节点,局部马尔可夫性指:给定 YWYW 的条件下,YvYv 和 YOYO 条件独立

P(Yv,YO|YW)=P(Yv|YW)P(YO|YW)P(Yv,YO|YW)=P(Yv|YW)P(YO|YW)

当 P(YO|YW)>0P(YO|YW)>0 时,等价于

P(Yv|YW)=P(Yv|YW,YO)P(Yv|YW)=P(Yv|YW,YO)

如果把等式两边的条件里的 YWYW 遮住,P(Yv)=P(Yv|YO)P(Yv)=P(Yv|YO) 这个式子表示 YvYv 和 YOYO 独立,进而可以理解这个等式为给定条件 YWYW 下的独立。

      3. 全局马尔可夫性(global)

      设节点集合 A 、B 是在无向图 G 中被节点集合 C 分开的任意节点集合,全局马尔可夫性指:给定 YCYC 的条件下,YAYA 和 YBYB 条件独立

P(YA,YB|YC)=P(YA|YC)P(YB|YC)P(YA,YB|YC)=P(YA|YC)P(YB|YC)

      这几个定义是等价的。

      4. 概率无向图模型

     无向图模型的优点在于其没有隐马尔可夫模型那样严格的独立性假设,同时克服了最大熵马尔可夫模型等判别式模型的标记偏置问题。

      (1)有向图的联合概率分布

      考虑一个有向图 Gd=(Vd,Ed)Gd=(Vd,Ed) ,随机变量间的联合概率分布可以利用条件概率来表示为

P(vd1,...,vdn)=i=1nP(vdi|vdπi)P(v1d,...,vnd)=∏i=1nP(vid|vπid)

其中 vdπivπid 表示节点 vdivid 的父节点的集合。

      (2)无向图的因子分解(Factorization)

      不同于有向图模型,无向图模型的无向性很难确保每个节点在给定它的邻节点的条件下的条件概率和以图中其他节点为条件的条件概率一致。由于这个原因,无向图模型的联合概率并不是用条件概率参数化表示的,而是定义为由一组条件独立的局部函数的乘积形式。因子分解就是说将无向图所描述的联合概率分布表达为若干个子联合概率的乘积,从而便于模型的学习和计算。

      实现这个分解要求的方法就是使得每个局部函数所作用的那部分节点可以在 G 中形成一个最大团(maximal clique)。这就确保了没有一个局部函数是作用在任何一对没有边直接连接的节点上的;反过来说,如果两个节点同时出现在一个团中,则在这两个节点所在的团上定义一个局部函数来建立这样的依赖。

      无向图模型最大的特点就是易于因子分解,标准定义为:

      将无向图模型的联合概率分布表示为其最大团(maximal clique,可能不唯一)上的随机变量的函数的乘积形式。

      给定无向图 G ,其最大团为 C ,那么联合概率分布 P(Y) 可以写作图中所有最大团 C 上的势函数(potential function) ψC(YC)ψC(YC) 的乘积形式:

P(Y)=1ZCψC(YC)P(Y)=1Z∏CψC(YC)
Z=YCψC(YC)Z=∑Y∏CψC(YC)

其中 Z 称为规范化因子,对 Y 的所有可能取值求和,从而保证了 P(Y) 是一个概率分布。要求势函数严格正,通常定义为指数函数

ψC(YC)=exp(E[YC])ψC(YC)=exp⁡(−E[YC])

      上面的因子分解过程就是 Hammersley-Clifford 定理。

(二)条件随机场

      条件随机场(Conditional random field,CRF)是条件概率分布模型 P(Y|X) ,表示的是给定一组输入随机变量 X 的条件下另一组输出随机变量 Y 的马尔可夫随机场,也就是说 CRF 的特点是假设输出随机变量构成马尔可夫随机场。

      条件随机场可被看作是最大熵马尔可夫模型在标注问题上的推广。

      这里介绍的是用于序列标注问题的线性链条件随机场(linear chain conditional CRF),是由输入序列来预测输出序列的判别式模型。

图片来源:[3]

图片来源:[2]

图片来源:[4]

      从问题描述上看,对于序列标注问题,X 是需要标注的观测序列,Y 是标记序列(状态序列)。在学习过程时,通过 MLE 或带正则的 MLE 来训练出模型参数;在测试过程,对于给定的观测序列,模型需要求出条件概率最大的输出序列。

      如果随机变量 Y 构成一个由无向图 G=(V, E) 表示的马尔可夫随机场,对任意节点 vVv∈V 都成立,即

P(Yv|X,Yw,wv)=P(Yv|X,Yw,wv)P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w∼v)

对任意节点 vv 都成立,则称 P(Y|X) 是条件随机场。式中 wvw≠v 表示 w 是除 v 以外的所有节点,wvw∼v 表示 w 是与 v 相连接的所有节点。不妨把等式两遍的相同的条件 X 都遮住,那么式子可以用下图示意:

很明显,这就是马尔可夫随机场的定义。

https://www.cnblogs.com/Determined22/p/6915730.html

原文地址:https://www.cnblogs.com/shona/p/11415174.html