马尔可夫随机场
概率图模型是由图表示的概率分布。概率无向图模型又称马尔可夫随机场(Markov random field),表示一个联合概率分布,其标准定义为:
设有联合概率分布(P(V))由无向图(G=(V, E))表示,图(G)中的节点表示随机变量,边表示随机变量间的依赖关系。如果联合概率分布(P(V))满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。
成对马尔可夫性
设无向图(G)中的任意两个没有边连接的节点(u),(v) ,其他所有节点为(O),成对马尔可夫性指:给定(Y_O)的条件下,(Y_u)和(Y_v)条件独立
局部马尔可夫性
设无向图(G)的任一节点(v),(W)是与(v)有边相连的所有节点,(O)是(v)、(W)外的其他所有节点,局部马尔可夫性指:给定(Y_W)的条件下,(Y_v)和(Y_O)条件独立
全局马尔可夫性
设节点集合(A)、(B)是在无向图(G)中被节点集合(C)分开的任意节点集合,全局马尔可夫性指:给定(Y_C)的条件下,(Y_A)和(Y_B)条件独立
条件随机场
条件随机场的定义
条件随机场
设(X)和(Y)是随机变量,(P(Y|X))是在给定(X)的条件下(Y)的条件概率分布。若随机变量(Y)构成一个有无向图(G=(V,E))表示的马尔可夫场,即
对任意节点(v)都成立,则称(P(Y|X))是条件随机场。式中(w≠v)表示(w)是除(v)以外的所有节点,(w∼v)表示(w)是与(v)相连接的所有节点。
线性链条件随机场
对于线性链条件随机场来说,图(G)的每条边都存在于状态序列(Y)的相邻两个节点,最大团(C)是相邻两个节点的集合,(X)和(Y)有相同的图结构意味着每个(X_i)都与(Y_i)一一对应。
设(X=(X_1,...,X_n),Y=(Y_1,...,Y_n))均为线性链表示的随机变量序列,若在给定随机变量序列(X)的条件下,随机变量序列(Y)的条件分布(P(Y|X))构成条件随机场,即满足马尔可夫性
则称(P(Y|X))为线性链条件随机场。在标注问题中(X)表示输入观测序列,(Y)表示对应的状态序列。
条件随机场的形式
参数化形式
设(P(Y|X))为线性链条件随机场,则在随机变量(X)取值为(x)的条件下,随机变量(Y)取值为(y)的条件概率具有如下形式:
其中
式中,(t_k)和(s_t)是特征函数,(lambda_k)和(mu_l)是对应的权值。
上式是基本形式,表示给定输入序列(x),对输出序列(y)预测的条件概率。(t_k)是定义在边上的特征函数,称为转移特征,依赖于当前和前一个位置,(s_l)是定义在节点上的特征函数,称为状态特征,依赖于当前位置。(t_k)和(s_l)都依赖于位置,是局部特征函数。通常都是0-1函数。
线性链条件随机场也是对数线性模型(逻辑回归也是)。
简化形式
将转移特征和状态特征机器权值用统一的符号表示。设有(K_1)个转移特征,(K_2)个状态特征,(K=K_1+K_2),记
然后,对转移与状态特征在各个位置(i)求和,记作
用(w_k)表示特征(f_k(y,x))的权值,即
于是,条件随机场可以表示为
还可以把(w_k)和(f_k(y,x))表示成向量的形式
矩阵形式
引进特殊的起点和和终点状态标记(y_0=start,y_{n+1}=stop),这是(P_w(y|x))(简化形式)可以通过矩阵形式表示
对观测序列(x)的每一个位置(i=1,2,cdots,n+1),定义一个(m)阶的矩阵(m是标记(y_i)取值的个数)
这样,给定观测序列(x),相应标记序列(y)的非规范化概率可以通过该序列(n+1)个矩阵适当元素的乘积(prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x))表示,于是条件概率(P_w(y|x))是
其中,(Z_w(x))是规范化因子,是(n+1)个矩阵的乘积的(start,stop)元素。
注意,(y_0=start)与(y_{n+1}=stop)表示开始开始状态和终止状态,规范化因子(Z_w(x))是以start为起点stop为终点通过状态的所有路径(y_1 y_2 cdots y_n)的非规范化概率(prod_{i=1}^{n+1}M_i(y_{i-1},y_i|x))之和。