Contents
  1. 1. 概率图模型
    1. 1.1. 模型定义
    2. 1.2. 概率无向图的因子分解
  2. 2. 条件随机场定义

条件随机场(conditional random field, CRF)是给定一组随机变量的条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。条件随机场可以用于不同的预测问题。
本文主要将线性链条件随机场,这是,问题变成由输入序列对输出序列预测的判别模型,形式为对数线性模型,其学习方法通常是由极大似然估计或正则化的极大似然估计。

CRF是判别式模型。

概率图模型

概率图模型又称作马尔科夫最基础,是一个由无向图表示的联合概率分布。无向图G=(V,E)表示概率分布P(Y),节点v∈V表示一个随机变量$Y_v$;边e∈E表示随机变量之间的概率依存关系

模型定义

首先定义无向图表示的随机变量之间存在的成对马尔科夫性、局部马尔科夫性和全局马尔可夫性。

  1. 成对马尔科夫性:设u和v是无向图G中任意两个没有变链接的节点,节点u和v分别对应随机变量Yu和Yv。其他所有节点为O,对应的而随机变量组是Yo。成对马尔可夫性是,给定的随机变量组Yo的条件下随机变量Yu和Yv是条件独立的。
    $$P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)$$

  2. 局部马尔科夫性:
    设v∈V是G中任意一个节点,W是与v有边链接的所有节点,O是v,W以外的其他所有节点。v表示的随机变量是Yv,W表示的随机变量是Yw,O表示的随机变量是Yo。局部马尔可夫性是在给定随机变量组Yw的条件下随机变量Yv与随机变量Yo是独立的。
    $$P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)$$

  3. 全局马尔科夫性:A,B是G中被C分开的任意节点集合。全局马尔科夫性是指给定 Yc 条件下 YA 和 YB 是条件独立的,即
    $$P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)$$

上述成对的、局部的、全局的马尔可夫性的定义是等价的。

概率无向图模型:设联合概率分布P(Y),由无向图G表示,在G中,节点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足成对、局部或者全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔科夫随机场。

实际上我们更关系如何求联合概率分布,对于给定的概率无向图模型,我们希望将整体的联合概率写成若干子联合概率的乘积的形式,也就是将联合概率进行因子分解,这样便于模型的学习与计算。事实上,概率无向图的最大特点就是易于因子分解。

概率无向图的因子分解

将概率无向图模型的联合分布表示为最大团上的随机变量的函数的乘积的操作,称为概率无向图模型的因子分解。

无向图模型的因子分解(factorization) C为G上最大团,P(Y)可以写作图中所有最大团C上的函数 Ψc(Yc) 的乘积形式,即
$$P(Y)=\frac{1}{Z}\prod_c{Ψ_C(Y_C)}$$
其中,Z是归一化因子,$Z=\sum_r{\prod_c{Ψ_C(Y_C)}}$。ΨC(YC)称为势函数,通常定义为指数函数:
$$Ψ_C(Y_C)=exp\{-E(Y_C)\}$$

Hammersley-Clifford定理 概率无向图模型的联合概率分布P(Y)可以表示为:
$$P(Y)=\frac{1}{Z}\prod_c{Ψ_C(Y_C)}$$
$$Z=\sum_r{\prod_c{Ψ_C(Y_C)}}$$

条件随机场定义

条件随机场是给定随机变量X的条件下,随机变量Y的马尔科夫随机场。主要介绍定义在线性链想的线性链条件随机场(用于标注等问题)
$$P(Y_v|X,Y_w,w≠v)=P(Y_v|X,Y_w,w连v)$$

对于任何节点v都成立,成条件概率分布P(Y|X)为条件随机场。w连v表示所有与v相连的节点w,w≠v表示所有除v外的节点w。也就是说,对于点v来说,只有与它相连的点会对它产生影响。

线性链条件随机场 设 X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn)X=(X1,X2,…,Xn),Y=(Y1,Y2,…,Yn) 均为线性链表示的随机变量序列,若在给定X的条件下,Y的条件概率分布P(Y|X)构成条件随机场,即满足马尔科夫性
$$P(Y_i|X,Y_1,…,Y_{i-1},Y_{i+1},…,Y_n)=P(Y_i|X,Y_i-1,Y_i+1)$$

相当于是说,线性的模型只考虑两边的节点对它的影响,因为只有两边的节点与它相邻。

Contents
  1. 1. 概率图模型
    1. 1.1. 模型定义
    2. 1.2. 概率无向图的因子分解
  2. 2. 条件随机场定义