引言

这是统计学习方法第十一章条件随机场的阅读笔记，包含所有公式的详细推导。

条件随机场(conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。

建议先阅读概率图简介，了解一些概率图的知识。

《统计学习方法》——条件随机场(上)
《统计学习方法》——条件随机场(中)
《统计学习方法》——条件随机场(下)
《统计学习方法》——条件随机场#习题解答#

条件随机场的定义与形式

条件随机场的定义

条件随机场是给定随机变量 $X$ 条件下，随机变量 $Y$ 的马尔可夫随机场，这里主要讨论线性链(linear chain)条件随机场。线性链条件随机场用于标记问题时，条件概率模型 $P (Y ∣ X)$ 中， $Y$ 是输出变量，表示标记序列(状态序列)， $X$ 是输入变量，表示要标注的观测序列。

学习时，利用训练数据集通过极大似然估计得到条件概率模型 $\hat P(Y|X)$ ；预测时，对于给定的输入序列 $x$ ，求出条件概率 $\hat P(y|x)$ 最大的输出序列 $\hat y$ 。

定义 11.3 (条件随机场) 设 $X$ 与 $Y$ 是随机变量， $P (Y ∣ X)$ 是在给定 $X$ 的条件下 $Y$ 的条件概率分布，若随机变量 $Y$ 构成一个由无向图 $G = (V, E)$ 表示的马尔可夫随机场，即
$P(Y_v|X,Y_{w}, w \neq v) = P(Y_v|X,Y_w, w \sim v) \tag{11.8}$
对任意结点 $v$ 成立，则称条件概率分布 $P (Y ∣ X)$ 为条件随机场。式中 $\sim v$ 表示在图 $G = (V, E)$ 中与结点 $v$ 有边连接的所有结点 $w$ ， $\neq v$ 表示结点 $v$ 以外的所有结点。

定义 11.4 (线性链条件随机场) 设 $X=(X_1,X_2,\cdots,X_n),Y=(Y_1,Y_2,\cdots,Y_n)$ 均为线性链表示的随机变量序列，若在给定随机变量序列 $X$ 的条件下，随机变量序列 $Y$ 的条件概率分布 $P (Y ∣ X)$ 构成条件随机场，即满足马尔可夫性
$P(Y_i|X,Y_1,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_n) = P(Y_i|X,Y_{i-1},Y_{i+1}) \quad i=1,2,\cdots,n \tag{11.9}$
则称 $P (Y ∣ X)$ 为线性链条件随机场。

如上图，在线性链条件随机场中， $Y_i$ 只与它相邻的结点 $Y_{i-1}$ 和 $Y_{i+1}$ 以及输入变量 $X$ 有关。

在序列标注问题中， $X$ 表示输入观测序列， $Y$ 表示对应的输出标记序列或状态序列。

条件随机场的参数化形式

根据Hammersley-Clifford定理，可以给出线性链条件随机场 $P (Y ∣ X)$ 的因子分解式，各因子是定义在相邻两个结点(这里也是最大团)上的势函数。

定理 11.2 (线性链条件随机场的参数化形式) 设 $P (Y ∣ X)$ 为线性链条件随机场，则在随机变量 $X$ 取值为 $x$ 的条件下，随机变量 $Y$ 取值为 $y$ 的条件概率具有如下形式：
$KaTeX parse error: Undefined control sequence: \label at position 132: …t) \tag{11.10} \̲l̲a̲b̲e̲l̲{eq:11.10}$
其中，
$\sum_y \exp \left( \sum_{i,k} \lambda_k t_k (y_{i-1},y_i,x,i) + \sum_{i,l} \mu_ls_l(y_i,x,i) \right) \tag{11.11}$
式中， $t_k$ 和 $s_l$ 是特征函数，而 $\lambda_k$ 和 $\mu_l$ 是对应的权值， $\sum_{i,k}$ 表示两个求和写在一起。

$Z (x)$ 是规范化因子，使得满足概率定义，求和是在所有可能的输出序列上进行的。

$t_k$ 是关于边 $y_{i-1}$ 到 $y_i$ 的特征函数(最大团)，称为转移特征，依赖于当前和前一个位置； $s_l$ 是定义在结点上的特征函数，称为状态特征，依赖于当前位置。注意，在每个位置上，有 $k$ 个转移特征和 $l$ 个状态特征。

$t_k$ 和 $s_l$ 都依赖于位置 $i$ ，是局部特征函数。通常特征函数 $t_k$ 和 $s_l$ 的取值为 $1$ 或 $0$ 。当特征条件被满足时取值为 $1$ ，否则为 $0$ 。

可以看出，条件随机场完全由特征函数 $t_k,s_l$ 和对应的权值 $\lambda_k,\mu_l$ 确定。

线性链条随机场也是对数线性模型(log linear model)。

对数线性模型有这样的形式，它的对数等于模型参数的线性组合，它的通用形式为：
$\exp \left( c + \sum_i w_if_i(X) \right)$

下面看一下书中的例题1来理解一下，题目就不抄了。

例 11.1

序列长度为3，标记序列取值为1或2。有5个转移特征和4个状态特征。求标记序列 $y=(y_1,y_2,y_3) = (1,2,2)$ 的没有除以规范化因子的条件概率。

由公式 $KaTeX parse error: Undefined control sequence: \eqref at position 1: \̲e̲q̲r̲e̲f̲{eq:11.10}$ ，线性链条件随机场模型为
$\propto \exp \left[\sum_{k=1}^5 \lambda_k\sum_{i=2}^3 t_k (y_{i-1},y_i,x,i) + \sum_{k=1}^4 \mu_k\sum_{i=1}^3 s_k(y_i,x,i) \right]$
这里把公式中的两个求和拆分出来了，同时可以看到，序列长度为3，对应两条边， $\sum_{i=2} t_k$ 中的 $i$ 从 $2$ 开始，这是符合直觉的。

$\propto$ 表示正比于的关系，因为这里没有考虑规范化因子。

对于给定的观测序列 $x$ ，标记序列 $y = (1, 2, 2)$ 的非规范化条件概率为(只写出取值为1的情况)：
$\begin{aligned} P(y_1=1,y_2=2,y_3=2|x) &\propto \exp\left[ \lambda_1 t_1(1,2) + \lambda_5 t_5(2,2) + \mu_1 s_1(1) + \mu_2 s_2(2) + + \mu_4 s_4(3) \right] \\ &= \exp [1+0.2+1+0.5+0.5] \\ &= \exp(3.2) \end{aligned}$
这里 $t_1(1,2)$ 表示 $y_1=1,y_2=2$ 的情况，且 $t_1$ 支持位置 $2, 3$ 。而 $s_4$ 只支持，或者说只应用在位置 $3$ 上，且对应位置上的取值为 $2$ 才生效。

这个例子说明了特征函数是和位置密切相关的。

条件随机场的简化形式

注意到 $KaTeX parse error: Undefined control sequence: \eqref at position 1: \̲e̲q̲r̲e̲f̲{eq:11.10}$ 中同一特征在各个位置都有定义，可以对同一个特征在各个位置求和，将局部特征函数转化为一个全局特征函数，这样可以写成权值向量和特征向量的内积形式，也就是简化形式。

首先将转移特征和状态特征及其权值用统一的符号表示，设有 $K_1$ 个转移特征， $K_2$ 个状态特征， $K=K_1+K_2$ ，记
$f_k(y_{i-1},y_i,x_i) = \begin{cases} t_k(y_{i-1},y_i,x,i) & k=1,2,\cdots,K_1 \\ s_l(y_i,x,i) & k=K_1 + l;\quad l=1,2,\cdots,K_2 \end{cases} \tag{11.12}$
然后，对转移与状态特征在各个位置 $i$ 求和，记作
$f_k(y,x) = \sum_{i=1}^n f_k(y_{i-1},y_i,x,i),\quad k=1,2,\cdots,K \tag{11.13}$
若把 $f_k(y,x)$ 展开，为
$\begin{aligned} f_k(y,x) &= \sum_{i=1}^n f_k(y_{i-1},y_i,x,i) \\ &= f_k(y_0,y_1,x,1) + f_k(y_1,y_2,x,2) + \cdots + f_k(y_{n-1},y_n,x,n) \end{aligned}$
共有 $K$ 个。

用 $w_k$ 表示特征 $f_k(y,x)$ 的权值，即
$w_k = \begin{cases} \lambda_k & k=1,2,\cdots,K_1 \\ \mu_l & k=K_1 + l;\quad l=1,2,\cdots,K_2 \end{cases} \tag{11.14}$
$w_k$ 也有 $K$ 个。

于是，条件随机场 $(11.10)\sim (11.11)$ 可以表示为

$\frac{1}{Z(x)} \exp \sum_{k=1}^K w_k f_k(y,x) \tag{11.15}$

$\sum_y \exp \sum_{k=1}^K w_k f_k(y,x) \tag{11.16}$

其中 $P (y ∣ x)$

$\begin{aligned} P(y|x) &= \frac{1}{Z(x)} \exp ( \lambda_1 f_1(y,x) + \lambda_2 f_2(y,x) + \cdots + \lambda_{K_1} f_{K_1}(y,x) + \mu_1 f_{K_1+1}(y,x) + \mu_2 f_{K_1+2}(y,x) + \cdots + \mu_{K_2} f_{K_1+K_2}(y,x) ) \\ &= \frac{1}{Z(x)} \exp (w_1 f_1(y,x) +w_2 f_2(y,x) + \cdots + w_K f_{K}(y,x)) \end{aligned}$

若以 $w$ 表示权值向量，即
$(w_1,w_2,\cdots,w_K)^T \tag{11.17}$
以 $F (y, x)$ 表示全局特征向量，即
$(f_1(y,x),f_2(y,x),\cdots,f_K(y,x))^T \tag{11.18}$
那么条件随机场可以写成向量 $w$ 与 $F (y, x)$ 的内积的形式：
$P_w(y|x) = \frac{\exp(w \cdot F(y,x))}{Z_w(x)} \tag{11.19}$
其中，
$Z_w(x) = \sum_y \exp(w \cdot F(y,x)) \tag{11.20}$

条件随机场的矩阵形式

CRF还可以由矩阵表示。假设 $P_w(y|x)$ 是由式 $(11.15)\sim(11.16)$ 给出的线性链条件随机场。对每个标记序列引进特殊的起点和终点状态标记 $y_0=\text{start}$ 和 $y_{n+1}=\text{stop}$ ，这时标注序列的概率 $P_w(y|x)$ 可以通过矩阵形式表示并有效计算。

对观测序列 $x$ 的每一个位置 $i=1,2,\cdots,n+1$ ，由于 $y_{i-1}$ 和 $y_i$ 在 $m$ 个标记中取值，所以 $y_{i-1}$ 有 $m$ 种可能， $y_i$ 也有 $m$ 种可能， $y_{i-1}$ 到 $y_i$ 可以定义一个 $m$ 阶矩阵( $\times m$ )随机变量
$M_i(x) = [M_i(y_{i-1},y_i|x)] \tag{11.21}$
矩阵随机变量的元素为
$M_i(y_{i-1},y_i|x) = \exp(W_i(y_{i-1},y_i|x)) \tag{11.22}$
而
$W_i(y_{i-1},y_i|x) = \sum_{k=1}^K w_kf_k(y_{i-1},y_i,x,i) \tag{11.23}$
这里 $w_k$ 和 $f_k$ 利用了前面 $(11.14)$ 和 $(11.12)$ 中的定义； $y_{i-1}$ 和 $y_i$ 是标记随机变量 $Y_{i-1}$ 和 $Y_i$ 的取值。

注意，式 $(11.23)$ 是对 $k$ 求和，即在每个位置上应用所有的转移特征和状态特征。

这里，引入 $y_0 =\text{start}$ 和 $y_{n+1}=\text{stop}$ 来表示开始状态和终止状态。那么 $i$ 的取值就可以从 $0$ 到 $n + 1$ 。

由公式 $(11.15)$ 和式 $(11.13)$ ，有：
$\begin{aligned} P(y|x) &= \frac{1}{Z(x)} \exp \sum_{k=1}^K w_k f_k(y,x) & 根据公式(11.15)\\ &= \frac{1}{Z(x)} \exp \left(\sum_{k=1}^K w_k \sum_{i=1}^{n+1} f_k(y_{i-1},y_i,x,i) \right) & 根据公式(11.13)\\ &= \frac{1}{Z(x)} \exp \left(\sum_{i=1}^{n+1} \sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i) \right) & 先对k求和再对i求和\\ &= \frac{1}{Z(x)} \prod_{i=1}^{n+1} \exp \left(\sum_{k=1}^K w_k f_k(y_{i-1},y_i,x,i) \right) \\ &= \frac{1}{Z(x)} \prod_{i=1}^{n+1} \exp \left( W_i(y_{i-1},y_i|x) \right) & 根据公式(11.23) \\ &= \frac{1}{Z(x)} \prod_{i=1}^{n+1} M_i(y_{i-1},y_i|x) & 根据公式(11.22) \\ \end{aligned}$
这样条件概率 $P_w(y|x)$ 是
$P_w(y|x) = \frac{1}{Z_w(x)} \prod_{i=1}^{n+1} M_i(y_{i-1},y_i|x) \tag{11.24}$
其中 $Z_w(x)$ 是规范化因子
$Z_w(x) = \sum_y \prod_{i=1}^{n+1} M_i(y_{i-1},y_i|x)$
把上式整理一下：
$Z_w(x) = [M_1(x)M_2(x)\cdots M_{n+1}(x)]_{\text{start,stop}} \tag{11.25}$
是以start为起点stop为终点通过状态的所有路径 $y_1y_2\cdots y_n$ 的非规范化概率之 $\prod_{i=1}^{n+1} M_i(y_{i-1},y_i|x)$ 之和。

设 $y_i(i=0,1,2,\cdots n+1)$ 共有 $m$ 种取值。

我们先来看下 $M_i(x) = [M_i(y_{i-1},y_i|x)]$ 这个矩阵的内容：

| $M_i(y_{i-1}, y_i|x_i)$ | $y_i=1$ | $y_i=2$ | $y_i=3$ | $\cdots$ | $y_i=m$ |
| ----------------------- | ------------------------ | ------------------------ | ------------------------ | -------- | ------------------------ |
| $y_{i-1}=1$ | $M_i(y_{i-1}=1,y_i=1|x)$ | $M_i(y_{i-1}=1,y_i=2|x)$ | $M_i(y_{i-1}=1,y_i=3|x)$ | $\cdots$ | $M_i(y_{i-1}=1,y_i=m|x)$ |
| $y_{i-1}=2$ | $M_i(y_{i-1}=2,y_i=1|x)$ | $M_i(y_{i-1}=2,y_i=2|x)$ | $M_i(y_{i-1}=2,y_i=3|x)$ | $\cdots$ | $M_i(y_{i-1}=2,y_i=m|x)$ |
| $y_{i-1}=3$ | $M_i(y_{i-1}=3,y_i=1|x)$ | $M_i(y_{i-1}=3,y_i=2|x)$ | $M_i(y_{i-1}=3,y_i=3|x)$ | | $M_i(y_{i-1}=3,y_i=m|x)$ |
| $\vdots$ | $\vdots$ | $\vdots$ | $\ddots$ | $\ddots$ | $\ddots$ |
| $y_{i-1}=m$ | $M_i(y_{i-1}=m,y_i=1|x)$ | $M_i(y_{i-1}=m,y_i=2|x)$ | $M_i(y_{i-1}=m,y_i=3|x)$ | | $M_i(y_{i-1}=m,y_i=m|x)$ |

$Z_w(x)$ 是 $n + 1$ 个矩阵的乘积的(start,stop)元素，这个如何理解，需要结合书上的例11.2。

例 11.2 给定一个线性链条件随机场，观测序列 $x$ ，状态序列 $y$ ， $i = 1, 2, 3$ ， $n = 3$ ，标记 $y_i \in \{1,2\}$ ，假设 $y_0 =\text{start}=1$ ， $y_4=\text{stop}=1$ ，各个位置的随机矩阵 $M_1(x),M_2(x),M_3(x),M_4(x)$ 分别是

试求状态序列 $y$ 以 $\text{start}$ 为起点 $\text{stop}$ 为终点所有路径的非规范化概率及规范化因子。

解这个问题中 $m = 2$ ，所有 $M_i(x)$ 是 $\times 2$ 的矩阵，且上面都给出了这几个矩阵。该例题对应的状态路径如上图所示，把随机矩阵内的元素标记上去就能更好的理解：

注意这个是状态路径，不是概率图。

然后尝试按照公式 $(11.25)$ 求规范化因子。通过计算这几个矩阵的乘积：
$\begin{aligned} M_1(x)M_2(x)M_3(x)M_4(x) &= \begin{bmatrix} a_{01} & a_{02}\\ 0 & 0 \end{bmatrix} \begin{bmatrix} b_{11} & b_{12}\\ b_{21} & b_{22} \end{bmatrix}M_3(x)M_4(x) \\ &= \begin{bmatrix} a_{01}b_{11}+a_{02}b_{21} & a_{01}b_{12}+a_{02}b_{22}\\ 0 & 0 \end{bmatrix}M_3(x)M_4(x) \\ &= \begin{bmatrix} a_{01}b_{11}+a_{02}b_{21} & a_{01}b_{12}+a_{02}b_{22}\\ 0 & 0 \end{bmatrix}\begin{bmatrix} c_{11} & c_{12}\\ c_{21} & c_{22} \end{bmatrix}M_4(x) \\ &= \begin{bmatrix} (a_{01}b_{11}+a_{02}b_{21})c_{11} +(a_{01}b_{12}+a_{02}b_{22})c_{21} & (a_{01}b_{11}+a_{02}b_{21})c_{12} +(a_{01}b_{12}+a_{02}b_{22})c_{22}\\ 0 & 0 \end{bmatrix} \begin{bmatrix} 1& 0\\ 1 & 0 \end{bmatrix} \\ &= \begin{bmatrix} (a_{01}b_{11}+a_{02}b_{21})c_{11} +(a_{01}b_{12}+a_{02}b_{22})c_{21} + (a_{01}b_{11}+a_{02}b_{21})c_{12} +(a_{01}b_{12}+a_{02}b_{22})c_{22} & 0\\ 0 & 0 \end{bmatrix} \end{aligned}$
可以看到，最后得到的仍然是一个 $2\times 2$ 的矩阵，且只有第1行第1列元素不为零，其他位置元素都为零。