统计学习方法条件随机场

文章目录

统计学习方法条件随机场
- 随机场
- 马尔可夫随机场
- - 定义
  - 因子分解
- 条件随机场
- - 定义
  - 参数化形式
  - 简化形式
  - 矩阵形式
- 概率预测问题
- - 前向-后向算法
  - 概率的计算
  - 期望值的计算
- 学习问题
- - 改进的迭代尺度法
  - 拟牛顿法
- 解码问题

统计学习方法条件随机场

学习李航的《统计学习方法》时，关于条件随机场的笔记。

条件随机场（conditional random filed, CRF）也是一个条件概率分布模型，即给定一组输入随机变量条件下另一组输出随机变量的条件概率分布，其特点是假设输出随机变量构成马尔可夫随机场。

这里仅仅讨论 CRF 在标注问题上的应用，因此主要讲述线性链条件随机场。此时模型形式为对数线性模型，其学习方法通常是极大似然估计或正则化的极大似然估计。

随机场

随机场：随机场是由若干个位置组成的整体，当给每一个位置中按照某种联合分布 $P (Y)$ 随机赋予一个值之后，其全体就叫做随机场。例如，我们有一个十个词形成的句子需要做词性标注，这十个词每个词的词性可以在我们已知的词性集合（名词，动词等）中去选择,当我们为每个词选择完词性后，这就形成了一个随机场）。

马尔可夫随机场

马尔可夫随机场，也称概率无向图模型，是以无向图的形式表示联合概率分布。

马尔科夫随机场是随机场的特例，它假设随机场中某一个位置的赋值仅仅与和它相邻的位置的赋值有关，与其不相邻的位置的赋值无关。例如，我们假设所有词的词性只和它相邻的词的词性有关时，这个随机场就特化成一个马尔科夫随机场。

定义

概率无向图模型：设有联合概率分布 $P (Y)$ （ $Y\in\mathcal{Y}$ 是一组随机变量），由无向图 $G = (V, E)$ 表示。在图 $G$ 中，节点表示随机变量，边表示随机变量之间的依赖关系。如果联合概率分布 $P (Y)$ 满足成对、局部或全局马尔可夫性，则称此联合概率分布 $P (Y)$ 为概率无向图模型（或马尔可夫随机场）。

成对马尔可夫性：设 $u$ 和 $v$ 是无向图 $G$ 中任意两个没有边连接的节点，其分别对应随机变量 $Y_u$ 和 $Y_v$ ，其他所有节点为 $O$ ，对应的随机变量组为 $Y_O$ 。成对马尔可夫性是指给定 $Y_O$ 的条件下 $Y_u$ 和 $Y_v$ 是条件独立的，即：
$P(Y_u,Y_v|Y_O)=P(Y_u|Y_O)P(Y_v|Y_O)$
局部马尔可夫性：设节点 $v\in V$ ， $W$ 是与 $v$ 有边连接的所有节点， $O$ 是除 $v$ 和 $W$ 外的所有节点。局部马尔可夫性是指在给定 $Y_W$ 的条件下 $Y_v$ 与 $Y_O$ 是独立的，即：
$P(Y_v,Y_O|Y_W)=P(Y_v|Y_W)P(Y_O|Y_W)$
当 $P(Y_O|Y_W)\gt 0$ 时，也可以表示为（这样比较像 Markov 性）：
$P(Y_v|Y_O,Y_W)=P(Y_v|Y_W)$
请添加图片描述

全局马尔可夫性：设节点集合 $A$ ， $B$ 时在无向图中被节点集合 $C$ 分开的任意节点集合（即删去 $C$ 后， $A$ 和 $B$ 不连通）。全局马尔可夫性是指给定 $Y_C$ 条件下 $Y_A$ 和 $Y_B$ 是条件独立的，即：
$P(Y_A,Y_B|Y_C)=P(Y_A|Y_C)P(Y_B|Y_C)$

请添加图片描述

上述成对、局部、全局的马尔可夫性的定义是等价的。

因子分解

最大团：若 $C$ 是无向图 $G$ 的一个团，并且不能再加入任何一个 $G$ 的节点使其成为一个更大的团，则称此 $C$ 为最大团。注意， $G$ 中的最大团往往不止一个，并不是最大团中的最大团才叫做最大团。

因子分解：将概率无向图的联合概率分布 $P (Y)$ 表示为其最大团上的随机变量的函数的乘积形式的操作，称为概率无向图模型的因子分解。由以下定理来保证：

Hammersley-Clifford 定理：概率无向图的联合概率分布 $P (Y)$ 可以表示为如下形式：对于所有最大图 $C$ ， $Y_C$ 为某一最大图对应的随机变量序列，则：
$P(Y)=\frac{1}{Z}\prod_{C}\Psi_C(Y_C)$
其中 $Z$ 是规范化因子，为：
$Z=\sum\limits_{Y}\prod_{C}\Psi_C(Y_C)$
规范化因子保证 $P (Y)$ 构成一个概率分布（对 $Y$ 的和为 1）。函数 $\Psi_C(Y_C)$ 称为势函数（potential function），要求势函数严格正，通常定义为指数函数：
$\Psi_C(Y_C)=\mathrm{e}^{-E[Y_C]}$

条件随机场

有 $X$ 和 $Y$ 两种随机变量， $X$ 一般是给定的，而 $Y$ 则是在给定 $X$ 的条件下的输出（在十个词的句子词性标注的例子中， $X$ 是词， $Y$ 是词性）。若 $Y$ 形成马尔可夫随机场，则条件概率分布 $P (X ∣ Y)$ 形成条件随机场。

这里主要介绍定义在线性链上的 CRF，可用于标注等问题。此时 $Y$ 是输出变量，表示标记序列，也称为状态序列； $X$ 是输入变量，表示要标注的观测序列。

学习时，利用训练集，通过极大似然估计或正则化的极大似然估计得到条件概率模型 $\hat P(Y|X)$ ;
预测时，对于给定的输入序列 $x$ ，求出条件概率 $\hat P(y|x)$ 最大的输出序列 $\hat y$ ；

定义

条件随机场：设 $X$ 与 $Y$ 是随机变量， $P (Y ∣ X)$ 是在给定 $X$ 的条件下 $Y$ 的条件概率分布。若随机变量 $Y$ 构成一个无向图 $G = (V, E)$ 表示的马尔可夫随机场，即：
$P(Y_v|X,Y_w,w\not=v)=P(Y_v|X,Y_w,w\sim v)$
对任意节点 $v$ 成立，则条件概率分布 $P (Y ∣ X)$ 为条件随机场。其中 $w\sim v$ 表示 $G$ 中与节点 $v$ 有边连接的节点。

本书考虑的无向图为线性链的情况，即：
$G=(V=\set{1,2,\cdots,n},\,\,E=\set{(i,i+1)|i=1,2,\cdots,n})$
请添加图片描述

一般假设 $X$ 和 $Y$ 有相同的图结构， $X=(X_1,X_2,\cdots,X_n)$ ， $Y=(Y_1,Y_2,\cdots,Y_n)$ ，此时最大团为相邻两个节点的集合：

请添加图片描述

线性链条件随机场：设 $X=(X_1,X_2,\cdots,X_n)$ ， $Y=(Y_1,Y_2,\cdots,Y_n)$ 均为线性链表示的随机变量序列，若在给定随机变量序列 $X$ 的条件下，随机变量序列 $Y$ 的条件概率分布 $P (Y ∣ X)$ 构成条件随机场，即满足马尔可夫性：
$P(Y_i|X,Y_1,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_n)=P(Y_i|X,Y_{i-1},Y_{i+1}) \\ i=1,2,\cdots,n \quad (i=1\text{ 或 }n\text{时只考虑单边})$
则称 $P (Y ∣ X)$ 为线性条件随机场。在标注问题中， $X$ 表述输入观测序列， $Y$ 表示对应的输出标记序列或状态序列。

参数化形式

线性链条件随机场是对数线性模型。逻辑回归和最大熵模型也是对数线性模型，参考之前的笔记，可以理解下面的公式和特征函数：

线性链条件随机场的参数化形式： $P (Y ∣ X)$ 具有以下形式：
$P(y|x)=\frac{1}{Z(x)}\exp \left( \sum\limits_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum\limits_{i,l}\mu_ls_l(y_i,x,i) \right)$
其中：
$Z(x)=\sum\limits_{y}\exp\left( \sum\limits_{i,k}\lambda_kt_k(y_{i-1},y_i,x,i)+\sum\limits_{i,l}\mu_ls_l(y_i,x,i) \right)$

$t_k$ 和 $s_l$ 是特征函数， $\lambda_k$ 和 $\mu_l$ 是对应的权值； $t_k$ 是定义在边上的特征，称为转移特征； $s_l$ 是定义在节点上的特征，称为状态特征；
$Z (x)$ 是规范化因子，求和是在所有可能的输出序列上进行的；
特征函数参数中的 ’ $i$ ’ 代表一个集合，即某个特征函数既可以描述某个位置的特征，也可以同时描述多个位置的特征；
CRF 的参数即权重 $w$ ；学习时，给定训练集和特征函数，我们要学习出最佳的权重 $w$ ；

例：（从这个例子学习一下什么是特征）设有一个标注问题，输入观测序列为 $X=(X_1,X_2,X_3)$ ，输出标记序列为 $Y=(Y_1,Y_2,Y_3)$ ，其中 $Y_i\in \mathcal{Y}=\set{1,2}$ 。假设特征有：
$t_1=t_1(y_{i-1}=1,y_i=2,x,i),\quad i=2,3, \quad \lambda_1=1$
即：
$t_1(y_{i-1},y_i,x,i)=\left\{ \begin{array}{ll} 1, & y_{i-1}=1,y_i=2,\forall x,i=2,3 \\ 0, & \text{else} \end{array} \right.$
还有其他特征：
$\begin{aligned} t_2=&\,t_2(y_1=1,y_2=1,x,2) & \lambda_2=0.6 \\ t_3=&\,t_3(y_2=2,y_3=1,x,3) & \lambda_3=1 \\ \cdots \\ s_1=&\,s_1(y_1=1,x,1) & \mu_1=1 \\ s_2=&\,s_2(y_i=2,x,i),i=1,2 & \mu_2=0.5 \\ \cdots \end{aligned}$

简化形式

我们简化特征函数，首先将转移特征和状态特征及其权值用统一的符号表示。设有 $K_1$ 个转移特征， $K_2$ 个状态特征， $K=K_1+K_2$ ，记：
$f_k(y_{i-1},y_{i},x,i)=\left\{ \begin{array}{ll} t_k(y_{i-1},y_i,x,i), & k=1,2,\cdots,K_1 \\ s_l(y_i,x,i), & k=K_1+l; \,l=1,2,\cdots,K_2 \end{array} \right.$
然后，对特征在各个位置 $i$ 求和（将特征函数的计算有效地归纳到整个序列上，从而减少了计算的复杂度）：
$f_k(y,x)=\sum\limits_{i=1}^{n}f_k(y_{i-1},y_i,x,i), \quad k=1,2,\cdots,K$
用 $w_k$ 表示特征 $f_k(y,x)$ 的权值，即：
$w_k=\left\{ \begin{array}{ll} \lambda_k, & k=1,2,\cdots,K_1 \\ \mu_l, & k=K_1+l;\, l=1,2,\cdots,K_2 \end{array} \right.$
于是，条件随机场可以表示为：
$\begin{aligned} P(y|x)=&\, \frac{1}{Z(x)}\exp\sum\limits_{k=1}^{K}w_kf_k(y,x) \\ Z(x)=&\, \sum\limits_{y}\exp\sum\limits_{k=1}^{K}w_kf_k(y,x) \\ \end{aligned}$
也可以写成向量内积的形式：
$\begin{aligned} P_w(y|x)=&\, \frac{\exp{(w\cdot F(y,x))}}{Z_w(x)} \\ Z(x)=&\, \sum\limits_{y}\exp(w\cdot F(y,x)) \end{aligned}$
其中 $w=(w_1,w_2,\cdots,w_K)^\mathrm{T}$ ， $F(y,x)=(f_1(x,y),f_2(x,y),\cdots,f_K(x,y))^\mathrm{T}$ ；

矩阵形式

对每个标记序列，引入额外的起点和终点状态标记 $y_0=\text{start}$ 和 $y_{n+1}=\text{stop}$ ，有 $\text{start},\,\text{stop}\in\mathcal{Y}$ ；

对观测序列 $x$ 的每一个位置 $i=1,2,\cdots,n+1$ ，定义一个 $m$ 阶矩阵随机变量：
$M_i(x)=[M_i(y_{i-1},y_i|x)]$
矩阵随机变量的元素为：（即所有特征函数在该位置的权重之和的指数）
$M_i(y_{i-1},y_{i}|x)=\exp\left(\sum\limits_{k=1}^{K}w_kf_k(y_{i-1},y_i,x,i)\right)$
这里并未规范化，但是也可以看作是转移概率。因此给定观测序列 $x$ ，相应标记序列 $y$ 的非规范化概率可以通过矩阵的乘积表示；则条件概率为规范化后的矩阵乘积：
$P_w(y|x)=\frac{1}{Z_w(x)}\prod_{i=1}^{n+1}M_{i}(y_{i-1},y_i|x)$
其中， $Z_w(x)$ 为规范化因子，是以 start 为起点 stop 为终点通过状态的所有路径 $y_1y_2\cdots y_n$ 的非规范化概率 $\prod\limits_{i=1}^{n+1}M_{i}(y_{i-1},y_i|x)$ 之和，即所有矩阵的乘积的第 $\text{start}$ 行 $\text{stop}$ 列元素：
$Z_w(x)=[M_1(x)M_2(x)\cdots M_{n+1}(x)]_{\text{start,stop}}$

概率预测问题

CRF 的概率预测问题即给定 $P (Y ∣ X)$ ，输入序列 $x$ 和输出序列 $y$ ，计算条件概率 $P(Y_i=y_i|x)$ ， $P(Y_{i-1}=y_{i-1},Y_{i}=y_i|x)$ 以及特征函数的数学期望的问题。计算方法和 HMM 类似，也需要前向和后向变量，递归地求解以上问题。

概率预测问题使用矩阵形式的 CRF；

前向-后向算法

对每个下标 $i=0,1,\cdots,n+1$ ，定义前向向量 $\alpha_i(x)$ ；每个 $\alpha_i(x)$ 都是一个向量，其下标分别对应 $Y$ 某个可能的取值； $Y$ 的取值有 $m$ 个，因此 $\alpha_i(x)$ 是 $m$ 维列向量。其中：
$\alpha_0(y|x)=\left\{ \begin{array}{ll} 1, & y=\text{start} \\ 0, & \text{else} \end{array} \right.$
递推公式为：（因为定义 $M$ 行下标为前一状态，列下标为下一状态，所以 $\alpha$ 就变得麻烦，要取转置）
$\alpha^{T}_i(x)=\alpha^{T}_{i-1}(x)M_i(x)$
$\alpha_{i}(y_i|x)$ 表示到位置 $i$ 的标记为 $y_i$ 的非规范化概率。

同样地，定义后向向量 $\beta_i(x)$ ：
$\beta_{n+1}(y|x)=\left\{ \begin{array}{ll} 1, & y=\text{stop} \\ 0, & \text{else} \end{array} \right.$
递推公式为：
$\beta_i(x)=M_{i+1}(x)\beta_{i+1}(x)$
$\beta_{i}(y_i|x)$ 表示从后往前到位置 $i$ 的标记为 $y_i$ 的非规范化概率。

概率的计算

经过点的概率：在位置 $i$ 为标记 $y_i$ 的条件概率为：
$P(Y_i=y_i|x)=\frac{\alpha_i^T(y_i|x)\beta_{i}(y_i|x)}{Z(x)}$
经过边的概率：在位置 $i - 1$ 和位置 $i$ 是标记 $y_{i-1}$ 和 $y_i$ 的概率为：
$P(Y_{i-1}=y_{i-1},Y_i=y_i|x)=\frac{\alpha_{i=1}^{T}(y_{i-1}|x)M(y_{i-1},y_{i}|x)\beta_i(y_i|x)}{Z(x)}$
其中规范因子可以用新的方法计算：
$Z(x)=\alpha_n^T(x)\bold{1}=\bold{1}\beta_{1(x)}$

期望值的计算

特征函数 $f_k$ 关于条件分布 $P (Y ∣ X)$ 的数学期望是（相当于给定 $x$ 的期望）：
$$
\begin{aligned}
E_{P(Y|X)}[f_k]
=&,\sum\limits_{y}P(y|x)f_k(y,x) \
=&,\sum\limits_{i=1}^{{n+1}\sum\limits_{y_{i-1},y_i}f_k(y_{i-1},y_i,x,i)\frac{\alpha_{i=1}}{T}(y_{i-1}|x)M(y_{i-1},y_{i}|x)\beta_i(y_i|x)}{Z(x)} \
&, k=1,2,\cdots,K

\end{aligned}
$KaTeX parse error: Can't use function '$' in math mode at position 10: 假设经验分布为 $̲\tilde P(X)$ ，特…$
\begin{aligned}
E_{P(X,Y)}[f_k]
=&,\sum\limits_{x,y}P(x,y)\sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i) \
=&, \sum\limits_{x}\tilde P(x) \sum\limits_{y}P(y|x)\sum\limits_{i=1}^{n+1}f_k(y_{i-1},y_i,x,i) \
=&,\sum\limits_{x}\tilde P(x)
\sum\limits_{i=1}^{{n+1}\sum\limits_{y_{i-1},y_i}f_k(y_{i-1},y_i,x,i)\frac{\alpha_{i=1}}{T}(y_{i-1}|x)M(y_{i-1},y_{i}|x)\beta_i(y_i|x)}{Z(x)} \
&, k=1,2,\cdots,K

\end{aligned}
$$
这两个期望是 $\in[0,1]$ 的，因为如果该特征函数的 $i$ 有多个取值，则需要对所有位置求平均。

特征函数的期望是用在 CRF 的学习问题中的，因为学习的目的是要让学习到的模型尽可能反映训练集的特征，二者对于特征函数的期望要尽可能相等。

学习问题

CRF 实际上是定义在时序数据上的对数线性模型，其学习问题主要是学习 $P (y ∣ x)$ ，学习方法常有极大似然估计和正则化的极大似然估计。具体的优化算法有 IIS、梯度下降法及拟牛顿法。

学习问题使用参数形式的 CRF（因为就是要学习参数）

改进的迭代尺度法

IIS 可以理解为，不断更新参数，从而使得学习到的模型尽可能反映数据集的特征，即二者特征的总数尽可能相等。

CRF 的 IIS 推导：已知训练集，则可知经验概率分布 $\tilde P(X,Y)$ ； IIS 通过极大化训练数据的对数似然函数来求模型参数。训练数据的对数似然函数为（该似然函数的推导过程可以参考最大熵的笔记）：
$L(w)=L_{\tilde P}(P_w)=\log \prod_{x,y}P_w(y|x)^{\tilde P(x,y)}=\sum\limits_{x,y}\tilde P(x,y)\log P_w(y|x)$
带入 CRF 的参数形式可以得到：
$$
\begin{aligned}
L(w)
=&,\sum\limits_{x,y}\tilde P(x,y)\log P_w(y|x) \
=&,\sum\limits_{x,y} \left[ \tilde P(x,y)\sum\limits_{k=1}^{K}w_kf_k(y,x)

\tilde P(x,y)\log Z_w(x) \right] \
=&, \frac{1}{N} \left( \sum\limits_{j=1}^{{N}\sum\limits_{k=1}}{K}w_kf_k(y_j,x_j)-\sum\limits_{j=1}^{N}\log Z_w(x_j) \right)
\end{aligned}
$$
第三个等号中，考虑以下经验概率分布的定义： $\tilde P(x,y)=\frac{v(x,y)}{N}$ ，即 $(x, y)$ 出现的频数，所以我们直接将频数拆开；

训练集大小 $N$ 与优化无关，因此直接将对数似然函数写作：
$L(w)=\sum\limits_{j=1}^{N}\sum\limits_{k=1}^{K}w_kf_k(y_j,x_j)-\sum\limits_{j=1}^{N}\log Z_w(x_j)$
IIS 通过迭代的方法不断优化对数似然函数该变量的下界，达到极大化对数似然函数的目的。假设模型的当前参数为 $w=(w_1,w_2.\cdots,w_K)^T$ ，增量为 $\delta=(\delta_1,\delta_2,\cdots,\delta_K)^T$ ，更新参数向量为：
$w+\delta=(w_1+\delta_1,w_2+\delta_2,\cdots,w_K+\delta_K)$
IIS 依次求解两个方程得到 $\delta$ （推导过程参考逻辑回归和最大熵的笔记）；

转移特征 $t_k$ 在经验概率下的期望为：
$\begin{aligned} E_{\tilde P}[t_k] =&\, \sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i) \\ =&\, \sum\limits_{x,y}\tilde P(x)P(y|x)\sum\limits_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i) \exp(\delta_kT(x,y)) \\ &\, k=1,2,\cdots,K_1 \end{aligned}$
状态特征 $s_l$ 在经验概率下的期望为：
$\begin{aligned} E_{\tilde P}[s_l] =&\, \sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n+1}s_l(y_i,x,i) \\ =&\, \sum\limits_{x,y}\tilde P(x)P(y|x)\sum\limits_{i=1}^{n+1}s_l(y_i,x,i) \exp(\delta_{K_1+l}T(x,y)) \\ &\, l=1,2,\cdots,K_2 \end{aligned}$
这里， $T (x, y)$ 是在数据 $(x, y)$ 中出现所有特征的总和：
$T(x,y)=\sum\limits_{k}f_k(y,x)=\sum\limits_{k=1}^{K}\sum\limits_{i=1}^{n+1}f_k(y_{i-1}y_i,x,i)$
算法：条件随机场模型学习的改进的迭代尺度法

输入：特征函数 $t_1,\,t_2,\,\cdots,\,t_{K_1}$ ， $s_1,\,s_2,\,\cdots,\,s_{K_2}$ ；训练集 $T$ 和对应的经验分布 $\tilde P(x,y)$
输出：参数估计 $\hat w$ ；模型 $P_{\hat w}$ ；

对所有 $k\in \set{1,2,\cdots,K}$ ，取初值为 $w_k=0$ ；
求出 $\delta_k$ ， $k=1,2,\cdots,K$ ：
1. 当 $1\leq k \leq K_1$ ，即对于转移特征的参数变化量， $\delta_k$ 为以下方程的解：
$\sum\limits_{x,y}\tilde P(x)P(y|x)\sum\limits_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i)\exp (\delta_kT(x,y))=E_{\tilde P}[t_k]$
1. 当 $k=K_1+l,\,1\leq l \leq K_2$ ，即对于状态特征的参数变化量， $\delta_{K_1+l}$ 为以下方程的解：
$\sum\limits_{x,y}\tilde P(x)P(y|x)\sum\limits_{i=1}^{n+1}s_l(y_i,x,i)\exp (\delta_{K_1+l}T(x,y))=E_{\tilde P}[s_k]$
更新 $w_k$ 值： $w_k \leftarrow w_k+\delta_k$ ；
如果不是所有的 $w_k$ 收敛，则重复算法；

算法 S：由于 $T (x, y)$ 表示某个数据 $(x, y)$ 中的特征总数，难以计算，我们可以定义一个松弛特征 $S$ ， $S$ 是一个足够大的常数，使得：
$\geq \max_{x,y}\sum\limits_{i=1}^{n+1}\sum\limits_{k=1}^{K}f_k(y_{i-1},y_i,x,i)$
则每次更新参数时可以将 $S$ 作为特征总数。

此时，对于转移特征 $t_k$ ， $\delta_k$ 的更新方程为：
$\sum\limits_{x,y}\tilde P(x)P(y|x)\sum\limits_{i=1}^{n+1}t_k(y_{i-1},y_i,x,i)\exp (\delta_kS)=E_{\tilde P}[t_k] \\ \Rightarrow \delta_k=\frac{1}{S}\log \frac{E_{\tilde P}[t_k]}{E_P[t_k]}$
对于状态特征 $s_l$ ， $\delta_k$ 的更新方程为：
$\sum\limits_{x,y}\tilde P(x)P(y|x)\sum\limits_{i=1}^{n+1}s_l(y_i,x,i)\exp (\delta_kS)=E_{\tilde P}[s_l] \\ \Rightarrow \delta_k=\frac{1}{S}\log \frac{E_{\tilde P}[s_l]}{E_P[s_l]}$
其中 $E_P[t_k]$ 和 $E_P[s_l]$ 的计算参考前面的概率计算问题。

算法 T ：算法 S 中一次性选了一个很大的 S，会使得每次迭代时 $\delta$ 都变大，算法收敛速度则会变慢。算法 T 则在 $T (x, y)$ 和 $S$ 中折中选择了一个值：
$T(x)=\max_{y}T(x,y)$
（后面什么 $T (x) = t$ 的没看懂是什么意思，也不知道为什么说 $T (x)$ 很容易计算）

拟牛顿法

CRF 的拟牛顿法推导：参考牛顿法和拟牛顿法的笔记。对于 CRF 的参数形式：（我们这里假设特征有 $n$ 个，虽然前面都是假设特征有 $K$ 个，但是牛顿法中 $k$ 往往代表迭代的次数）：
$\begin{aligned} P(y|x)=&\, \frac{\exp\sum\limits_{i=1}^{n}w_if_i(y,x)} {\sum\limits_{y}\exp\sum\limits_{i=1}^{n}w_if_i(y,x)} \\ \end{aligned}$
目标函数为对数似然函数，但牛顿法求的是极小值问题，因此取个负号。学习的优化目标函数是：
$\begin{aligned} \min\limits_{w\in\R^n} f(w)=&\,-L(w) \\ =&\,\sum\limits_{x}\tilde P(x)\log \sum\limits_{y}\exp \left( \sum\limits_{i=1}^{n}w_if_i(x,y)\right)-\sum\limits_{x,y}\tilde P(x,y)\sum\limits_{i=1}^{n}w_if_i(x,y) \end{aligned}$
其梯度函数为：
$g(w_i)=\sum\limits_{x,y}\tilde P(x)P_w(y|x)f_i(x,y)-E_{\tilde P}(f_i)$
这个梯度其实就是模型的概率分布下和经验概率分布下第 $i$ 个特征的期望之差；当梯度足够小时，我们就认为模型学习到了训练数据的特征。

算法：条件随机场模型学习的 BFGS 算法

输入：特征函数 $f_1$ ， $f_2$ ， $\cdots$ ， $f_n$ ，经验分布 $\tilde P(X,Y)$ ，精度 $\varepsilon$ ；
输出：最优参数值 $\hat w$ ，最优模型 $P_{\hat w}(Y|X)$ ；

选定初始点 $w^{(0)}$ ，取 $B_0$ 为正定矩阵，置 $k = 0$ ；
计算 $g_k=g(w^{(k)})$ ，若 $\|g_k\|\lt \varepsilon$ ，则停止计算，返回参数值 $\hat w=w^{(k)}$ 和最优模型 $P_{\hat w}(Y|X)$ ；
由 $B_kp_k=-g_k$ 求得 $p_k$ ；
一维搜索：求 $\lambda_k$ 使得：

$f(w^{(k)}+\lambda_kp_k)=\min\limits_{\lambda \geq 0} f(w^{(k)}+\lambda p_k)$

更新 $w^{(k+1)}=w^{(k)}+\lambda_kp_k$ ；更新 $B_{k+1}$ ：

$B_{k+1}=B_k+\frac{y_ky_k^{\mathrm{T}}}{y_k^{\mathrm{T}}\delta_k}-\frac{B_k\delta_k\delta_k^{\mathrm{T}}B_k}{\delta_k^{\mathrm{T}}B_k\delta_k}$

置 $k = k + 1$ ，跳转至 2；

解码问题

解码问题也叫预测问题，是给定条件随机场 $P (Y ∣ X)$ 和输入序列（观测序列） $x$ ，求条件概率最大的输出序列（标记序列） $y^\ast$ ，即对序列进行标注。CRF 的解码问题也是使用维特比算法，可以参考HMM 的笔记。

CRF 的 Viterbi 算法推导：有：
$\begin{aligned} y^\ast =&\, \arg\max_yP_w(y|x) \\ =&\, \arg\max_y \frac{\exp(w\cdot F(y,x))}{Z_w(x)} \\ =&\, \arg\max_yw\cdot F(y,x) \end{aligned}$
因此 CRF 的的解码问题变为求非规范化概率最大的最优路径问题。此时只需要计算非规范化概率，而不必计算概率，可以大大提高效率。

首先求出下标 $1$ 的各个标记 $j=1,2,\cdots,m$ 的非规范化概率：
$\delta_1(j)=w \cdot F_1(y_0=\text{start},\,y_1=j,x),\quad j=1,2,\cdots,m$
递推得到各个位置 $i=2,3,\cdots n$ 的各个标记 $l=1,2,\cdots,m$ 的非规范化概率的最大值，同时记录路径：
$\delta_i(l)=\max\limits_{1\leq j\leq m} \set{\delta_{i-1}(j)+w\cdot F_i(y_{i-1}=j,y_i=l,x)},\quad l=1,2,\cdots,m \\ \Psi_i(l)=\arg\max\limits_{1\leq j\leq m} \set{\delta_{i-1}(j)+w\cdot F_i(y_{i-1}=j,y_i=l,x)},\quad l=1,2,\cdots,m$
递推到 $i = n$ 时，得到非规范化概率的最大值：
$\max_y (w\cdot F(y,x))=\max\limits_{1\leq j\leq m}\delta_n(j)$
以及最优路径的终点：
$y^\ast_n=\arg\max_{1\leq j\leq m}\delta_n(j)$
并回溯得到最优路径：
$y^\ast_i=\Psi_{i+1}(y^\ast_{i+1}),\quad i=n-1,n-2,\cdots,1$
求得最优路径 $y^\ast=(y^\ast_1,y^\ast_2,\cdots,y_n^\ast)^\mathrm{T}$ ；

算法：条件随机场预测的维特比算法

输入：模型特征向量 $F (y, x)$ 和权值向量 $w$ ，观测序列 $x=(x_1,x_2,\cdots,x_n)$ ；
输出： $y^\ast=(y^\ast_1,y^\ast_2,\cdots,y_n^\ast)^\mathrm{T}$ ；

初始化：

$\delta_1(j)=w \cdot F_1(y_0=\text{start},\,y_1=j,x),\quad j=1,2,\cdots,m$

递推：对 $i=2,3,\cdots,n$ ：

$\delta_i(l)=\max\limits_{1\leq j\leq m} \set{\delta_{i-1}(j)+w\cdot F_i(y_{i-1}=j,y_i=l,x)},\quad l=1,2,\cdots,m \\ \Psi_i(l)=\arg\max\limits_{1\leq j\leq m} \set{\delta_{i-1}(j)+w\cdot F_i(y_{i-1}=j,y_i=l,x)},\quad l=1,2,\cdots,m$

终止：

$\max_y (w\cdot F(y,x))=\max\limits_{1\leq j\leq m}\delta_n(j) \\ y^\ast_n=\arg\max_{1\leq j\leq m}\delta_n(j)$

返回路径：

$y^\ast_i=\Psi_{i+1}(y^\ast_{i+1}),\quad i=n-1,n-2,\cdots,1$

求得最优路径 $y^\ast=(y^\ast_1,y^\ast_2,\cdots,y_n^\ast)^\mathrm{T}$ ；

例：设有一个标注问题，输入观测序列为 $X=(X_1,X_2,X_3)$ ，输出标记序列为 $Y=(Y_1,Y_2,Y_3)$ ，其中 $Y_i\in \mathcal{Y}=\set{1,2}$ 。假设特征有：
$\begin{aligned} t_1=&\,t_1(y_{i-1}=1,y_i=2,x,i),i=2,3 & \lambda_1=1 \\ t_2=&\,t_2(y_1=1,y_2=1,x,2) & \lambda_2=0.6 \\ t_3=&\,t_3(y_2=2,y_3=1,x,3) & \lambda_3=1 \\ t_4=&\,t_4(y_1=2,y_2=1,x,2) & \lambda_4=1 \\ t_5=&\,t_5(y_2=2,y_3=2,x,3) & \lambda_3=0.2 \\ s_1=&\,s_1(y_1=1,x,1) & \mu_1=1 \\ s_2=&\,s_2(y_i=2,x,i),i=1,2 & \mu_2=0.5 \\ s_3=&\,s_3(y_i=1,x,i),i=2,3 & \mu_3=0.8 \\ s_4=&\,s_4(y_3=2,x,3) & \mu_4=0.5 \\ \end{aligned}$
这里给出的特征对 $x$ 都没什么要求，因此不论观测序列是什么，它们都对应同一个最大概率的标记序列 $y^\ast=(y_1^\ast,y_2^\ast,y_3^\ast)$ ；
$\begin{array}{c|cccc} \hline Y & \delta_1,\Psi_1 & \delta_2,\Psi_2 & \delta_3,\Psi_3 \\ \hline 1 & 1,/ & 2.4,1 & 4.3,2 \\ 2 & 0.5,/ & 2.5,1 & 3.9,1 \\ \hline \end{array}$
因此最优标记序列为 $y^\ast=(1,2,1)$ ；