引言
本文是论文Bidirectional LSTM-CRF Models for Sequence Tagging的阅读笔记。这篇论文是15年发表的,比上次介绍的那篇还要早。
首次应用双向LSTM+CRF(BI-LSTM-CRF)到序列标注数据集。BI-LSTM-CRF模型可以有效地使用双向输入特征,也因为CRF层可以利用句子级标签信息。
简介
本论文主要贡献如下:
- 第一个应用双向 LSTM CRF模型到序列标注数据集;
- 证明BI-LSTM-CRF是稳健的,对词嵌入的依赖更少;
模型
本论文比较了LSTM、BI-LSTM、CRF、LSTM-CRF和BI-LSTM-CRF在序列标注数据集上的表现。这里重点记录下后两种。
LSTM-CRF
如原论文中图6所示,组合了一个正向LSTM网络和CRF网络得到LSTM-CRF模型。该模型可以有效地利用过去的输入特征(通过LSTM层)以及语句级标签信息(通过CRF层)。
一个CRF层由连接连续输出层的线条表示。CRF层有一个状态转移矩阵(state transition matrix)作为参数。基于该层,可以有效地使用过去和未来的标签来预测当前标签,这一点类似于双向LSTM使用过去和未来输入特征。
记得分矩阵