引言
本文是论文End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF的阅读笔记。
本论文提出了一个受益于单词级(word)和字符级(character)表示的网络架构,通过组合双向LSTM,CNN和CRF。
简介
首先通过CNN编码一个单词的字符级信息到相应的字符表征。然后组合字符和单词级表征输入到Bi-LSTM来建模每个单词的上下文信息。在Bi-LSTM的顶部使用CRF同时为整个语句解码标签。
网络架构
字符级表征的CNN
CNN被证明可以有效地抽取形态学(morphological)信息,比如单词的前缀或后缀。
如原文的图1所示,使用CNN抽取给定单词的字符级信息,从上往下看,开始定义了一个字符嵌入,这里给出例子是单词"Playing",同时包含一些填充字符的字符嵌入被输入到CNN中,经过最大池化后得到单词的固定大小的字符表征,上面的虚线表示使用了Dropout层。
CRF
使用 z