1. 文章简介

标题：Deep contextualized word representations
作者：Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
日期：2018
期刊：arxiv preprint

2. 文章概括

文章提出了一种语言模型的预训练方法ELMo（Embeddings from Language Models）。与传统仅仅使用最顶层隐藏层的神经网络不同，ELMo将所有biLM隐藏层信息通过线性层汇总，从而使得模型同时将高级特征和低级特征输入到模型输出阶段。ELMo在文章实验的所有NLP任务上均达到或超过了SOTA。

3 文章重点技术

3.1 BiLM(Bidirectional Language Model)

给定序列 $(t_1, \dots, t_N)$ ，前向语言模型（生成式）基于当前时刻前的token计算当前时刻的token概率，即在时刻 $t$ ，给定 $(t_1, \dots t_{k-1})$ ，计算 $p(t_1,\dots, t_N) = \prod_{k=1}^N p(t_k|t_1, \dots, t_{k-1}).$
后向语言模型则相反，即通过当前时刻之后的token预测当前时刻token的概率 $p(t_1,\dots, t_N) = \prod_{k=1}^N p(t_k|t_{k+1}, \dots, t_N).$
双向语言模型(biLM)将上述二者结合，最大对数似然 $\sum_{k=1}^N \log p(t_k|t_1, \dots, t_{k-1};\Theta_x, \vec{\Theta}_{LSTM}, \Theta_s) +\hspace{.3cm} \\\log p(t_k|t_{k+1}, \dots, t_N;\Theta_x, \overleftarrow{\Theta}_{LSTM}, \Theta_s)$ ,其中 $\Theta_x$ 表示token的表征参数， $\Theta_s$ 表示Softmax层的参数， $\overrightarrow{\Theta}_{LSTM}, \overleftarrow{\Theta}_{LSTM}$ 分别表示前向和后向LSTM的参数。

3.2 ELMo

对于任意token $t_k$ ，L层的biLM会计算 $R_k = \{\boldsymbol{h}_{k,j}^{LM}|j=0,\dots, L\}$ ，其中 ${h}_{k,0}^{LM}$ 表示token层， $\boldsymbol{h}_{k,j}^{LM}=[\overrightarrow{\boldsymbol{h}}_{k,j}^{LM};\overleftarrow{\boldsymbol{h}}_{k,j}^{LM}]$ 表示每一个LSTM层。
最终ELMo通过线性层将所有层的信息汇总： $ELMo_k^{task} = E(R_k;\Theta^{task})=\gamma^{task} \sum_{j=0}^L s_j^{task}$ ，其中 $s_j^{task}$ 为softmax权重， $\gamma^{task}$ 为标量参数，可以将ELMo向量放缩。
文章通过数值实验表明，高层和底层捕获到的信息有所区别，不同的下游任务可能用到高层或底层的特征：高层信息可用于依赖分析等语义分析任务，底层信息可用于POS等语法分析任务。从而文章选择将每一层的信息结合，一起输送给模型。

3.3 将ELMo用于NLP监督任务

给定NLP的监督任务，我们先不考虑标签，直接将biLM在数据集上训练，得到每个token的 $ELMo_k^{task}$ 。然后冻结biLM的权重，将每个token的 $x_k$ （通过字符CNN得到）连同 $ELMo_k^{task}$ 一起输入到监督模型（RNN，CNN等），进行训练。此外，文章提出在输出阶段也可增加 $ELMo_k^{task}$ ，即将 $h_k; ELMo_k^{task}]$ 传入softmax层
文章测试了将ELMo向量放入不同阶段的效果，如下表所示，将ELMo同时增加到输入和输出阶段的表现最好。
input-output