论文阅读-《Cross-Sentence N-ary Relation Extraction with Graph LSTMs》

这篇论文提出了一种基于图LSTM的跨句子n元关系提取框架，具有很好的创新性。图LSTM能够有效地处理长距离依赖和跨句信息，并且能够方便地整合丰富的语言分析。此外，论文还探索了多任务学习，将n元关系与其子关系进行联合学习，以提高性能。该论文在生物医学领域进行了广泛的实验，证明了该框架的有效性。实验结果表明，跨句子提取可以产生更多的知识，并且编码丰富的语言知识可以提高性能。

摘要

文章介绍了一种基于图长短期记忆网络的通用关系抽取框架，该框架能够处理跨越多个句子的n元关系抽取任务。与传统的单句二元关系抽取相比，这种框架可以整合句内和句间的多种依赖关系，如顺序、句法和话语关系，为实体提供了鲁棒的上下文表示。在精准医疗领域的两个重要应用场景中，该框架不仅在使用传统监督学习和远程监督方面表现出有效性，而且在多任务学习中显著提高了抽取准确率。跨句子抽取进一步扩展了知识库的规模。此外，对不同LSTM方法的深入分析为理解语言分析在提高抽取准确率中的作用提供了有价值的见解。

1.引言

文章提出了一个基于图LSTM的跨句子n元关系抽取框架，旨在解决传统关系抽取方法在处理复杂和跨句子关系时的局限性。通过采用图公式，该框架不仅整合了先前基于链或树的LSTM方法，还能够整合丰富的语言分析，有效处理语言的稀疏性，并且无需密集的特征工程。在精准医疗领域的实验表明，该框架在远程监督和监督学习环境中均优于其他神经网络模型和一个基于特征的分类器。多任务学习和句法分析进一步提高了性能。特别是在分子肿瘤委员会领域，跨句子抽取显著提高了知识产出，且即使在缺乏标注示例的情况下，也能保持高准确度。

2.跨句多元关系抽取

在文本T中，设e1, ..., em为实体的提及。关系抽取可以被构想为一个分类问题，即确定关系R是否适用于T中的e1, ..., em。例如，假设有一个携带基因g中突变v的癌症患者，分子肿瘤委员会需要找出这种癌症是否对药物d有反应。可以通过检验(d, g, v)三元组是否满足“反应”关系来帮助肿瘤委员会。

随着研究文献的迅速增长，需要从大量文本中提取出更多深层次的知识。传统方法通常只处理单个句子内的二元关系，但在实际应用中，很多重要关系可能涉及多个实体并且跨越多个句子。本文将抽取工作推广到跨句子的n元关系，其中m > 2且T可以包含多个句子。正如我实验部分将展示的，n元关系对于生物医学等高价值领域至关重要，超越句子边界的扩展能够使更多的知识被抽取出来。

在二元关系抽取中，通常依赖于两个实体间的最短依赖路径，无论是通过特征提取还是深度学习模型来实现。但是，当推广到涉及多个实体的n元关系时，需要考虑的路径数量显著增加，这使得问题变得复杂。一种可能的解决方案是使用Davidsonian语义学，通过识别一个触发短语来代表整个关系，然后将问题分解为多个二元关系。然而，这种方法存在难以确定单一触发短语的问题，因为关系的表达往往涉及多个不连续的词汇。此外，手动注释训练数据需要大量的时间和资源，尤其是当需要识别触发短语时。现实且广泛采用的范式是利用间接监督，如远程监督（Craven和Kumlien，1999; Mintz等人，2009），在这种情况下不可用触发器。

此外，词汇和句法模式的稀疏性是一个关键问题。传统上，基于特征的方法依赖于丰富的工程化特征和大量的训练数据来识别和建模这些模式。然而，当处理跨句子的文本时，这些模式变得更加分散和难以捕捉，导致稀疏性问题加剧。

为了克服这些挑战，提出了一种基于图LSTM的通用关系抽取框架，图LSTM通过学习单词和实体的连续表示，有效解决了稀疏性问题，减少了对复杂特征工程的依赖。此外，该框架不仅整合了基于链或树的LSTM方法，还能够融合深入的语言分析，提高了对关系模式的识别能力。

该方法支持相关关系的联合学习，通过多任务学习同时处理n元关系及其子关系，这在远程监督情况下尤其有用，因为n元关系的监督信号通常比二元子关系更稀疏。

3 Graph LSTMs

讨论了循环神经网络（RNNs）在处理文本等序列数据时的优势，尤其是长短期记忆网络（LSTMs）如何有效解决传统RNNs在训练过程中遇到的梯度扩散或爆炸问题。LSTMs通过一系列门控机制，成功避免了在反向传播过程中梯度的不必要放大或抑制，从而更好地捕捉数据中的长期依赖关系。这使得LSTMs在多种自然语言处理任务中得到广泛应用。但是，现有的大多数基于LSTM的方法都是在线性链上操作，并且只显式地考虑线性上下文，这限制了它们整合句法和话语等非线性语言分析的能力。

本节中提出了一个将LSTMs推广到图的通用框架。图2展示了这种方法的架构。该框架的架构从输入文本的词嵌入开始，通过图LSTM层学习每个词的上下文表示。针对目标实体，系统将它们的上下文表示进行连接，形成关系分类器的输入。对于由多个词组成的实体，目前采用的是简单地计算词表示的平均值，但作者也指出，更复杂的聚合方法值得在未来的研究中进一步探索。整个框架通过反向传播算法进行联合训练，且对于最终使用哪种分类器持开放态度。此外，作者提出，将分类器与图LSTMs相结合进行联合设计，是未来研究的一个有趣方向。

图2 基于图长短期记忆网络的跨句子n元关系抽取的通用架构。

图LSTM的核心是文档图，它捕获了输入词之间的各种依赖关系。通过选择在文档图中包含哪些依赖关系，图LSTM自然地包含了线性链或树状LSTM。

与传统的LSTM相比，图LSTM面临新的挑战。由于图中可能存在的循环，直接实现反向传播可能需要多次迭代才能达到一个固定点。此外，在存在潜在大量边类型（如相邻词、句法依赖等）的情况下，参数化成为了一个关键问题。

3.1 Document Graph

为了模拟我们可以利用的各种语言分析中的依赖关系，引入了一个文档图来捕捉句子内部和跨句子的依赖关系。文档图通过节点表示单词，边表示如线性上下文、句法依赖和话语关系等不同的语言依赖。图1显示了处理的示例的文档图；这个实例表明，带有EGFR基因L858E突变的肿瘤对药物吉非替尼有反应。

这种方法允许我们将传统的线性链LSTM以及其他基于最短依赖路径或解析树的LSTM方法整合到一个统一的框架中。

图1 一个表达三元相互作用的两个句子的示例文档图（带有EGFR基因L858E突变的肿瘤对吉非替尼治疗有反应）。为了简化，我们省略了表示相邻单词或话语关系的边。

3.2 图LSTM中的反向传播

传统的LSTM本质上是非常深的前馈神经网络。例如，一个从左到右的线性LSTM为每个单词都有一个隐藏向量。这个向量由一个神经网络（循环单元）生成，它以给定单词的嵌入和前一个单词的隐藏向量作为输入。在判别式学习中，这些隐藏向量然后作为最终分类器的输入，从这些分类器中梯度被反向传播回整个网络。

将这种策略推广到具有循环的图通常需要对递归进行一定步骤的展开（Scarselli等人，2009年；Li等人，2016年；Liang等人，2016年）。本质上，为每一步创建图的副本，作为下一步的输入。结果是通过网络的时间前馈神经网络，相应地进行反向传播。

在图LSTM中，反向传播的实现可以借鉴有环信念传播（LBP）的方法，通过在图中递归地展开递归来实现梯度的反向传播。但这种方法会增加计算的复杂性，因为每次参数更新都需要经过多轮迭代。此外，这种方法也可能面临LBP中的一些常见问题，包括梯度振荡或难以收敛。

由于指代消歧和话语关系等依赖关系的稀疏性，文档图主要由线性链和句法依赖树构成。利用这些结构，可以采用类似于信念传播中的方法来提高反向传播的效率。具体来说，可以通过使用异步更新代替展开策略中的同步更新，从而减少计算量并加快训练过程。

文章提出了一种处理图LSTM中反向传播的简单策略，该策略在初步实验中表现良好。策略的核心是将文档图划分为两个有向无环图（DAGs），一个负责处理从左到右的信息流，另一个处理从右到左的信息流。这种划分允许模型分别对前向和后向的依赖关系进行处理，类似于双向LSTM（BiLSTMs）的操作方式。当文档图只包含线性链边时，图LSTM退化为标准的BiLSTMs。

3.3 基本循环传播单元

一个标准的LSTM单元由输入向量（词嵌入）、记忆单元和输出向量（上下文表示），以及几个门组成。输入门和输出门控制进出单元的信息流，而遗忘门可以选择性地从到前一个单元的递归连接中移除信息。

在线性链LSTM中，每个单元只包含一个遗忘门，因为它只有一个直接的前驱（即，指向前一个词的相邻词边）。然而，在图LSTM中，一个单元可能有多个前驱，包括通过不同边连接到同一个词。因此，为每个前驱引入了一个遗忘门，类似于Tai等人（2015年）为树状LSTM所采用的方法。

编码丰富的语言分析引入了许多除词邻接之外的不同边类型，如句法依赖，这为参数化提供了许多可能性。这在先前的句法感知LSTM方法中并未被考虑（Tai等人，2015年；Miwa和Bansal，2016年）。文中探索了两种基于边类型的更细粒度参数引入方案。

完全参数化 第一个提议是为每种边缘类型引入不同的参数集，具体的计算如下：

如标准链式LSTM一样，x_t 是节点 t 的输入词向量，h_t 是节点 t的隐藏状态向量，W 们是输入权重矩阵，而 b 们是偏置向量。σ、tanh和⊗分别表示sigmoid函数、双曲正切函数和哈达玛德积（逐点乘法）。主要的区别在于递归项。在图LSTM中，一个单元可能有多个前驱（P(t)），对于每一个前驱 jj，都有一个遗忘门 f_{tj}和一个类型化的权重矩阵 U_m(t,j)，其中 m(t, j) 表示 t 和 j 之间的连接类型。输入和输出门（i_t, o_t）依赖于所有前驱，而遗忘门（f_{tj}）仅依赖于与之关联的前驱。c_t和 \tilde{c}_t 表示内存单元内的中间计算结果，这些结果考虑了输入和遗忘门，并将与输出门结合以产生隐藏表示 h_t。

完全参数化意味着为每种边缘类型分配不同的参数集，这种方法简单明了，但当边缘类型众多时，会导致参数数量急剧增加。例如，有数十种句法边缘类型，每种类型都对应一个斯坦福依赖标签。因此，在实验中转而只使用粗粒度的类型：单词邻接、句法依赖等。接下来将考虑通过学习边缘类型嵌入来采用更细粒度的方法。

边缘类型嵌入 为了减少参数数量并利用细粒度边缘类型之间的潜在相关性，学习了边缘类型的低维嵌入，并进行了前驱节点隐藏向量和边缘类型嵌入的外积，以生成一个“类型化隐藏表示”，这是一个矩阵。新的计算如下：

U被定义为一个三维张量，其维度是l×l×d，其中ll是隐藏向量的维度，而d是边缘类型嵌入的维度。通过张量积，前驱节点的隐藏向量h_j和边缘类型嵌入e_j相结合，生成一个l×d的矩阵。此外，文本中提到了一种特殊的张量点积运算×T，这种运算通过在最后一个维度上对张量进行求和来产生一个l维向量。最后，边缘类型嵌入e_j是作为模型参数的一部分，与其他参数一同进行训练的，以确保模型能够学习到边缘类型的有效表示。

3.4 与先前LSTM方法的比较

线性链LSTM和树LSTM都可以视为图LSTM在特定情况下的特例。线性链LSTM适用于文档图是单词的线性序列的情况，而树LSTM适用于文档图是单词的层次结构（如句法树）的情况。

在图LSTM中，语言知识的编码与反向传播策略（第3.2节）分离，使其更加灵活，包括引入循环。例如，Miwa和Bansal（2016年）通过在另一个用于实体识别的LSTM之上叠加一个用于关系提取的LSTM，进行了联合实体和二元关系提取。在图LSTM中，两者可以无缝地结合使用，使用一个包含两个实体之间的词邻接链和依赖路径的文档图。

文档图也可以整合其他语言信息。例如，指代消歧和话语分析直观上与跨句子关系提取相关。尽管现有的系统尚未显示出改善跨句子关系提取（Quirk和Poon，2017年），但探索整合这些分析，尤其是在适应生物医学领域（Bell等人，2016年）之后，仍然是一个重要的未来研究方向。

3.5 多任务学习与子关系

多任务学习已被证明在训练神经网络中是有益的。在多任务学习中，可以为每种辅助关系添加一个单独的分类器，而所有这些分类器共享同一个图LSTM表示学习器和词嵌入。这种方法允许不同任务之间通过监督信号的汇集来互相促进，从而提高性能。

在分子肿瘤委员会领域，将这一范式应用于联合学习三元关系（药物-基因-突变）及其二元子关系（药物-突变）。实验结果表明，这在两项任务中都带来了显著的增益。

4 实现细节

实现所提方法的具体技术细节：

实现工具：使用了Theano库进行模型的实现。
分类器：关系分类器采用的是逻辑回归。
超参数设置：基于小规模开发数据集的初步实验来设定超参数。
训练方法：采用批量大小为8的小型批量随机梯度下降（SGD）进行训练，并使用0.02的学习率，最多训练30个周期。训练过程中使用基于开发数据的早停策略来避免过拟合。
隐藏向量维度：LSTM单元中隐藏向量的维度被设置为150。
边缘类型嵌入维度：边缘类型嵌入的维度被设置为3。
词嵌入初始化：词嵌入使用公开可用的100维GloVe词向量进行初始化，这些词向量是在维基百科和网络文本上训练得到的。
其他参数初始化：其他模型参数是使用从[-1, 1]范围内均匀随机抽取的样本初始化的。

在多任务训练中，轮流进行所有任务，每次为一个任务传递所有数据，并相应地更新参数。这个过程重复进行了30个周期。

5 领域：分子肿瘤委员会

主要实验集中在提取药物、基因和突变之间的三元相互作用，药物-基因-突变相互作用被广泛理解为药物疗效与给定基因中突变之间的关联。目前没有针对这个问题的标注数据集。

5.1 数据集

数据来源：数据集来源于PubMed Central，包含了大约一百万篇截至2015年的全文文章。

挑战：在如此庞大的文献库中，只有部分论文包含药物-基因-突变相互作用的知识，从中提取这种知识是一个挑战。

远程监督：利用远程监督，可以从少量人工策划的事实中生成大量训练数据，并且学习到的模型能够提取出更多的事实。

未来工作：计划在未来整合更多的已知事实进行远程监督，并从更多的全文文章中提取信息。

预处理：使用SPLAT和Stanford CoreNLP进行了文本的分词、词性标注、句法分析和依赖关系获取。

实体识别：使用Literome中的实体标注器来识别文本中的药物、基因和突变的提及。

远程监督资源：使用GDKD和CIVIC知识库进行远程监督，这些知识库能够区分细粒度的交互类型，但在本研究中并未使用这些细粒度类型。

5.2 远程监督

正例选择：在文本中识别出药物、基因和突变的提及后，选择已知相互作用的共现三元组作为正例。

选择限制：与单句设置不同，需要小心选择跨句的候选样本，避免引入明显错误的例子。

最小跨度限制：遵循Quirk和Poon的方法，只保留在最小重叠文本跨度中没有其他相同实体共现的候选样本。

距离限制：避免选择三元组在文档中相隔很远的候选样本，考虑K个连续句子内的实体三元组。

正例数量：从知识库中匹配到的59个不同的药物-基因-突变三元组，获得了3,462个三元关系实例作为正例。

多任务学习：同时考虑了药物-基因和药物-突变的子关系，产生了大量正例。

负例生成：通过随机抽样没有已知相互作用的共现实体三元组来生成负例，数量与正例相同，以获得平衡的数据集。

5.3 自动评估

为了模型比较，作者采用了五折交叉验证的方法。将远程监督得到的正例和负例作为标准答案（金标准）。确保来自同一文档的所有样本都在同一个交叉验证折中，以避免训练集和测试集之间的数据泄露。通过构造保持了数据集的平衡性。报告的是保留折上的平均测试准确率。尽管评估结果是自动的，可以快速得出，但可能存在噪声，例如一些被标记为没有已知相互作用的实体三元组实际上可能有相互作用。

评估了两种图LSTM模型，一种是完全参数化的"Graph LSTM-FULL"，另一种是使用边缘类型嵌入的"Graph LSTM-EMBED"。与三种强大的基线系统进行了比较，包括一个基于特征的分类器、一个CNN和一个双向LSTM（BiLSTM）。特征基础分类器：Quirk和Poon（2017年）的工作，之前只用于提取二元关系，作者将其扩展到三元关系。CNN模型：使用了Zeng等人（2014年）、Santos等人（2015年）和Wang等人（2016年）提出的CNN模型，并采用了输入注意力机制和5的输入窗口大小。对于原本只处理二元关系的系统，作者通过为每对实体派生特征并汇总这些特征，将其扩展到处理三元关系。在评估过程中，作者遵循了Wang等人（2016年）的实验设置，确保了实验的一致性和可比性。

对于二元关系提取，先前的基于句法的方法可以直接应用。将图LSTM与其他先进的系统进行了比较，包括树LSTM和BiLSTM-Shortest-Path。

表1展示了跨句三元关系提取的实验结果。所有基于神经网络的模型在性能上都超过了基于特征的分类器，这表明神经网络在处理稀疏的语言模式方面具有优势，并且不需要复杂的特征工程。在跨句环境中，所有LSTM模型的性能显著优于CNN，这强调了捕获长距离依赖关系的重要性。

表1 在五折交叉验证中，药物-基因-突变三元相互作用的平均测试准确率。基于特征的模型使用了（Quirk和Poon，2017年）中表现最佳的模型，并从所有实体对之间的最短路径派生出特征。

两种图LSTM模型变体（Graph LSTM-FULL和Graph LSTM-EMBED）的性能相当。完全参数化的Graph LSTM-FULL有小幅度的性能优势，这暗示对参数化方案的进一步探索可能是有益的。提出边缘类型嵌入可能通过在句法分析的未标记文本上进行预训练来提高性能。

两种图LSTM变体的性能都显著优于BiLSTMs，差异具有统计学意义（p < 0.05）。尽管图LSTM的性能优势在统计上显著，但实际上差异很小。在Quirk和Poon（2017年）的研究中，结合句法依赖的最佳系统显著优于线性链基线模型。作者提出了一个问题，为什么图LSTMs在建模句法依赖时没有获得与先前研究中同样显著的性能提升。

一个原因是线性链LSTM已经能够捕捉句法分析中的长距离依赖。BiLSTM即使没有显式地建模句法依赖，也显著优于基于特征的分类器，这表明LSTM结构本身在处理序列数据方面具有优势。虽然词嵌入对性能有贡献，但LSTM相对于CNN的性能优势说明还有其他因素在起作用。

另一个原因是句法分析在生物医学领域的准确性较低。解析错误会干扰图LSTM学习器，限制了潜在的性能增益。在第6节中，作者展示了在有标准解析可用的领域中的支持证据。

作者报告了在单句内实例的准确率，并指出这与跨句实例的趋势大体相似，但两者不直接可比，因为它们基于不同的测试集。

在药物-突变对之间的二元子关系上进行了相同的实验。表2显示了结果，这些结果与三元情况相似：Graph LSTM-FULL在单句和跨句实例中都持续表现最佳。在最短路径上的BiLSTMs性能显著低于其他LSTM模型，准确率下降了4-5个百分点，这可能与生物医学领域句法解析的准确性较低有关。最先进的树LSTMs（Miwa和Bansal，2016年）在性能上也不如图LSTMs，尽管它们编码了相同的语言结构。作者认为树LSTMs的性能不如图LSTMs可能是因为它们使用了分别针对线性链和依赖树的独立LSTMs，而图LSTMs则学习了两者的统一表示。

表2 在五折交叉验证中，药物-突变二元关系的测试平均准确率，增加了一个额外的基线，即使用BiLSTM在最短依赖路径上（Xu等人，2015b；Miwa和Bansal，2016）。

为了检验联合学习子关系是否能够提升模型性能，进行了多任务学习。使用了Graph LSTM-FULL模型来同时训练提取三元相互作用和药物-突变、药物-基因子关系的提取器。表3显示了结果。多任务学习对于三元关系和二元关系（药物-突变）都带来了显著的性能提升。在多任务学习的情况下，图LSTM相对于BiLSTM的优势有所减少，这可能意味着在有足够监督信号的情况下，线性链LSTM也能学习到长距离依赖。由于药物-基因相互作用的实例数量远多于其他类型，为了公平比较，只采样了可比较大小的子集。在实际应用中，人们会利用所有可用的数据进行学习，因此子采样的结果在实际中不具备竞争力，不作为性能增益的评估依据。

表3 多任务学习提高了BiLSTMs和图LSTMs的准确率。

在文档图中包括了指代消歧和话语关系。然而并没有观察到任何显著的增益，这与Quirk和Poon（2017年）的观察结果相似。将更深入的探索留作未来的工作。

5.4 PubMed规模的提取

研究的最终目标是从文本中提取尽可能多的知识。使用自动评估中表现最佳的模型（Graph LSTM-FULL）在所有可用数据上进行重新训练。训练后的模型被应用于从PubMed Central的所有文章中提取关系。

表4显示了候选项和提取的互动的数量。即使只有59个独特的药物-基因-突变三元组作为训练数据，模型也能提取出数量级更多的独特互动。跨句提取比单句提取能产生3到5倍的关联，显示了其在提取更多信息方面的显著优势。

表4 从PubMed Central文章中提取的独特药物-基因-突变相互作用的数量，与用于远程监督的手动策划的知识库（KBs）中的数量进行比较。p表示输出概率。Quirk和Poon（2017年）。我们将更深入的探索留作未来的工作。

表5对药物、基因和突变的独特数量进行了类似的比较。机器阅读在覆盖独特药物、基因和突变实体方面表现更好，特别是在进行跨句提取时。

表5 从PubMed Central文章中提取的独特药物、基因和突变的数量，与用于远程监督的手动策划的基因药物知识数据库（GDKD）和癌症变异的临床解释（CIVIC）中的数量进行比较。p表示输出概率

5.5 手动评估

自动评估虽然有助于方法间的比较，但由于标签可能存在噪声，可能无法准确反映分类器的精确度。为了更准确地评估，研究者随机抽取了提取的关系实例，并邀请了三位精准医学领域的专家进行正确性评估。在评估过程中，为每位注释者提供了实例的来源文本，其中涉及的药物、基因和突变部分都做了突出显示。注释者的任务是判断每个实例是否表明文本中所提及的实体之间存在某种关系。评估的焦点在于确定文本是否蕴含了实体间的关系，而不是判断这些关系是否在其他论文中得到验证或为真实存在的关系。

评估工作主要集中在跨句的三元关系提取设置上。研究者设置了三个不同的概率阈值，分别是0.9（高精确度设置）、0.5（中等设置）和一个包括所有候选的随机样本。在每种阈值设置下，都选取了150个实例，总共得到了450个注释实例。从这些实例中，选出了150个实例的子集，由两位注释者进行了复审。两位注释者之间的一致性达到了88%，这表明了较高的一致性和可靠性水平。

表6表明，分类器有效地过滤了大量可能的候选项。在0.5这一中等概率阈值下，分类器的实例准确率估计为64%；而在更高的0.9阈值下，准确率提升至75%。长短期记忆网络（LSTMs）在筛选出实体提及错误方面表现出色，这可能是因为LSTMs能够捕捉到广泛的上下文信息。LSTMs包含的上下文特征有助于识别和排除错误的实体提及，从而提高了筛选的准确性。