论文阅读 -《N-ary Relation Extraction using Graph State LSTM》

摘要

问题定义：跨句n元关系提取是在多个句子中检测n个实体间关系的自然语言处理任务。

现有方法：现有方法通常将文本构建成文档图，包括句子内部和跨句子的依赖关系。

最先进方法：最先进方法将文档图分割为两个有向无环图，并为每个图采用DAG结构的LSTM模型，能够通过图的边来捕捉丰富的语言知识，但可能在分割过程中丢失信息。

提出的模型：提出了一个图状态LSTM模型，该模型为每个词使用并行状态，并通过消息传递来递归丰富状态值。

模型优势：与DAG LSTMs相比，图LSTM保持了图的原始结构，并通过增加并行化来提高计算速度。

实验结果：在标准基准测试中，所提出的模型取得了文献中的最佳性能。

1 引言

关系提取的重要性：关系提取是自然语言处理的一个核心任务，在多个领域都有应用。

现有工作：现有研究主要集中在句子内的关系提取。

跨句关系提取：跨句关系提取越来越受到关注，最近的研究扩展到n元关系提取。

图结构LSTM：Peng等人（2017）提出了图结构LSTM，通过构建图并利用句法和话语信息进行关系提取。

模型限制：双向DAG LSTM模型在转换图时可能会丢失信息，且未包括兄弟姐妹信息。

提出的解决方案：提出将图作为一个整体来建模，不拆分为DAGs，使用图卷积网络和图循环网络。

图LSTM的优势：提出的图LSTM保持了图的原始结构，可以整合更多信息，并且计算效率高。

实验结果：图LSTM在准确性上超过了最先进方法，模型在准确性上比双向DAG LSTM基线高出5.9%，超过了Peng等人（2017）的最先进系统1.2%。代码可在 GitHub - freesunshine0316/nary-grn: Code regarding to our paper "N-ary Relation Extraction using Graph State LSTM"上获得。

贡献：比较了图LSTM和DAG LSTM，首次研究图循环网络在建模依赖和话语关系中的应用。

2 任务定义

输入表示：跨句n元关系提取的输入是一对(E; T)，其中E = (e1; ... ; eN)是实体提及的集合，T = [S1; ... ; SM]是由多个句子组成的文本。

实体提及：集合E中的每个实体提及都属于文本T中的一个特定句子。

关系集合：预定义的关系集合R包含可能的关系以及表示没有关系的None。

任务类型：任务可以是二元分类，判断实体是否构成关系，或多类分类，确定实体间的具体关系。

示例说明：通过表1的例子，说明了二元分类任务和多类分类任务的不同目标，包括确定药物对某种癌症是否有效，以及识别药物效果的具体类型。

表1 一个示例，展示了带有EGFR基因L858E突变的肿瘤对吉非替尼治疗有反应。

3 基线：双向DAG LSTM

任务公式化：Peng等人（2017）将关系提取任务视为图结构问题，以整合丰富的句法和话语特征。

句法结构：使用斯坦福解析器为输入句子提供句法结构，并通过连接连续句子的头来表示话语信息。

图表示：输入图G由节点V（句子中的词）和边E（连接词的依赖或话语关系）组成。

边的表示：每条边是一个三元组，包含源词和目标词的索引以及边的类型或相对位置。

双向DAG LSTM：按照Peng等人（2017）的方法，将输入图分割为两个DAG，分别处理左到右和右到左的边。

DAG LSTM编码：使用DAG LSTM对每个DAG进行编码，输入包括词和边标签。

预测：使用逻辑回归分类器根据两个方向LSTM的实体隐藏状态进行预测，参数包括W_0和b_0。

3.1 输入表示

节点和边标签对于建模句法图都很有用。作为我们DAG LSTM的输入，我们首先通过以下方式计算每条边(i; j; l)的表示：

其中W1和b1是模型参数，e_iei是由索引i指示的源词的嵌入，e_lel是边标签l的嵌入。

3.2 状态转换

基线LSTM模型按顺序学习DAG表示，遵循词序。以边的表示（如x_{i,j}^lxi,jl）作为输入，在前向和后向DAG上执行门控状态转换操作。对于每个词j，其传入边E_{in}(j)Ein(j)的表示被累加为一个向量：

（公式3）

同样，对于每个词j，所有传入节点的状态在传递给门控操作之前被累加为一个单一向量：（公式4）

最后，第j个词的隐藏状态h_jhj的门控状态转换操作可以定义为：（公式5）

其中i_、o_j和f_{i,j}分别是一组输入、输出和遗忘门，而W_x, U_x, b_x（对于x∈{i,o,f,u}）是模型参数。

3.3 与Peng等人（2017年）的比较

计算相似性：我们的基线模型在计算上与Peng等人（2017年）的工作相似。

边标签使用差异：在如何将边标签整合到门控网络中，两种方法存在差异。

Peng等人（2017年）的模型变体：他们提出了全参数化（FULL）和边类型嵌入（EMBED）两种变体。FULL为每种边类型分配不同的参数矩阵，而EMBED使用3D张量来处理边标签的嵌入。

我们的模型：我们将边标签作为输入的一部分，并将其嵌入向量与节点表示向量连接。

参数数量和过拟合：我们的方法相比FULL和EMBED需要更少的参数，因此在小规模数据集上更不容易出现过拟合问题。

模型选择：由于参数数量较少，我们的方法被选为基线，并且在第4节中，它也被用于我们的图状态LSTM模型。

4 图状态LSTM

输入图公式：模型的输入图公式遵循第3节的描述。

计算输入表示：模型使用与基线模型相同的方法来计算输入表示。

分类方法：模型执行分类的方法与基线模型相同。

图结构LSTM：与基线的双向DAG LSTM不同，模型使用图结构的LSTM来直接对输入图进行建模，无需分割。

模型概述：图2提供了模型的视觉概述。

状态向量定义：为图中的每个词定义了一个状态向量hj。

图状态：图的状态由所有词的状态组成，可以表示为状态向量的集合。

信息交换：模型通过递归状态转换过程在词之间交换信息，生成一系列图状态。

初始状态：初始图状态由一组初始词状态组成，初始状态向量h0是零向量。

4.1 状态转换

状态转换方法：使用循环神经网络模拟状态转换过程。

信息交换：在每一步允许词与其直接连接的词之间交换信息。

门控LSTM单元：采用门控LSTM单元来记录记忆并控制信息流。

输入定义：定义了词的输入，包括连接到该词的边的表示。

边的表示：边表示为三元组，包括源词、目标词和边标签。

输入和输出边：区分了词的传入和传出边，并分别计算它们的表示。

状态转换公式：给出了从g_{t-1}gt−1到g_tgt的状态转换的数学定义。

模型参数：列出了模型中使用的参数，包括权重矩阵、偏置项和门控操作。

图状态LSTM与双向DAG LSTM的对比

信息流对比：基线DAG LSTM的信息流遵循句子中的自然词序，而图状态LSTM允许每个词与所有图邻居同时交换信息。

全局上下文信息：图状态LSTM可以利用整体上下文信息提取特征，而DAG LSTM处理的是分离的双向信息流。

任意结构处理：图状态LSTM能够处理包括任意循环图在内的任意结构。

信息传播：从初始状态开始，每个词的信息在每个步骤后传播到其图邻居。

非邻近词信息交换：通过多个状态转换步骤实现非邻近词之间的信息交换。

转换步骤实验：实验不同数量的转换步骤，以研究全局编码的有效性。

并行化和效率：与DAG LSTM相比，图状态LSTM允许节点状态更新的并行化，使用GPU可以提高效率。

5 训练

损失函数：模型采用交叉熵损失函数进行训练。

输入和标签：X_iXi代表输入图，y_iyi代表对应的金标准类别标签。

模型参数：\thetaθ表示模型的参数。

优化器：使用Adam优化算法，设置学习率为0.001。

模型选择：选择在开发集上表现最好的模型来评估测试集。

正则化：训练时使用dropout正则化，比率为0.3。

硬件加速：训练和评估过程使用Tesla K20X GPU进行加速。

6 实验

对第2节中讨论的二元关系检测任务和多类关系提取任务进行了实验。

6.1 数据

数据集来源：使用的是Peng等人（2017年）的生物医学领域数据集。

关注点：专注于提取药物、基因和突变之间的三元关系。

数据集规模：包含6987个三元关系实例和6087个二元关系实例。

句子数量：大多数三元关系实例包含多个句子，平均约2个句子。

分类标签：数据集有五种分类标签，包括“耐药或无反应”、“敏感性”、“反应”、“耐药”和“无”。

标签处理：按照Peng等人（2017年）的方法，将多类标签转换为二元标签，将所有关系类别视为“Yes”，“无”关系视为“No”。

6.2 设置

评估方法：采用五折交叉验证来评估模型性能。
测试准确率：最终的测试准确率是通过对五个折的测试准确率取平均值得到的。
开发集：每个折的训练集中随机划分出200个实例作为开发集。
批量大小：所有实验的批量大小统一设置为8。
词嵌入初始化：使用100维的GloVe词向量进行初始化，这些词向量是基于Wikipedia和网络文本的60亿词预训练得到的。
边标签嵌入：边标签嵌入是3维的，并且通过随机方式初始化。
词嵌更新：训练过程中不更新预训练的词嵌入。
隐藏层维度：LSTM单元中隐藏向量的维度被设置为150。

6.3 开发实验

开发实验目的：在药物-基因-突变三元关系数据集上分析模型性能。
交叉验证：采用5折交叉验证的首折设置作为数据配置。
状态转换次数：实验比较了不同状态转换次数对模型性能的影响。
模型变体：比较了仅在前向或后向DAG上执行的模型（forward和backward），将两者隐藏状态连接的模型（concat），以及在原始图上执行的模型（all）。
性能趋势：forward和backward的性能低于concat，而all的性能优于concat，表明同时考虑前后关系的优势。
状态转换对性能的影响：增加状态转换步骤可以提高模型准确率，因为可以整合更大的上下文信息。
状态转换次数的选择：在4次和5次状态转换后性能趋于稳定，因此后续实验将状态转换次数设定为5。

6.4 最终结果

模型比较：将图状态LSTM模型与双向DAG基线和其他最新方法进行了比较。
多任务学习：+multitask表示同时训练三元和二元关系的方法。
基线性能：Bidir DAG LSTM作为基线，准确率低于EMBED和FULL，可能因为第3.3节中提到的差异。
最终结果：尽管没有使用多任务学习，但最终结果优于Peng等人（2017年）。
单句实例：报告了仅在单句实例上的准确率，所有系统在单句关系上的性能都有所下降。
性能下降原因：单句可能无法提供足够的上下文进行消歧，需要研究跨句上下文；另外，由于单句实例较少，可能导致过拟合。
过拟合证据：基线模型参数较少，性能下降最小，这可能是过拟合的一个证据。

6.5 分析

效率：表4显示了基线模型和我们模型的训练和解码时间。图状态LSTM模型在训练和解码速度上显著优于基线模型。

表4 在药物-基因突变三元交叉句子设置中，训练一个周期和解码的平均时间（秒）在五个折上。

句子长度对准确率的影响：图5(a)显示了不同句子长度上的测试准确率。随着句子长度的增加，两种模型的性能都有所提高，GS GLSTM在短句子上表现更好。
最大邻居数量对准确率的影响：图5(b)显示了针对最大邻居数量的测试准确率。当图中节点的最大邻居数量增加时，两种模型的性能都有所提高，GS GLSTM在邻居较少的情况下表现更优。
案例研究：图4使用两个示例展示了GS GLSTM相对于Bidir DAG LSTM的优势。通过两个具体案例展示了GS GLSTM在上下文信息利用上的优势，特别是在处理依赖树中的叶子节点和兄弟节点时。