摘要
问题定义:跨句n元关系提取是在多个句子中检测n个实体间关系的自然语言处理任务。
现有方法:现有方法通常将文本构建成文档图,包括句子内部和跨句子的依赖关系。
最先进方法:最先进方法将文档图分割为两个有向无环图,并为每个图采用DAG结构的LSTM模型,能够通过图的边来捕捉丰富的语言知识,但可能在分割过程中丢失信息。
提出的模型:提出了一个图状态LSTM模型,该模型为每个词使用并行状态,并通过消息传递来递归丰富状态值。
模型优势:与DAG LSTMs相比,图LSTM保持了图的原始结构,并通过增加并行化来提高计算速度。
实验结果:在标准基准测试中,所提出的模型取得了文献中的最佳性能。
1 引言
关系提取的重要性:关系提取是自然语言处理的一个核心任务,在多个领域都有应用。
现有工作:现有研究主要集中在句子内的关系提取。
跨句关系提取:跨句关系提取越来越受到关注,最近的研究扩展到n元关系提取。
图结构LSTM:Peng等人(2017)提出了图结构LSTM,通过构建图并利用句法和话语信息进行关系提取。
模型限制:双向DAG LSTM模型在转换图时可能会丢失信息,且未包括兄弟姐妹信息。
提出的解决方案:提出将图作为一个整体来建模,不拆分为DAGs,使用图卷积网络和图循环网络。
图LSTM的优势:提出的图LSTM保持了图的原始结构,可以整合更多信息,并且计算效率高。
实验结果:图LSTM在准确性上超过了最先进方法,模型在准确性上比双向DAG LSTM基线高出5.9%,超过了Peng等人(2017)的最先进系统1.2%。代码可在 GitHub - freesunshine0316/nary-grn: Code regarding to our paper "N-ary Relation Extraction using Graph State LSTM"上获得。
贡献:比较了图LSTM和DAG LSTM,首次研究图循环网络在建模依赖和话语关系中的应用。
2 任务定义
输入表示:跨句n元关系提取的输入是一对(E; T),其中E = (e1; ... ; eN)是实体提及的集合,T = [S1; ... ; SM]是由多个句子组成的文本。
实体提及:集合E中的每个实体提及都属于文本T中的一个特定句子。
关系集合:预定义的关系集合R包含可能的关系以及表示没有关系的None。
任务类型:任务可以是二元分类,判断实体是否构成关系,或多类分类,确定实体间的具体关系。
示例说明:通过表1的例子,说明了二元分类任务和多类分类任务的不同目标,包括确定药物对某种癌症是否有效,以及识别药物效果的具体类型。
表1 一个示例,展示了带有EGFR基因L858E突变的肿瘤对吉非替尼治疗有反应。
3 基线:双向DAG LSTM
任务公式化:Peng等人(2017)将关系提取任务视为图结构问题,以整合丰富的句法和话语特征。
句法结构:使用斯坦福解析器为输入句子提供句法结构,并通过连接连续句子的头来表示话语信息。
图表示:输入图G由节点V(句子中的词)和边E(连接词的依赖或话语关系)组成。
边的表示:每条边是一个三元组,包含源词和目标词的索引以及边的类型或相对位置。
双向DAG LSTM:按照Peng等人(2017)的方法,将输入图分割为两个DAG,分别处理左到右和右到左的边。
DAG LSTM编码:使用DAG LSTM对每个DAG进行编码,输入包括词和边标签。
预测:使用逻辑回归分类器根据两个方向LSTM的实体隐藏状态进行预测,参数包括W_0和b_0。
3.1 输入表示
节点和边标签对于建模句法图都很有用。作为我们DAG LSTM的输入,我们首先通过以下方式计算每条边(i; j; l)的表示:
其中W1和b1是模型参数,e_iei是由索引i指示的源词的嵌入,e_lel是边标签l的嵌入。
3.2 状态转换
基线LSTM模型按顺序学习DAG表示,遵循词序。以边的表示(如x_{i,j}^lxi,jl)作为输入,在前向和后向DAG上执行门控状态转换操作。对于每个词j,其传入边E_{in}(j)Ein(j)的表示被累加为一个向量:
(公式3)
同样,对于每个词j,所有传入节点的状态在传递给门控操作之前被累加为一个单一向量:(公式4)
最后,第j个词的隐藏状态h_jhj的门控状态转换操作可以定义为: (公式5)
其中i_、o_j和f_{i,j}分别是一组输入、输出和遗忘门,而W_x, U_x, b_x(对于x∈{i,o,f,u})是模型参数。
3.3 与Peng等人(2017年)的比较
计算相似性:我们的基线模型在计算上与Peng等人(2017年)的工作相似。
边标签使用差异:在如何将边标签整合到门控网络中,两种方法存在差异。
Peng等人(2017年)的模型变体:他们提出了全参数化(FULL)和边类型嵌入(EMBED)两种变体。FULL为每种边类型分配不同的参数矩阵,而EMBED使用3D张量来处理边标签的嵌入。
我们的模型:我们将边标签作为输入的一部分,并将其嵌入向量与节点表示向量连接。
参数数量和过拟合:我们的方法相比FULL和EMBED需要更少的参数,因此在小规模数据集上更不容易出现过拟合问题。
模型选择:由于参数数量较少,我们的方法被选为基线,并且在第4节中,它也被用于我们的图状态LSTM模型。
4 图状态LSTM
输入图公式:模型的输入图公式遵循第3节的描述。
计算输入表示:模型使用与基线模型相同的方法来计算输入表示。
分类方法:模型执行分类的方法与基线模型相同。
图结构LSTM:与基线的双向DAG LSTM不同,模型使用图结构的LSTM来直接对输入图进行建模,无需分割。
模型概述:图2提供了模型的视觉概述。
状态向量定义:为图中的每个词定义了一个状态向量hj。
图状态:图的状态由所有词的状态组成,可以表示为状态向量的集合。
信息交换:模型通过递归状态转换过程在词之间交换信息,生成一系列图状态。
初始状态:初始图状态由一组初始词状态组成,初始状态向量h0是零向量。
4.1 状态转换
状态转换方法:使用循环神经网络模拟状态转换过程。
信息交换:在每一步允许词与其直接连接的词之间交换信息。
门控LSTM单元:采用门控LSTM单元来记录记忆并控制信息流。
输入定义:定义了词的输入,包括连接到该词的边的表示。
边的表示:边表示为三元组,包括源词、目标词和边标签。
输入和输出边:区分了词的传入和传出边,并分别计算它们的表示。
状态转换公式:给出了从g_{t-1}gt−1到g_tgt的状态转换的数学定义。
模型参数:列出了模型中使用的参数,包括权重矩阵、偏置项和门控操作。
图状态LSTM与双向DAG LSTM的对比
信息流对比:基线DAG LSTM的信息流遵循句子中的自然词序,而图状态LSTM允许每个词与所有图邻居同时交换信息。
全局上下文信息:图状态LSTM可以利用整体上下文信息提取特征,而DAG LSTM处理的是分离的双向信息流。
任意结构处理:图状态LSTM能够处理包括任意循环图在内的任意结构。
信息传播:从初始状态开始,每个词的信息在每个步骤后传播到其图邻居。
非邻近词信息交换:通过多个状态转换步骤实现非邻近词之间的信息交换。
转换步骤实验:实验不同数量的转换步骤,以研究全局编码的有效性。
并行化和效率:与DAG LSTM相比,图状态LSTM允许节点状态更新的并行化,使用GPU可以提高效率。
5 训练
损失函数:模型采用交叉熵损失函数进行训练。
输入和标签:X_iXi代表输入图,y_iyi代表对应的金标准类别标签。
模型参数:\thetaθ表示模型的参数。
优化器:使用Adam优化算法,设置学习率为0.001。
模型选择:选择在开发集上表现最好的模型来评估测试集。
正则化:训练时使用dropout正则化,比率为0.3。
硬件加速:训练和评估过程使用Tesla K20X GPU进行加速。
6 实验
对第2节中讨论的二元关系检测任务和多类关系提取任务进行了实验。
6.1 数据
数据集来源:使用的是Peng等人(2017年)的生物医学领域数据集。
关注点:专注于提取药物、基因和突变之间的三元关系。
数据集规模:包含6987个三元关系实例和6087个二元关系实例。
句子数量:大多数三元关系实例包含多个句子,平均约2个句子。
分类标签:数据集有五种分类标签,包括“耐药或无反应”、“敏感性”、“反应”、“耐药”和“无”。
标签处理:按照Peng等人(2017年)的方法,将多类标签转换为二元标签,将所有关系类别视为“Yes”,“无”关系视为“No”。
6.2 设置
- 评估方法:采用五折交叉验证来评估模型性能。
- 测试准确率:最终的测试准确率是通过对五个折的测试准确率取平均值得到的。
- 开发集:每个折的训练集中随机划分出200个实例作为开发集。
- 批量大小:所有实验的批量大小统一设置为8。
- 词嵌入初始化:使用100维的GloVe词向量进行初始化,这些词向量是基于Wikipedia和网络文本的60亿词预训练得到的。
- 边标签嵌入:边标签嵌入是3维的,并且通过随机方式初始化。
- 词嵌更新:训练过程中不更新预训练的词嵌入。
- 隐藏层维度:LSTM单元中隐藏向量的维度被设置为150。
6.3 开发实验
- 开发实验目的:在药物-基因-突变三元关系数据集上分析模型性能。
- 交叉验证:采用5折交叉验证的首折设置作为数据配置。
- 状态转换次数:实验比较了不同状态转换次数对模型性能的影响。
- 模型变体:比较了仅在前向或后向DAG上执行的模型(forward和backward),将两者隐藏状态连接的模型(concat),以及在原始图上执行的模型(all)。
- 性能趋势:forward和backward的性能低于concat,而all的性能优于concat,表明同时考虑前后关系的优势。
- 状态转换对性能的影响:增加状态转换步骤可以提高模型准确率,因为可以整合更大的上下文信息。
- 状态转换次数的选择:在4次和5次状态转换后性能趋于稳定,因此后续实验将状态转换次数设定为5。
6.4 最终结果
- 模型比较:将图状态LSTM模型与双向DAG基线和其他最新方法进行了比较。
- 多任务学习:+multitask表示同时训练三元和二元关系的方法。
- 基线性能:Bidir DAG LSTM作为基线,准确率低于EMBED和FULL,可能因为第3.3节中提到的差异。
- 最终结果:尽管没有使用多任务学习,但最终结果优于Peng等人(2017年)。
- 单句实例:报告了仅在单句实例上的准确率,所有系统在单句关系上的性能都有所下降。
- 性能下降原因:单句可能无法提供足够的上下文进行消歧,需要研究跨句上下文;另外,由于单句实例较少,可能导致过拟合。
- 过拟合证据:基线模型参数较少,性能下降最小,这可能是过拟合的一个证据。
6.5 分析
- 效率:表4显示了基线模型和我们模型的训练和解码时间。图状态LSTM模型在训练和解码速度上显著优于基线模型。
表4 在药物-基因突变三元交叉句子设置中,训练一个周期和解码的平均时间(秒)在五个折上。
- 句子长度对准确率的影响:图5(a)显示了不同句子长度上的测试准确率。随着句子长度的增加,两种模型的性能都有所提高,GS GLSTM在短句子上表现更好。
- 最大邻居数量对准确率的影响:图5(b)显示了针对最大邻居数量的测试准确率。当图中节点的最大邻居数量增加时,两种模型的性能都有所提高,GS GLSTM在邻居较少的情况下表现更优。
- 案例研究:图4使用两个示例展示了GS GLSTM相对于Bidir DAG LSTM的优势。通过两个具体案例展示了GS GLSTM在上下文信息利用上的优势,特别是在处理依赖树中的叶子节点和兄弟节点时。
图4 示例案例。带有下标1、2和3的词分别代表药物、基因和突变。两个案例的参考结果都是“否”。在这两种情况下,GS GLSTM都做出了正确的预测,而双向DAG LSTM则预测错误。
图5 测试集在(a)不同句子长度和(b)不同最大邻居数量上的性能表现。
6.6 在二元子关系上的结果
模型评估:作者的模型在药物-突变的二元关系抽取任务上进行了评估。表5显示了结果
现有模型比较:与Miwa和Bansal(2016)的模型相比,后者使用序列和树状结构LSTMs进行关系抽取,是当时的最先进模型。
模型性能:GS GLSTM模型在所有系统中表现最佳,表明其在编码输入图中的语言知识方面更为有效。
二元关系难度:二元关系抽取任务相对简单,因此GS GLSTM和Bidir DAG LSTM模型的性能有所提高或保持稳定。
模型比较:作者的双向DAG LSTM模型在整体性能上与FULL模型相当,且在某些情况下略优于FULL模型,特别是在FULL模型仅使用单句实例时。
表5 在二元药物-突变相互作用的五折交叉验证中的平均测试准确率。
6.7 细粒度分类
数据集构成:数据集包含五个类别,这一点在论文的早期部分已经提到。
研究范围扩展:与以往只关注二元关系检测的研究不同,作者还研究了多类分类任务,这可能对实际应用更有帮助。
任务难度:多类关系提取任务比二元关系提取更为复杂和模糊。表6显示了多类关系提取的准确性
性能比较:多类关系提取的准确性与二元关系提取相似,但GS GLSTM在多类分类任务中表现更佳。
模型优势:GS GLSTM在利用上下文信息方面显示出比Bidir DAG LSTM更明显的优势,这在多类分类任务中尤为突出。
表6 多类关系提取的平均测试准确率,使用所有实例(“Cross”)。
7 相关工作
N元关系抽取的历史:从MUC-7开始,主要关注实体-属性关系,也在生物医学领域有所研究。
跨句关系抽取的挑战:先前研究通常依赖共指注释或假设文档描述单一事件,这限制了对上下文表示的学习。
Quirk和Poon的工作:采用远程监督和多样化上下文证据,但不涉及N元关系。
图编码器的应用:Liang等人使用图LSTM进行语义对象解析,而Peng等人研究三元跨句关系。
图LSTM的特点:与Peng等人的工作不同,作者提出的图LSTM不需要图节点的排序,具有高度并行性。
图卷积网络和图递归网络:在NLP任务中用于建模图结构,如语义角色标注、机器翻译等。
GRN的优势:Zhang等人和Song等人展示了GRN在不同任务上的优势。
作者的工作:首次使用GRN来表示依赖和话语结构,并比较了GRN与DAG LSTM在关系提取任务中的性能。
未来工作:计划将GCN和GRN在该任务上进行比较。
8 结论
- 模型探索:研究了一种用于跨句N元关系抽取的图状态LSTM模型,该模型通过递归状态转换细化图状态表示。
- 模型优势:
- 不改变输入图结构,保留所有信息。
- 在计算节点上下文向量时,能够整合兄弟节点信息。
- 具有更好的并行性。
- 性能提升:实验结果显示,与包括双向图LSTM在内的先前模型相比,有显著的性能提升。
- 未来工作:
- 考虑添加指代信息,以帮助信息收集。
- 探索包括词义信息的可能性,以解决由词义引起的混淆问题。