AMR-IE:一种利用抽象语义表示(AMR)辅助图编码解码的联合信息抽取模型

news2024/11/21 2:26:19

Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint Information Extraction

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CjEOAdsm-1673679260352)(Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint Information Extraction.assets/image-20230113160859808.png)]

论文:2210.05958.pdf (arxiv.org)

代码:zhangzx-uiuc/AMR-IE: The code repository for AMR guided joint information extraction model (NAACL-2021). (github.com)

期刊/会议:NAACL2021

摘要

富语义解析的任务,如抽象语义表示(AMR),与信息抽取(IE)具有相似的目标,即将自然语言文本转换为结构化的语义表示。为了利用这种相似性,我们提出了一种新的AMR引导框架,用于联合信息抽取,以在预先训练的AMR解析器的帮助下发现实体、关系和事件。该框架由两个新组件组成:1)基于AMR的语义图聚合器,让候选实体和事件触发词节点从AMR图中收集邻域信息,以便在相关知识元素之间传递消息;2) AMR引导图解码器,根据AMR中层次结构决定的顺序提取知识元素。在多个数据集上的实验表明,AMR图编码器和解码器提供了显著的增益,我们的方法在所有IE子任务上都达到了SOTA。

1、简介

信息提取(IE)旨在从非结构化自然语言文本中抽取结构化知识作为信息网络,而语义解析试图构建语义图来总结输入文本的含义。由于它们都侧重于从句子中抽取主要信息,因此输出信息网络和语义图在节点语义和边缘语义方面有很多共同之处。如图1所示的例子中,信息网络中的许多知识元素可以与语义图中具有相似语义的某些节点完美匹配。此外,这两种类型的图在网络拓扑结构方面也可能相似。更进一步来说,语义图中相邻或通过几跳连接(few hops)的节点在相应的信息网络中也可能彼此接近。在图1中,我们可以看到“Scott Peterson”作为两个事件触发词“murders”和“faces”的共享论元,也直接连接到语义图中的两个主要谓词murder-01和face-01。从全局的角度来看,信息网络可以近似地看作是语义解析的子图,其中IE节点大致是语义图中节点的一个子集,同时保持相似的相互连接。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uH2C8kCn-1673679260354)(Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint Information Extraction.assets/image-20230113194339460.png)]

为了进一步挖掘和利用这些相似性进行信息抽取,我们提出了一个直观有效的框架,利用语义解析中的信息,去抽取细胞系网络组成的实体、关系、事件触发词和事件论元。我们采用抽象语义表示(AMR)作为我们的输入语义图,AMR包含丰富的语义结构和细粒度的节点和边类型。与以往的IE模型相比,我们提出的模型主要由以下两个新颖的组成部分组成。

AMR-Guided Graph Encoding:AMR图拓扑可以直接告知IE模型一些知识元素之间的全局相互依赖关系,即使它们位于原始句子中很远的位置。这样的属性使IE模型更容易捕获一些非本地长距离连接,用于关系和事件论元角色标记。我们设计了一个基于图注意力网络(GAT)的语义图聚合器(semantic graph aggregator),让候选实体和事件触发词节点聚合来自语义图的邻域信息,以便在相关知识元素之间传递消息。在我们的模型中使用的GAT架构是专门设计来允许节点和边缘特征之间的交互,从而可以有效地利用AMR中丰富的边类型。

AMR-Condition Graph Decoding:这两类图中的大量节点具有相似的含义,这使得在信息网络和语义图之间获得有意义的节点对齐成为可能。这种对齐提供了在联合IE模型的解码部分设计更有组织的方法的潜在机会。我们提出了一种新的**分层解码(hierarchical decoding)**方法,而不是像以前的模型(如OneIE)那样使用顺序解码,其中知识元素的类型根据它们在原始句子中的位置从左到右确定。我们使用AMR解析作为确定解码知识元素顺序的条件,其中节点和边基于语义图层次结构以树状顺序确定。

在多个数据集上的实验结果表明,我们提出的模型在所有IE子任务上都显著优于现有的技术。

2、问题描述

我们重点从输入句子中提取实体、关系、事件触发词及其论元,形成一个信息网络。请注意,我们模型中的AMR图不需要一定是对的(ground-truth),而是由预先训练的AMR解析器生成的。因此,我们不包含额外的信息,我们的问题设置与典型的联合信息提取方法相同,如DyGIE++和OneIE。给定一个输入句子 S = { w 1 , w 2 , . . . , w N } S = \{w_1, w_2,...,w_N\} S={w1,w2,...,wN},我们将我们的联合信息抽取问题表述如下。

实体抽取:实体提取的目的是将词跨度识别为实体提及,并将其分类为预定义的实体类型。给定实体类型集合 E E E,实体抽取任务是输出实体提及的集合 ε \varepsilon ε:
ε = { ε i = ( a i , b i , e i ) ∣ a i ≤ b i , e i ∈ E } \varepsilon=\{ \varepsilon_i=(a_i,b_i,e_i)| a_i \le b_i,e_i \in E \} ε={εi=(ai,bi,ei)aibi,eiE}
a i , b i ∈ { 1 , 2 , . . . , N } a_i,b_i \in \{ 1,2,...,N\} ai,bi{1,2,...,N}指的是抽取的实体提及开始索引和结束索引, e i e_i ei表示的是实体的类型,在集合 E E E中。如图1所示,实体提及“Scott Peterson”将被表示为 (0,1PER) \text{(0,1PER)} (0,1PER)

关系抽取:关系抽取的任务是将关系类型分配给所抽取实体中提到的每个可能的有序对。给定标识的实体提及 E E E和预定义的关系类型 R R R,关系集被抽取为
R = { r i = ( ε i , ε j , l i j r ) ∣ l i j r ∈ R , ε i , ε j ∈ ε } R=\{ r_i=(\varepsilon_i,\varepsilon_j,l_{ij}^r) | l_{ij}^r \in R,\varepsilon_i,\varepsilon_j \in \varepsilon \} R={ri=(εi,εj,lijr)lijrR,εi,εjε}
ε i , ε j \varepsilon_i,\varepsilon_j εi,εj是从 ε \varepsilon ε中选出的实体提及,其中 i , j ∈ { 1 , 2 , . . . , ∣ ε ∣ } i,j \in \{ 1,2,...,|\varepsilon|\} i,j{1,2,...,ε}。如图1中的关系提及所示" ("their","son",PER-SOC) \text{("their","son",PER-SOC)} ("their","son",PER-SOC)"。

事件抽取:事件抽取的任务包括提取事件触发词及其论元。事件触发词提取是从事件类型集 T T T中识别出最清楚地表明某一类型事件发生的单词或短语,可以表述为:
T = { T i = ( p i , q i , t i ) ∣ p i ≤ q i , t i ∈ T } T=\{ T_i = (p_i,q_i,t_i)|p_i \le q_i, t_i \in T \} T={Ti=(pi,qi,ti)piqi,tiT}
p i , q i ∈ { 1 , 2 , . . . , N } p_i,q_i \in \{1,2,...,N\} pi,qi{1,2,...,N}指的是抽取出的事件提及开始位置索引和结束位置索引, t i t_i ti T T T中的事件类型。给定预定义的事件论元集 A A A,事件论元抽取的任务是为每个触发词和实体对分配一个论元角色标签,以指示实体提及是否充当事件的某个特定角色,这被表述为抽取的论元集 Λ \Lambda Λ
Λ = { α i = ( T i , ε j , l i j a ) ∣ l i j a ∈ A , T i ∈ A , ε j ∈ ε } \Lambda=\{ \alpha_i=(T_i,\varepsilon_j,l_{ij}^a)|l_{ij}^a\in A,T_i\in A,\varepsilon_j \in \varepsilon \} Λ={αi=(Ti,εj,lija)lijaA,TiA,εjε}
T i , ε j T_i,\varepsilon_j Ti,εj是先前抽取的事件和实体提及, l i j a l_{ij}^a lija是事件论元标签。

信息网络构建:所有这些抽取出来的知识元素组成了一个信息网络 G = ( V , E ) G = (V, E) G=(V,E)(示例如图1所示)。每个节点 v i ∈ V v_i \in V viV是一个实体提及或事件触发词,每个边 e i ∈ E e_i \in E eiE表示一个关系或事件论元角色。因此,我们的问题可以表述为在给定输入句子 S S S的情况下生成一个信息网络 G G G

3、我们的方法

给定一个输入句子 S S S,我们首先使用预训练的基于Transformer的AMR解析器来获得 S S S的AMR图。然后使用RoBERTa对每个句子进行编码,以识别实体提及和事件触发词作为候选节点。在此之后,我们将每个候选节点映射到AMR节点,并使用基于GAT的语义图聚合器强制消息传递,以捕获候选节点之间的全局相互依赖性。然后将所有候选节点及其成对边通过特定任务前馈神经网络来计算得分向量。在解码过程中,我们利用每个AMR图中的层次结构作为条件来决定beam search的顺序,并找到全局得分最高的最佳候选图。

3.1 AMR Parsing

我们使用一个基于Transformer的AMR解析器在AMR 3.0标注上进行预训练,生成一个AMR图 G a = ( V a , E a ) G^a = (V^a, E^a) Ga=(Va,Ea),其中AMR节点与输入句子 S S S中的片段对齐。每个节点 v i a = ( m i a , n i a ) ∈ V a v^a_i = (m^a_i, n^a_i) \in V^a via=(mia,nia)Va表示一个AMR概念(concept)或谓词(predicate),我们使用 m i a , n i a m^a_i, n^a_i mia,nia表示原始句子中该节点的起始和结束索引。对于AMR边,我们用 e i , j a e_{i,j}^a ei,ja表示AMR标注中节点 v i a v^a_i via v j a v^a_j vja之间的具体关系类型。

AMR关系聚类的嵌入:为了降低在数百个细粒度AMR边类型上过度拟合的风险,我们只考虑与IE任务最相关的边类型,并手动定义 M = 12 M = 12 M=12个AMR边类型集群,如表1所示。注意每个 A R G x ARG_x ARGx关系将被视作一个单独个体簇(集群),因为每一个 A R G x ARG_x ARGx表示一个不同的论元角色。对于每个边类型聚类,我们随机初始化一个 d E d_E dE维嵌入,得到一个嵌入矩阵 E ∈ R M × d E E \in \R^{M×d_E} ERM×dE,并在训练过程中进行优化。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MBjWtAhp-1673679260355)(Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint Information Extraction.assets/image-20230113205305388.png)]

3.2 实体和事件触发词识别

我们首先从输入语句中将实体提及和事件触发词识别为候选节点。与Lin等人类似,我们采用条件随机场(CRF)约束的前馈神经网络来识别实体提及和事件触发词的片段范围。

上下文编码:给定一个长度为 N N N的输入句子 S = { w 1 , w 2 , . . . , w N } S = \{w_1, w_2,...,w_N\} S={w1,w2,...,wN},我们首先使用预训练好的RoBERTa编码器计算每个单词 w i w_i wi的上下文单词表示 x i x_i xi。如果一个单词被RoBERTa tokenizer分割成多个片段,我们将所有单词片段的表示向量的平均值作为最终的单词表示。

基于CRF的序列标注:在获得上下文单词表示之后,我们使用前馈神经网络FFN为每个单词计算得分向量 y ^ i = F F N ( x i ) \hat y_i = FFN(x_i) y^i=FFN(xi),其中 y ^ i \hat y_i y^i中的每个元素表示标记集合中某个标记的得分。一个标记路径 z ^ = { z ^ 1 , z ^ 2 , . . . , z ^ N } \hat z=\{\hat z_1,\hat z_2,...,\hat z_N \} z^={z^1,z^2,...,z^N}的综合得分被计算通过:
s ( z ^ ) = ∑ i = 1 N y ^ i , z ^ i + ∑ i = 1 N + 1 P z ^ i − 1 , z ^ i s(\hat z)=\sum_{i=1}^N \hat y_{i,\hat z_i}+\sum_{i=1}^{N+1} P_{\hat z_{i-1},\hat z_i} s(z^)=i=1Ny^i,z^i+i=1N+1Pz^i1,z^i
y ^ i , z ^ i \hat y_{i,\hat z_i} y^i,z^i y ^ i \hat y_i y^i中第 z ^ i \hat z_i z^i元素的得分向量, P z ^ i − 1 , z ^ i P_{\hat z_{i-1},\hat z_i} Pz^i1,z^i指的是标记 z ^ i − 1 \hat z_{i-1} z^i1到标记 z ^ i \hat z_i z^i转发分数(transition score),从优化矩阵 P P P中得到。节点识别训练的目标是最大化对数似然 L I L^I LI的正确标记路径 z z z
L I = s ( z ) − l o g ∑ z ^ ∈ Z e s ( z ^ ) L^I=s(z)-log \sum_{\hat z \in Z} e^{s(\hat z)} LI=s(z)logz^Zes(z^)
我们使用单独的基于CRF的标记器来抽取实体和事件触发词。**注意,我们不使用CRF标记器预测的特定节点类型作为实体和触发词的最终输出分类结果,而只保留标识的实体和触发词范围。**实体和触发词的最终类型由后续解码步骤中的关系和论元提取共同决定。具体来说,我们将在这一步中获得实体span { ( a i , b i ) } i = 1 ∣ ε ∣ \{(a_i, b_i)\}^{|\varepsilon|}_{i=1} {(ai,bi)}i=1ε和触发词片段 { ( p i , q i ) } i = 1 ∣ T ∣ \{(p_i, q_i)\}^{|T|}_{i=1} {(pi,qi)}i=1T的集合,其中 a i , b i , p i , q i a_i, b_i, p_i, q_i ai,bi,pi,qi表示词span的起始索引和结束索引。

3.3 语义图的聚合

为了充分利用AMR分析中共享的语义特征(semantic feature)和拓扑特征(topological feature),我们设计了一个语义图聚合器(semantic graph aggregator),使候选实体节点和事件节点能够基于AMR拓扑聚合来自其邻居的信息。

初始化节点表示:每个实体节点、触发词节点或AMR节点都用向量表示形式 h i 0 h^0_i hi0进行初始化,方法是对其跨度内所有单词的词嵌入进行平均。例如,给定一个实体节点 ( a i , b i ) (a_i, b_i) (ai,bi),其表示向量计算为
h i 0 = 1 ∣ b i − a i + 1 ∣ ∑ k = a i b i x k h^0_i=\frac{1}{|b_i-a_i+1|}\sum_{k=a_i}^{b_i} x_k hi0=biai+1∣1k=aibixk
x k x_k xk表示RoBERTa编码器的词表征。

结点对齐:在进行消息传递之前,我们首先尝试将每个标识的实体节点和触发词节点与其中一个AMR节点对齐。以跨度为 ( a i , b i ) (a_i, b_i) (ai,bi)的实体节点为例。给定AMR节点集合 { ( m i a , n i a ) } i = 1 ∣ V a ∣ \{(m^a_i, n^a_i)\}^{|V^a|}_{i=1} {(mia,nia)}i=1Va,将 b i b_i bi作为实体节点head word的索引,寻找 ( a i , b i ) (a_i, b_i) (ai,bi)的匹配AMR节点 ( m i ∗ a , n i ∗ a ) (m^a_{i^∗},n^a_{i^∗}) (mia,nia),即该节点满足 m i ∗ a ≤ b i ≤ n i ∗ a m^a_{i^∗} \le b_i \le n^a_{i^∗} miabinia。如果没有节点可以通过这种方式匹配到 ( a i , b i ) (a_i, b_i) (ai,bi),我们转向搜索最近的AMR节点:
i ∗ = arg  min ⁡ k ( ∣ b i − m k ∣ + ∣ b i − n k ∣ ) i^*=\text{arg}\ \min_{k}(|b_i-m_k|+|b_i-n_k|) i=arg kmin(bimk+bink)
( m i ∗ a , n i ∗ a ) (m_{i^*}^a,n_{i^*}^a) (mia,nia)是与实体节点 ( a i , b i ) (a_i, b_i) (ai,bi)距离最短的AMR节点。我们还以同样的方式对事件触发词节点进行对齐。

异构图的构建:在为每个已识别的实体提及和事件触发词获得匹配或最近的AMR节点后,我们构造一个具有初始化节点和边缘特征的异构图,如下所示。给定一个AMR图 G a = ( V a , E a ) G^a = (V^a, E^a) Ga=(Va,Ea),我们考虑以下三种情况来初始化每个节点 v i a v^a_i via的特征向量:

  • 节点 v i a v^a_i via已匹配到实体提及或事件触发词。我们将匹配节点的表示向量(而不是 v i a v^a_i via)作为初始化的特征向量。
  • 节点 v i a v^a_i via不匹配任何已识别的节点,而是标记为实体提及或事件触发词的最近节点,例如 ( a i , b i ) (a_i, b_i) (ai,bi)。我们在AMR拓扑中添加一个表示向量为 ( a i , b i ) (a_i, b_i) (ai,bi)的新节点,并将 v i a v^a_i via中的这个新节点与表1中定义的边缘类型Others连接起来。
  • 节点 v i a v^a_i via既不匹配也不作为距离任何实体(触发词)最近的节点。我们使用它自己的节点表示作为初始化的特征向量。

对于每个边 e i , j a e_{i,j}^a ei,ja,我们首先根据表1将其映射到一个AMR关系簇,然后从嵌入矩阵 E E E查找它的表示 e i , j e_{i,j} ei,j,我们用 h i 0 h_i^0 hi0表示每个节点的初始特征。图2显示了该步骤的示例。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ylgL0s9B-1673679260356)(Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint Information Extraction.assets/image-20230114100638815.png)]

基于Attention的信息传递:受图注意力网络(GATs)的启发,我们在AMR图拓扑上设计了一种基于 L L L层注意力的消息传递机制,使实体和触发词节点聚合邻居信息。对于层 l l l中的节点 i i i,我们首先根据节点特征 h i l , h j l h^l_i, h^l_j hil,hjl和边缘特征 e i , j l e^l_{i,j} ei,jl计算每个邻居 j ∈ N i j \in N_i jNi的注意力得分。
α i , j l = e x p ( σ ( f l [ W h i l : W e e i , j : W h j l ] ) ) ∑ k ∈ N i e x p ( σ ( f l [ W h i l : W e e i , k : W h k l ] ) ) \alpha_{i,j}^l=\frac{exp(\sigma(f^l[Wh_i^l:W_ee_{i,j}:Wh_j^l]))}{\sum_{k \in N_i} exp(\sigma(f^l[Wh_i^l:W_ee_{i,k}:Wh_k^l]))} αi,jl=kNiexp(σ(fl[Whil:Weei,k:Whkl]))exp(σ(fl[Whil:Weei,j:Whjl]))
W , W e W,W_e W,We是可训练的参数, f l f^l fl σ ( ⋅ ) \sigma(\cdot) σ()是单一的前向神经网络层和 LeakyReLU \text{LeakyReLU} LeakyReLU激活函数。邻居节点信息 h ∗ h^* h将被计算通过其他邻居节点的加权特征:
h ∗ = ∑ j ∈ N i α i , j l h i l h^*=\sum_{j \in N_i} \alpha_{i,j}^l h_i^l h=jNiαi,jlhil
更新的节点特征是通过原始节点特征及其邻域信息的组合来计算的,其中 γ γ γ控制邻居之间的消息传递级别, W ∗ W^* W表示一个可训练的线性转换参数。
h l + 1 = h l + γ ⋅ W ∗ h ∗ h^{l+1}=h^l+\gamma \cdot W^*h^* hl+1=hl+γWh
我们从图中选择实体和触发词节点,并从最后一层取它们的特征向量 h i L h_i^L hiL作为从AMR图中聚合信息的表示向量(如图2所示)。我们使用 h i e h^e_i hie h i t h^t_i hit分别表示每个实体和触发词的特征。

3.4 模型训练和解码

在本小节中,我们将介绍如何在给定已识别实体的情况下联合解码输出信息网络,并使用其聚合特征 h i e h^e_i hie h i t h^t_i hit触发词节点。我们设计了一种分层解码方法,将AMR层次结构作为条件,以确定更有组织的知识元素解码顺序。

使用全局特征去最大化分数:类似于OneIE,我们使用特定于任务的前馈神经网络将每个节点或节点对映射到一个分数向量。具体来说,我们分别为实体、触发词、关系和论元角色抽取任务计算了四种类型的分数向量 s i e , s i t , s i , j r 和 s i , j a s^e_i,s^t_i,s^r_{i,j}和s^a_{i,j} sie,sit,si,jrsi,ja,其中每个分数向量的维数与每个任务中的类数相同。
s i e = F F N e ( h i e ) , s i t = F F N t ( h i t ) , s i , j r = F F N r ( [ h i e : h j e ] ) , s i , j a = F F N a ( [ h i t : h j e ] ) . s_i^e=FFN^e(h_i^e),s_i^t=FFN^t(h_i^t),\\ s_{i,j}^r=FFN^r([h_i^e:h_j^e]),\\ s_{i,j}^a=FFN^a([h_i^t:h_j^e]). sie=FFNe(hie),sit=FFNt(hit),si,jr=FFNr([hie:hje]),si,ja=FFNa([hit:hje]).
所以,总的得分 c ( G ) c(G) c(G)将被计算如下:
c ( G ) = ∑ i = 1 ∣ S ∣ s i e + ∑ i = 1 ∣ T ∣ s i t + ∑ i = 1 ∣ ε ∣ ∑ j = 1 ∣ ε ∣ s i , j r + ∑ i = 1 ∣ T ∣ ∑ j = 1 ∣ ε ∣ s i , j a c(G)=\sum_{i=1}^{|S|}s_i^e+\sum_{i=1}^{|T|}s_i^t+\sum_{i=1}^{|\varepsilon|}\sum_{j=1}^{|\varepsilon|}s_{i,j}^r+\sum_{i=1}^{|T|}\sum_{j=1}^{|\varepsilon|}s_{i,j}^a c(G)=i=1Ssie+i=1Tsit+i=1εj=1εsi,jr+i=1Tj=1εsi,ja
我们继承了OneIE中使用全局特征的方法,以强迫模型捕获关于全局交互的更多信息。信息网络 G G G的全局分数 g ( G ) g(G) g(G)定义为局部分数 c ( G ) c(G) c(G)与全局特征 f G f_G fG的贡献之和。
g ( G ) = c ( G ) + u ⋅ f G g(G)=c(G)+u \cdot f_G g(G)=c(G)+ufG
u u u是可训练参数。全局特征向量 f G f_G fG由二值组成,表示输出图中知识元素之间是否具有某种相互依赖性(例如,一个攻击者可能是一个被逮捕的人)。在训练过程中,我们使用与OneIE相同的局部特征类别,总训练目标是最大化识别对数似然,即局部分数 s ( G ) s(G) s(G),最小化全局得分ground-truth G ^ \hat G G^与预测信息网络 G G G之间的差距:
max ⁡   L I + c ( G ^ ) − ( g ( G ^ ) − g ( G ) ) \max \ L^I+c(\hat G)-(g(\hat G)-g(G)) max LI+c(G^)(g(G^)g(G))
层级顺序解码:给定所有节点及其成对边的输出得分向量,最直接的方法是输出全局得分最高 g ( G ) g(G) g(G)的信息网络 G G G。由于利用了全局特征,搜索所有可能的信息网络可能会导致指数级的复杂性,因此我们采用了类似的基于波束搜索(beam search)的方法。与OneIE相比,我们创造性地结合了AMR层次结构,以确定更有组织的解码顺序,而不是简单的基于原始句子中的单词位置的左至右顺序。具体来说,给定节点及其与AMR的对齐关系,我们根据其对齐的AMR节点的位置自上而下地对这些节点进行排序,即首先解码离AMR根节点最近的对齐AMR节点。我们用一个例子来说明图3中的解码顺序。我们用 U = { v 1 , v 2 , . . . , v K } U = \{v_1, v_2,...,v_K\} U={v1,v2,...,vK}表示已排序的标识触发词节点和实体节点,类似于Lin等人,我们从 v 1 v_1 v1 v K v_K vK一步一步地添加这些节点,每一步通过枚举新节点和其他现有节点成对边的类型来获得所有可能的子图。我们只保留每一步中最上面的 θ θ θ子图作为候选图,以避免指数复杂度,最后选择第 K K K步中全局得分 g ( G ) g(G) g(G)最高得分图作为输出。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dbeWFcDj-1673679260356)(Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint Information Extraction.assets/image-20230114105442944.png)]

4、实验

4.1 数据

ACE-2005、ERE-EN、GENIA。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Dwx3H4E-1673679260357)(Abstract Meaning Representation Guided Graph Encoding and Decoding for Joint Information Extraction.assets/image-20230114105952151.png)]

4.2 实验设置

Baseline:DyGIE++、OneIE。

实体:只有当预测的词跨度 ( a i , b i ) (a_i, b_i) (ai,bi)和实体类型 e i e_i ei都匹配引用实体时,抽取的实体提及才正确。

事件触发词:如果预测的跨度 ( p i , q i ) (p_i, q_i) (pi,qi)与参考触发词匹配,则正确识别事件触发词(Trg-I)。如果预测的事件类型 t i t_i ti也与参考触发词相匹配,则它被正确分类(Trg-C)。

事件论元:如果 ( T i , ε j ) (T_i,\varepsilon_j) (Ti,εj)与参考事件论元匹配,则预测的事件论元 ( T i , ε j , l i , j a ) (T_i,\varepsilon_j,l_{i,j}^a) (Ti,εj,li,ja)将被正确识别(Arg-I)。它被正确分类(Arg-C)是 l i , j a l_{i,j}^a li,ja类型,也匹配引用论元角色。

关系:预测关系只有在论元 ε i ε_i εi ε j ε_j εj都匹配引用关系时才是正确的。

我们使用Adam在NVIDIA Tesla V100 GPU上训练模型80个epoch(一个训练epoch大约需要10分钟),RoBERTa参数的学习率为1e-5,其他参数的学习率为5e-3。我们将消息传递水平 γ γ γ设为0.001,这是一个相对较低的消息传递水平,因为我们发现过多的消息传递会导致节点失去自身的特征。我们使用两层语义图聚合器,节点的特征维数为2048,边的特征维数为256。对于其他超参数,我们保持它们与OneIE严格相同,以保证公平比较。具体来说,FFN由两层组成,dropout rate为0.4,隐藏单元的数量为150用于实体和关系抽取,600用于事件抽取,beam size设置为10。

4.3 总体效果

我们报告了我们的AMR-IE模型的性能,并将其与表3和表4中之前的方法进行了比较。总的来说,我们的AMR引导方法在包括实体、事件和关系抽取在内的所有IE子任务上都大大优于基线。在关系抽取和事件论元角色标注等边分类任务上,性能提升尤其显著,因为该模型借助外部AMR图结构可以更好地理解知识元素之间的关系。为了进一步显示模型中每个单独部分的帮助,我们引入了用于消融研究了模型的两种变体,并将结果显示在表3中。在没有Enc的AMR-IE中,我们去掉了语义图聚合器,只保留了有序的解码,而在没有Dec的AMR-IE中,我们保留了语义图聚合器,但使用了从左到右的统一解码顺序。从结果中,我们可以看到,仅仅结合图形编码器已经能够大幅提高所有IE子任务的性能,因为所识别的节点可以通过AMR拓扑上的消息传递捕获一些全局交互。此外,使用AMR引导的解码顺序可以进一步提高性能,特别是在事件论元抽取任务上。
在这里插入图片描述

4.4 消息传递的影响

我们还进行了参数敏感性分析,以公式(11)中定义的 γ γ γ的影响,它控制了从AMR图中的邻居节点聚集多少信息。我们将这个参数从10−5更改为10,并在图4中显示了ACE-05E数据集上IE子任务的性能趋势。**我们可以发现,对于每个子任务,模型的性能都经历了一个上升趋势,随着消息传递级别的提高。然而,当 γ γ γ持续增加到10-2以上时,所有子任务的性能都将出现明显的下降。这种现象符合我们的直觉,因为被识别的节点可以通过消息传递从它们的AMR邻居收集有用的信息。但是,如果节点过多地关注它们的邻域信息,它们将失去一些自身固有的语义特征,从而导致性能下降。**此外,我们还可以看到,相对于实体和触发词抽取任务,关系和论元提取任务的性能随 γ γ γ的变化更为剧烈。这是因为边类型预测需要对所涉及的两个节点进行高质量的嵌入,这使得边类型预测任务对消息传递更加敏感。

4.5 问题分析

为了进一步理解我们提出的AMR引导编码和AMR条件解码方法如何帮助提高性能,我们从AMR-IE模型的输出中选择典型示例用于表5中的说明。

在这里插入图片描述

5、相关工作

最近的一些努力将依赖解析树(dependency parsing tree)纳入神经网络,用于事件抽取和关系抽取。对于语义角色标记(semantic role labeling,SRL), Stanovsky和Dagan通过在两个任务之间创建映射,设法利用了SRL和开放域IE之间的相似性。Huang等人使用AMR作为IE模型的更简洁的输入格式,但他们将每个AMR分解为三元组,以捕获节点和边之间的局部上下文信息,而节点信息并没有在全局图拓扑中传播。Rao等人提出了一种基于子图匹配的方法来从AMR图中提取生物医学事件,而Li等人使用另一种基于GCN的编码器来获得更好的单词表示。

此外,图神经网络也被广泛用于事件抽取以及关系和实体抽取。图神经网络也证明了编码句子的其他类型的内在结构的有效性,例如知识图谱,文档级关,以及自构图。然而,所有这些方法都专注于单个IE任务,而不能扩展到提取包含实体、关系和事件的联合信息网络。

最近有一些研究专注于构建用于同时执行多个IE任务的联合神经模型,例如联合实体和关系抽取以及联合事件和实体抽取。DyGIE++设计了一个基于跨度图传播的联合模型来提取实体、事件和关系,而OneIE进一步利用全局特征来促进模型捕获更多的全局交互。与OneIE中的flat encoder相比,我们提出的框架利用语义图聚合器来合并来自细粒度AMR语义的信息,并在编码阶段强制执行全局交互。此外,我们创造性地使用AMR层次结构来决定知识元素的解码顺序,而不是简单的从左到右顺序解码器。与flat encoder相比,AMR引导的图编码器和解码器都被证明是非常有效的。

6、总结和未来工作

AMR解析和IE具有从非结构化文本构建语义图的相同目标。**IE更关注目标本体,因此它的输出可以看作是AMR图的一个子集。**在本文中,我们提出了两种直观而有效的方法,在编码和解码阶段利用AMR解析的指导来改进IE。在未来,我们计划将AMR图与实体共指图集成,使我们的IE框架可以扩展到文档级。

外部参考资料

全网首讲最详细AMR系统介绍(1):Abstract Meaning Representation(AMR,抽象语义表示) 的基础表示逻辑;附英文版原 pdf 资料_暖仔会飞的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/162776.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【学习笔记】【Pytorch】七、卷积层

【学习笔记】【Pytorch】七、卷积层学习地址主要内容一、卷积操作示例二、Tensor(张量)是什么?三、functional.conv2d函数的使用1.使用说明2.代码实现四、torch.Tensor与torch.tensor区别五、nn.Conv2d类的使用1.使用说明2.代码实现六、卷积公…

C/C++ noexcept NRVO

为什么需要noexcept为了说明为什么需要noexcept&#xff0c;我们还是从一个例子出发&#xff0c;我们定义MyClass类&#xff0c;并且我们先不对MyClass类的移动构造函数使用noexceptclass MyClass { public:MyClass(){}MyClass(const MyClass& lValue){std::cout << …

使用语雀绘制 Java 中六大 UML 类图

目录 下载语雀 泛化关系&#xff08;Generalization&#xff09; 实现关系&#xff08;Realization&#xff09; 关联关系&#xff08;Association&#xff09; 依赖关系&#xff08;Dependency&#xff09; 聚合关系&#xff08;Aggregation&#xff09; 组合关系&…

【Python学习】列表和元组

前言 前四天每天更新了小白看的基础教程 今天开始就更新一下&#xff0c;深入一点的知识点吧 还是老话&#xff1a;刚接触python的宝子可以点击文章末尾名片进行交流学习的哦 什么是列表和元组 列表是动态的&#xff0c;长度大小不固定&#xff0c;可以随意地增加、删减或…

【软件测试】软件测试基础2

1. 软件测试的生命周期 软件测试的生命周期&#xff1a; 需求分析→测试计划→ 测试设计、测试开发→ 测试执行→ 测试评估 ● 需求分析&#xff1a;站在用户的角度&#xff1a;查看需求逻辑是否正确&#xff0c;是否符合用户的需求和行为习惯&#xff1b;站在开发人员的角度&…

Nexus使用

环境 apache-maven-3.5.4nexus-3.38.1-01 Android开发中常用的maven代理地址 阿里云&#xff1a;http://maven.aliyun.com/nexus/content/groups/public/google&#xff1a;https://dl.google.com/dl/android/maven2/jcenter&#xff1a;https://jcenter.bintray.com/mavenC…

Leetcode:236. 二叉树的最近公共祖先(C++)

目录 问题描述&#xff1a; 实现代码与解析&#xff1a; 原理思路: 问题描述&#xff1a; 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为&#xff1a;“对于有根树 T 的两个节点 p、q&#xff0c;最近公共祖先表示为一个节点 x&…

Xmanager7远程登录ubuntu20.04

Xmanager7远程登录ubuntu20.04 本文不介绍Xmanager7的下载和安装方法&#xff0c;详细内容可以参考【实用软件】Xmanager 7.0安装教程 - 哔哩哔哩 (bilibili.com)。关于Xmanager7远程登录的教材参考于 (149条消息) Xmanager远程桌面教程_周先森爱吃素的博客-CSDN博客_xmanage…

代码随想录第60天|84.柱状图中最大的矩形

84.柱状图中的最大的图形 总体思路&#xff1a;找到左右两个方向第一个小于该柱子高度的下标&#xff0c;用右下标-左下标-1得到该柱子高度对应的宽度w,再用宽度w*高度h得到面积&#xff0c;返回面积最大值 双指针法&#xff08;超时&#xff09; for循环判断左右第一个小于…

【NI Multisim 14.0虚拟仪器设计——虚拟仪器的引入】

目录 序言 前言 &#x1f349;知识点 一、虚拟仪器的引入 &#x1f34a;1.工具栏 &#x1f34a; 2.基本操作 ①仪器的选用与连接 ②仪器参数的设置 序言 NI Multisim最突出的特点之一就是用户界面友好。它可以使电路设计者方便、快捷地使用虚拟元器件和仪器、仪表进行电…

Linux云服务器下的gitee提交代码方法

目录 创建一个gitee仓库 gitee提交代码三板斧 1. git add 提交的文件 2. git commit -m "提交日志" 3. git push 可能存在的问题 .gitignore介绍 如何删除文件 创建一个gitee仓库 gitee提交代码三板斧 1. git add 提交的文件 作用&#xff1a;添加我…

Electron + React 应用打包全流程

&#xff08;第一次用 Typora 写博&#xff0c;希望效果不错~&#xff09; 这几天有个创意编程比赛&#xff0c;要写一个电脑端应用。我准备用 React.js Electron 做&#xff08;因为熟悉~&#xff09;&#xff0c;编程部分一路风雨无阻&#xff0c;到了打包却出现了问题。El…

多轮对话(一):概述(意图识别+槽填充)

一、对话系统 基于流水线的面向任务的对话系统包含了四个关键部分&#xff1a; 语言理解。它被称为自然语言理解&#xff08;NLU&#xff09;&#xff0c;它把用户话语解析为预定义的语义槽。对话状态跟踪器。它管理每一轮的输入与对话历史&#xff0c;输出当前对话状态。对话…

Sechunter移动应用隐私合规检测详解

概述&#xff1a; 受益于移动设备的广泛普及&#xff0c;移动应用近年来得到了蓬勃发展。基于移动设备集成的各类传感器&#xff0c;众多功能丰富的移动应用被开发出来&#xff0c;聚集了大量高价值用户隐私数据&#xff0c;包括用户身份信息、地理位置信息、账户资料信息等。…

玩转机密计算从 secGear 开始

随着网络与计算业务的快速发展&#xff0c;数据成为数字经济的关键生产要素&#xff0c;如何高质量挖掘数据价值&#xff0c;构建安全、合规、可信的数据流通&#xff0c;成为推动数字经济健康发展的关键。此外&#xff0c;根据我国个人信息保护法、欧盟通用数据保护条例 GDPR …

IDEA安装使用代码提交模板

IDEA安装使用代码提交模板 1. idea安装git commit template插件 2、重启idea 3、选择要提交的文件右击&#xff08;或CtrlShiftK&#xff09;&#xff0c;如下图&#xff1a; 3.1 Type of change用于说明commit的类别,常用的标识如下&#xff1a; feat: 新功能&#xff08;f…

501. 二叉搜索树中的众数

501. 二叉搜索树中的众数 难度简单 给你一个含重复值的二叉搜索树&#xff08;BST&#xff09;的根节点 root &#xff0c;找出并返回 BST 中的所有 众数&#xff08;即&#xff0c;出现频率最高的元素&#xff09;。 如果树中有不止一个众数&#xff0c;可以按 任意顺序 返…

Effective C++条款38:通过复合塑模出 has-a 或“根据某物实现出“

Effective C条款38&#xff1a;通过复合塑模出 has-a 或"根据某物实现出"&#xff08;Model "has-a" or "is-implemented-in-terms-of" through composition&#xff09;条款38&#xff1a;通过复合塑模出 has-a 或"根据某物实现出"1、…

Batch Normalization

1、原理 在图像预处理过程中会对图像进行标准化处理&#xff0c;这样能够加速网络的收敛速度。 如下图所示&#xff0c;对于Conv1来说输入的是满足某一分布的特征矩阵&#xff0c;但对于Conv2来说输入的feature map就不一定满足某一分布规律。 Batch Normalization的目的就是使…

大坝安全在线监控系统包含哪些内容?怎样提升水库大坝信息化管理水平?

平升电子大坝安全在线监控系统根据SL551-2012《土石坝安全监测技术规范》的整编要求&#xff0c;设置了变形监测、渗流监测、环境量监测。大坝安全在线监控系统可及时了解大坝的工作性态和水库可能存在的事故隐患&#xff0c;为大坝安全管理与水库运行调度提供了准确、及时的现…