Document-Level Event Argument Extraction via Optimal Transport
论文:https://aclanthology.org/2022.findings-acl.130/
代码:-
期刊/会议:ACL 2022
摘要
事件论元抽取(EAE)是事件抽取的子任务之一,旨在识别每个实体在特定事件触发词中的作用。尽管先前的工作在句子级EAE方面取得了成功,但对文档级的探索较少。特别是,尽管句子的句法结构已被证明对句子级EAE有效,但先前的文档级EAE模型完全忽略了文档的句法结构。因此,在这项工作中,我们研究了句法结构在文档级EAE中的重要性。具体来说,我们建议使用最优传输(Optimal Transport,OT)来诱导基于句子级句法结构的文档结构,并针对EAE任务进行定制。此外,我们提出了一种新的正则化技术,以明确约束无关上下文词在EAE最终预测中的贡献。我们在基准文档级EAE数据集RAMS上进行了广泛的实验,从而获得了最先进的性能。此外,我们在ACE 2005数据集上的实验通过建立新的最先进的结果,揭示了所提出的模型在句子级EAE中的有效性。
1、简介
需要更好的方法来修剪文档中基于依赖关系的结构,以更好地保留重要单词并排除有噪声的单词。与之前的工作不同,以前的工作采用简单的基于语法的规则,即到依赖路径的距离(Zhang et al,2018),我们认为修剪操作也应该意识到单词的语义。换句话说,应该考虑两个标准,即句法和语义相关性。具体地说,如果一个词与依赖结构中的事件触发词/论元词有很小的距离(即,基于语法的重要性),并且它在语义上与依赖路径中的一个词相关(即,根据语义的重要度),则该词被保留在文档级EAE的文档结构中。注意,单词之间的语义相似性可以从模型诱导的单词表示中获得。这一想法的一个关键挑战是句法和语义距离的不同性质,这使确定单词对结构的重要性的信息组合变得复杂。此外,一个单词的保留决定也应结合EAE文档结构中其他单词的潜在贡献。因此,受依赖路径作为文档结构修剪的锚的启发,我们建议将单词的句法和语义距离的联合考虑问题转化为在非DP和在DP单词之间找到最佳对齐。最优对齐将通过最优传输(OT)方法来解决,其中在联合优化问题中同时建模单词与依赖路径上单词的句法和语义距离。OT是一种已建立的机制,用于根据两组点(即,在我们的情况下,在DP词外和DP词上)的成对运输成本和在这些点上累积的配送质量,有效地找到两组点之间的最佳运输计划(即,对齐)。我们建议在我们的文档级EAE问题中,利用单词的语义相似性来获得它们的运输成本,同时利用到事件触发词/论元的句法距离来计算OT的单词质量分布。最后,为了修剪文档结构,如果通过OT解决方案将一个非DP字与一个在DP字对齐,则该非DP字被认为对文档结构很重要(因此被保留)。修剪后的文档结构将被用来学习输入文档的表示向量,以使用图卷积网络(GCN)执行论元角色预测(Kipf and Welling,2017)。
尽管基于OT的修剪方法可以帮助排除文档结构中EAE的不相关单词,但由于输入编码器中的上下文化(例如,BERT),它们的噪声信息可能仍然被编码在相关单词的表示中。因此,为了改进表示学习,我们提出通过一种基于修剪后的文档结构的新正则化技术来明确约束不相关单词对表示学习的影响。特别是,我们试图将不相关的单词添加回修剪后的结构(从而恢复原始树),并确保由于这种添加而导致的表示向量的变化最小化。因此,除了修剪后的结构外,我们在原始依赖结构上应用GCN模型,以获得单词的另一组表示向量。最后,在最终损失函数中,我们引入了从修剪后的结构和原始结构获得的表示向量之间的差异,以实现对无关单词的贡献约束。在我们的实验中,我们在句子级和文档级EAE基准数据集上评估了我们的模型,通过在这两种情况下建立新的最先进的结果来证明所提出的模型的有效性。
2、模型
问题定义:EAE的目标是识别实体提及对特定事件触发词的作用。这个任务可以定义为多分类问题。正式的来讲,给出一个文档
D
=
[
w
1
,
w
2
,
…
,
w
n
]
D=[w_1,w_2,\ldots,w_n]
D=[w1,w2,…,wn],触发词
w
t
w_t
wt和候选论元
w
a
w_a
wa,这个目标是预测标签
L
=
[
l
1
,
l
2
,
…
,
l
m
]
L=[l_1,l_2,\ldots,l_m]
L=[l1,l2,…,lm]中的一个标签作为候选论元
w
a
w_a
wa在触发词
w
t
w_t
wt引发的作用。标签集
L
L
L中包含了一个特殊标签None
,来表示论元
w
a
w_a
wa和触发词
w
t
w_t
wt之间没有关系。
模型总览:所提出的模型由四个主要组件组成:1)输入编码器,用于使用高维向量表示文档中的单词;2) 依赖项修剪,使用最优传输(OT)来修剪依赖树中的不相关单词;3) 正则化,明确地最大限度地减少不相关单词对表征学习的贡献;以及4)预测,以使用针对文档的单词诱导的表示来进行最终预测。
2.1 输入编码器
使用高维的向量 x i x_i xi来表示每一个单词 w i ∈ D w_i \in D wi∈D。向量xi由以下向量串联而成:A)上下文化单词嵌入:我们输入文本 [ C L S ] w 1 w 2 … w n [ S E P ] [CLS] w_1w_2 \ldots w_n [SEP] [CLS]w1w2…wn[SEP]送入BERTbase模型(Devlin et al,2019);我们使用 w i w_i wi在最后一层中的隐藏状态作为上下文化的单词嵌入。注意,对于由多个分词组成的单词,我们取其分词表示的平均值;和B)距离嵌入:我们使用从距离嵌入表(随机初始化)获得的高维向量来表示单词 w i w_i wi到触发词和论元词(即, ∣ i − t ∣ |i−t| ∣i−t∣和 ∣ i − a ∣ |i−a| ∣i−a∣)的相对距离。在训练期间更新距离嵌入表。此外,在我们的实验中,我们发现固定BERT参数更有帮助。因此,为了将向量 x i x_i xi定制为EAE任务,我们将向量 X = [ x 1 , x 2 , … , x n ] X=[x_1,x_2,\ldots,x_n] X=[x1,x2,…,xn]馈送到双向长短期记忆网络(BiLSTM)。从BiLSTM获得的隐藏状态, H = [ h 1 , h 2 , … , h n ] H=[h_1,h_2,\ldots,h_n] H=[h1,h2,…,hn],将被后续组件使用。
2.2 依赖项剪枝
为了使用输入文档 D D D的句法结构,我们利用了文档中句子的依赖树。在这里,我们使用斯坦福CoreNLP解析器生成的依赖树的无向版本。为了连接句子的依赖树以形成 D D D的单个依赖图,类似于(Gupta et al,2019),我们为 D D D中的每对连续句子在依赖树的根之间添加一条边。因此,生成的 D D D的句法树,称为 T T T,将包含所有单词 w i ∈ D w_i∈D wi∈D。 D D D的完整树 T T T可能包含用于 w a w_a wa相对于事件触发词 w t w_t wt的论元角色预测的相关和不相关单词。因此,有必要修剪该树以仅保留相关单词,从而防止不相关单词为表示学习引入的潜在噪声。受先前工作中句子级EAE依赖路径有效性的启发(Li et al,2013),我们使用 T T T中事件触发词 w t w_t wt和论元候选 w a w_a wa之间的依赖路径(DP)作为锚来剪枝不相关的单词。特别是,除了DP中的单词(可能会错过一些重要的上下文单词进行预测)之外,我们试图只重新训练 T T T中在句法和语义上与DP中的词接近的非DP单词(即,将DP单词和非DP单词对齐)。我们建议使用最优传输(OT)来联合考虑该单词对齐的语法和语义。在下文中,我们首先正式描述OT。然后,我们将提供如何利用OT来实现我们的想法的详细信息。
OT是一种既定的方法,用于找到将一种分配转换(即运输)为另一种分配的最佳计划。形式上,给定域
X
,
Y
\mathcal X ,\mathcal Y
X,Y上的概率分布
p
(
x
)
p(x)
p(x)和
q
(
y
)
q(y)
q(y),以及代价/距离函数
C
(
x
,
y
)
:
X
×
Y
→
R
+
C(x,y):\mathcal X \times \mathcal Y \to \mathbb{R}_+
C(x,y):X×Y→R+对于
X
\mathcal X
X到
Y
\mathcal Y
Y的映射,OT通过解决以下问题,找到具有边际
p
(
x
)
p(x)
p(x)和
q
(
y
)
q(y)
q(y)的最优联合排列/分布
π
∗
(
x
,
y
)
π*(x,y)
π∗(x,y)(在
X
,
Y
\mathcal X ,\mathcal Y
X,Y上),即从
p
(
x
)
p(x)
p(x)到
q
(
y
)
q(y)
q(y)的最廉价运输:
π
∗
(
x
,
y
)
=
min
π
∈
∏
(
x
,
y
)
∫
y
∫
X
π
(
x
,
y
)
C
(
x
,
y
)
d
x
d
y
s
.
t
.
x
∼
p
(
x
)
,
y
∼
q
(
y
)
\pi ^* (x,y)=\min_{\pi \in \prod (x,y)} \int_{\mathcal y} \int_{\mathcal X} \pi(x,y) C(x,y) dxdy \\ s.t. x \sim p(x),y \sim q(y)
π∗(x,y)=π∈∏(x,y)min∫y∫Xπ(x,y)C(x,y)dxdys.t.x∼p(x),y∼q(y)
其中,
∏
(
x
,
y
)
\prod(x,y)
∏(x,y)是具有边际
p
(
x
)
p(x)
p(x)和
q
(
y
)
q(y)
q(y)的所有联合分布的集合。注意,如果分布
p
(
x
)
p(x)
p(x)和
q
(
y
)
q(y)
q(y)是离散的,则上述方程中的积分被一个和代替,并且联合分布
π
∗
(
x
,
y
)
π^*(x,y)
π∗(x,y)由一个矩阵表示,该矩阵的项
(
x
,
y
)
(
x
∈
X
,
y
∈
Y
)
(x,y)(x \in \mathcal X,y \in \mathcal Y)
(x,y)(x∈X,y∈Y)表示将数据点
x
x
x变换为
y
y
y以将分布
p
(
x
)
p(x)
p(x)变换为
q
(
y
)
q(y)
q(y)的概率。注意,为了获得数据点
X
,
Y
\mathcal X ,\mathcal Y
X,Y之间的硬对齐,我们可以将
π
∗
(
x
,
y
)
π^*(x,y)
π∗(x,y)的每一行与具有最高概率的列对齐,即,
y
∗
=
arg
max
y
∈
Y
π
∗
(
x
,
y
)
y^*=\arg \max _{y \in Y}π^*(x,y)
y∗=argmaxy∈Yπ∗(x,y),其中
y
∗
y^*
y∗是
Y
\mathcal Y
Y中与数据点
x
∈
X
x \in \mathcal X
x∈X对齐的数据点。
在我们的问题中,OT最重要和有用的特征是,它可以根据两个标准以最低的成本找到两组数据点之间的传输(即对齐):1)数据点间的距离,以及2)它们的概率质量之间的差。特别是,这两个标准可以用来捕捉我们的模型中所需的语义和句法相似性,以找到非DP词和在DP词之间的一致性。具体来说,我们使用DP上的单词作为域 Y Y Y中的数据点,使用DP外的单词作为区域 X X X中的数据点将。为了计算 x ∈ X , y ∈ Y x \in \mathcal X,y \in \mathcal Y x∈X,y∈Y的分布 p ( x ) p(x) p(x)和 q ( y ) q(y) q(y)(即数据点的概率质量),我们使用基于语法的重要性得分。形式上,对于单词 w i w_i wi,我们计算其到依赖树中的触发词和候选论元的距离(依赖路径的长度),即分别为 d i t d^t_i dit和 d i a d^a_i dia。然后,计算单词 x = w i ∈ X x=w_i∈\mathcal{X} x=wi∈X的概率质量作为两个距离的最小值,即 p ( x ) = m i n ( d i t , d i a ) p(x)=min(d^t_i,d^a_i) p(x)=min(dit,dia)。注意,分布 p ( y ) p(y) p(y)是类似地计算的; p ( x ) p(x) p(x)和 q ( y ) q(y) q(y)也在它们对应的集合上用softmax归一化以获得分布。为了获得每对单词 ( x , y ) ∈ X × Y (x,y) \in \mathcal X \times \mathcal Y (x,y)∈X×Y之间的距离/运输成本 C ( x , y ) C(x,y) C(x,y),我们建议基于它们的表示向量 h x h_x hx和 h y h_y hy在 H H H: C ( x , y ) = ∥ h x − h y ∥ C(x,y)=\parallel h_x−h_y \parallel C(x,y)=∥hx−hy∥中的欧几里得距离来使用它们的语义信息。
使用此设置,求解上述方程返回最佳对齐
π
∗
(
x
,
y
)
π^*(x,y)
π∗(x,y),该对齐可用于将
X
\mathcal X
X中的每个数据点与
Y
\mathcal Y
Y中的一个数据点对齐。然而,在我们的问题中,我们寻找
X
\mathcal X
X中数据点的子集与
Y
\mathcal Y
Y中的数据点对齐,以便在
D
D
D的依赖结构中保留。因此,我们将一个额外的数据点“NULL”添加到
Y
\mathcal Y
Y,其表示是通过对
X
\mathcal X
X中所有数据点的表示进行平均来计算的,并且概率质量是
X
\mathcal X
X中数据点的概率质量的平均值。与
Y
\mathcal Y
Y中的该数据点的对齐将用作空对齐,指示
X
\mathcal X
X中的对齐数据点,即偏离DP字,不应保留在修剪的树中。
X
\mathcal X
X中具有非空对齐的其他单词,称为
I
(
I
⊂
X
)
I(I⊂X)
I(I⊂X),将保留在
D
D
D的修剪树中。从
T
T
T中删除为DP单词分配的NULL
将生成一个新的图,该图可能包含D的论元角色预测中最重要的单词,我们还保留了沿着触发词/论元词和
I
I
I中的词之间的依赖路径的任何词,从而产生了一个新的图
T
′
T'
T′来表示具有重要上下文词的
D
D
D。
在下一步中,我们将 T ′ T' T′输入到图卷积网络(GCN)中(Kipf and Welling,2017;Nguyen and Grishman,2018),以利用 H H H中的BiLSTM诱导向量作为输入,学习 T ′ T' T′中单词的更多抽象表示向量。我们将在GCN模型GCN的最后一层中产生的隐藏向量表示为: H ′ = h i 1 ′ , … , h i m ′ = G C N ( H , T ′ ) H' = h_{i_1}',\ldots,h_{i_m}'=GCN(H,T') H′=hi1′,…,him′=GCN(H,T′),其中 m m m是 T ′ T' T′(m<n)中的单词数量,并且 h i k ′ h_{i_k}' hik′是单词 w i k w_{i_k} wik(即 T ′ T' T′中 k k k个单词)的向量。
2.3 正则化
通过使用修剪树 T ′ T' T′来计算 H ′ H' H′中的表示向量,我们期望明确地引导这些向量:(i)对相关/重要的上下文词进行编码,以及(ii)从不相关的词中排除潜在的噪声信息,用于 w a w_a wa的角色预测。然而,由于具有BERT的输入编码器中的上下文,不相关单词的噪声信息可能仍然被包括在修剪树 T ′ T' T′中所选单词的表示 H H H中,从而被GCN传播到表示 H ′ H' H′中。因此,为了进一步限制无关单词对表示学习的贡献,我们引入了一种新的正则化技术,该技术鼓励从 D D D中的每个单词获得的表示类似于仅从 T ′ T' T′中的相关单词获得的表达(即添加不相关的单词不会显著改变表示)。由于角色预测将使用GCN模型的输出向量,我们基于从GCN导出的表示向量来实现这种正则化技术。形式上,我们首先将 D D D的 H H H和全依赖树 T T T馈送到相同的GCN模型中,即 H " = G C N ( H , T ) H"=GCN(H,T) H"=GCN(H,T)。然后,我们通过执行最大池化来计算集合 H ′ H' H′(基于 T T T)和 H " H" H"(基于 T T T)的向量表示向量 h ′ ‾ \overline{h'} h′和 h ′ ′ ‾ \overline{h''} h′′,即, h ′ ‾ = MAX-POOL ( h i 1 ′ , … , h i m ′ ) , h ′ ′ ‾ = MAX-POOL ( h i 1 ′ ′ , … , h i m ′ ′ ) \overline {h'}=\text{MAX-POOL}(h_{i_1}',\ldots,h_{i_m}'),\overline {h''}=\text{MAX-POOL}(h_{i_1}'',\ldots,h_{i_m}'') h′=MAX-POOL(hi1′,…,him′),h′′=MAX-POOL(hi1′′,…,him′′)。最后,我们通过将它们的L2距离添加到总体损失函数中来增强 h ′ ‾ \overline{h'} h′和 h ′ ′ ‾ \overline{h''} h′′的相似性: L r e g = ∥ h ′ ‾ − h ′ ′ ‾ ∥ L_{reg}=\parallel \overline{h'} - \overline{h''} \parallel Lreg=∥h′−h′′∥。
2.4 预测
为了对 w a w_a wa和 w t w_t wt进行论元角色预测,我们形成整体向量 V = [ h t ′ , h a ′ , h ′ ‾ ] V=[h_t',h_a',\overline{h'}] V=[ht′,ha′,h′],其中 h t ′ , h a ′ h_t',h_a' ht′,ha′是 H ′ H' H′中 w a w_a wa和 w t w_t wt的表示向量。因此, V V V将被两层前馈网络使用,以获得可能的论元角色上的分布 P ( ⋅ ∣ D , w t , w a ) P(·|D,w_t,w_a) P(⋅∣D,wt,wa)。为了训练模型,我们使用负对数似然损失: L p r e d = − log P ( l ∣ D , w t , w a ) L_{pred}=−\log P(l|D,w_t,w_a) Lpred=−logP(l∣D,wt,wa),其中 l l l是正确标签。因此,我们模型的总体损失函数为: L = L p r e d + β L r e g L=L_{pred}+βL_{reg} L=Lpred+βLreg,其中 β β β是一个平衡参数。
3、实验
实验结果:
消融实验:
4、总结
在这项工作中,我们提出了一个新的文档级EAE的文档结构感知模型。我们的模型采用了句子的依赖树,并提出了一种基于最优传输的新技术来修剪EAE任务中文档的依赖树。此外,我们引入了一种新的正则化方法来明确约束无关词对表示学习的贡献。我们的大量实验证明了所提出的模型的有效性。未来,我们计划将我们的模型应用于其他IE任务。