Efficient Zero-shot Event Extraction with Context-Definition Alignment
code:tencent-ailab/ZED: This is the repository for EMNLP 2022 paper “Efficient Zero-shot Event Extraction with Context-Definition Alignment” (github.com)
paper:[2211.05156] Efficient Zero-shot Event Extraction with Context-Definition Alignment (arxiv.org)
期刊/会议:EMNLP 2022
摘要
事件抽取(EE)是从文本中识别感兴趣的事件提及的任务。传统的工作主要以监督的方式为主。然而,这些监督的模型不能概括为预定义本体之外的事件类型。为了填补这一空白,许多工作都致力于零样本EE问题。本文遵循事件类型语义建模的趋势,但又向前迈进了一步。我们认为,使用事件类型名称的静态嵌入可能不够,因为单个单词可能具有歧义,我们需要一个句子来准确定义语义类型。为了对定义语义进行建模,我们使用两个独立的transformer模型来将上下文的事件提及和相应的定义投影到相同的嵌入空间中,然后通过对比学习最小化它们的嵌入距离。除此之外,我们还提出了一个升温阶段,以帮助模型了解类似定义之间的细微差别。我们用定义(ZED)来命名我们的方法零样本事件抽取。在MAVEN数据集上的实验表明,由于不相交的设计,我们的模型在快速推理速度上显著优于所有以前的零样本EE方法。进一步的实验还表明,当标注可用时,ZED可以容易地应用于少样本设置,并且始终优于监督的baselin方法。
1、简介
事件抽取,即从文档中识别事件并将它们分类为预定义的事件类型的任务,是一个基础的NLP问题。事件抽取作为一项以触发词为中心的信息提取任务,是一系列以事件为中心的NLP应用的基础,包括事件关系抽取、事件模式归纳和缺失事件预测。
传统的事件抽取工作主要关注在监督学习环境下学习识别和分类事件,在监督学习环境中,可以使用预定义的事件本体和大规模专家标注。然而,学习到的监督模型不容易应用于预定义本体之外的新事件类型,限制了这些模型在实际应用中的使用。
最近,大规模预训练语言模型展示了强大的语义表示能力,并激发了一系列在零样本设置中抽取事件的工作。例如,Du和Cardie提出为每个事件类型手动设计模板,将事件抽取问题转换为问答(QA)任务,然后利用QA模型抽取事件。随后,Lyu等人提出将候选触发词和事件类型用语言表达成假设和前提,并利用预先训练好的文本蕴涵模型(pretrained textual entailment)来抽取事件。然而,正如Lyu等人分析的那样,这些模型严重依赖模板设计,并且经常存在原始训练任务和新任务之间的领域迁移问题。此外,由于这些模型需要对事件提及和事件类型进行联合编码,因此时间复杂度为 O ( N ∗ T ) O(N*T) O(N∗T), N , T N,T N,T分别代表事件提及候选词和事件类型的数量。考虑到深度模型推理的低推理速度和高计算成本,这种复杂性对实时EE系统来说是一个巨大的负担。
为了避免手动设计模板并提高推理效率,另一项工作,Zhang等人试图利用预训练语言模型(即BERT)来获得上下文化的事件类型表示。该模型可以在推理过程中解码提及和标签表示,并根据余弦相似度将候选触发词预测为最相似的事件类型。结果表明,该方法可以显著降低从 O ( N ∗ T ) O(N * T) O(N∗T)到 O ( N + T ) O(N + T) O(N+T)的推理时间复杂度。然而,正如实验所示,仅使用标名字可能不会产生良好的事件类型表示,因为所选择的单词可能具有歧义。
在这项工作中,我们遵循了表征学习的趋势,并从用单个名称表示每个事件类型发展到定义句子。具体来说,我们提出了一个三阶段的事件表示学习框架。在离线预训练阶段,我们利用自动提取的上下文定义对齐(context-definition alignment)来学习定义编码(encoder)模型,该模型可以将上下文化的提及和定义编码到相同的嵌入空间中。在第二个升温(warming phase)阶段,我们使用目标事件类型检索硬的反面样本(hard negative examples)来进一步优化模型。最后,基于事件提及表示法与事件类型表示法之间的余弦相似度对事件提及进行识别和分类。由于我们的系统是一个不相交模型,推理的时间复杂度也是 O ( N + T ) O(N + T) O(N+T)。在我们所知的最大的EE数据集MAVEN 上的实验表明,ZED优于所有以前的零样本方法,推理效率很高。进一步的实验表明,ZED也可以应用于监督环境,它在完全监督环境中获得了相当不错的效果,并且在数据稀缺的学习环境中始终优于基线监督模型。具体来说,只需10%的训练数据,ZED就能达到95%以上的完整性能。
2、相关工作
在本节中,我们将介绍有关事件提取、对比表示学习和定义建模的相关工作。
2.1 事件抽取
作为一个基础的信息抽取任务,事件抽取吸引了NLP社区种很多研究学者的努力。最近在事件提取任务上的成功主要依赖于使用符号特征或分布式特征,来学习具有大规模高质量标注的监督模型。然而,预定义的本体和相应注释的需求限制了这些模型在实际应用中的应用。
为了解决这个问题并抽取出不可见的事件类型,Huang等人提出了一个零样本事件抽取任务,并使用迁移学习框架将用可见事件类型训练的模型应用于不可见事件类型。然而,其好效果的前提是可见和不可见事件类型之间的相似性。最近,随着大型语言模型的快速发展,一些学者提出利用预训练语言模型和模板或上下文化嵌入对标签语义进行编码。在这项工作中,我们遵循了使用深度模型对标签语义建模,但又更进一步。我们没有直接使用预训练语言模型,而是训练了一个分离的上下文到定义对齐编码模型,该模型可以有效地将候选事件提及和定义映射到相同的嵌入空间中,从而更准确有效地抽取取任何任意定义的事件类型的事件。
2.2 对比表示学习
对比损失是表征学习最流行的训练目标之一。原始对比损失及其变体(例如,triplet loss,lifted structured loss,N-pair loss和NCE loss)已被证明有助于一系列视觉应用。在引入NLP社区后,基于对比学习的方法也导致了一系列表示学习任务的成功,如句子表示。不同于以往工作,anchors和positive/negative example通常属于同一类别(例如image/sentence),我们建议使用contextualized token representation作为anchor,使用event type definition representation作为positive/negative example,以更好地解决零样本事件抽取任务。此外,在“预训练+微调”范式成功的激励下,我们提出了一种新的三阶段表示学习框架。
2.3 定义模型
人类能够通过阅读注释或定义来理解新概念。因此,如何利用字典中的定义和注释来帮助理解人类语言是NLP界一个长期存在的问题。之前在这个方向上的大部分工作都是在词义消歧任务上。这些模型通过联合编码或不联合编码token和定义,学习将令牌映射到正确的预定义同义词集。尽管我们的模型和这些WSD模型的设置相似,但识别满足任意事件类型定义的事件提及是一项更具挑战性的任务。WSD的目标是学习区分正确的同义词集与其他几个(通常少于10个)预定义的同义词集,而我们的目标是对齐事件提及和相应的定义,其中所有其他任意定义都被认为是负样本。为了解决负样本超过GPU内存限制的工程限制,我们提出了一种从粗到细的负样本抽样策略,以帮助模型在不忘记大局的情况下学习相似定义之间的微小差异。
3、任务定义
我们定义零样本事件抽取任务如下所示:给定一个文档有句子集合 S S S,事件类型集合 ε \varepsilon ε构成。每一个事件类型 E ∈ ε E \in \varepsilon E∈ε都用一个自然句 d d d来表示。这个任务被定义为:对于每一个 E ∈ ε E \in \varepsilon E∈ε,识别 S S S中满足 E E E定义所包含的所有提及 M E M_E ME,而无需在训练阶段直接使用标注。
4、模型
我们的模型框架如图2所示。在“预训练+微调”学习范式成功的激励下,我们提出用一个三阶段框架来解决零样本事件抽取问题。相关细节如下。
4.1 离线预训练
离线预训练步骤旨在训练一个合适的定义编码器,将目标提及表征和相应的定义映射到相同的嵌入空间。为了实现这一目标,由于没有提供标注,我们首先收集上下文定义对齐,然后用对比学习损失训练编码器。
4.1.1 数据预处理
我们从WordNet本体中选择所有的语言同义词集来形成我们的开放世界事件定义集。我们总共收集了13,814个事件同义词集。之后,为了收集上下文和定义之间的大规模对齐数据,我们将当前最先进的词义消歧模型应用于NYT语料库,将NYT中的标记与其正确的定义对齐。我们为每个同义词集随机选择10个上下文实例,以加快训练过程。结果,我们收集了775K上下文定义对齐。表1给出了抽取的对齐示例。
4.1.2 语境定义对齐编码与对比学习
上下文定义对齐编码的目标是将目标提及的上下文化表示和定义的句子表示编码到相同的嵌入空间中,并使它们彼此更接近,因为它们应该具有相似的语义含义。由于这一目标与对比学习框架的学习目标一致,我们遵循标准的对比学习框架。具体地说,我们将预处理的上下文定义对齐集表示为
T
T
T,其中每个实例
(
s
,
i
,
j
,
D
)
∈
T
(s,i,j,D) \in T
(s,i,j,D)∈T包含上下文句子
S
S
S,它是一个系列token
w
1
S
,
w
2
S
,
.
.
.
,
w
n
S
w_1^S,w_2^S,...,w_n^S
w1S,w2S,...,wnS,目标词起始位置
i
i
i,目标词结束位置$ j
,定义句
,定义句
,定义句D$包含一系列token
w
1
D
,
w
2
D
,
.
.
.
,
w
m
D
w_1^D,w_2^D,...,w_m^D
w1D,w2D,...,wmD。我们遵循标准方法将上下文化单词表示作为所有子token表示的平均池:
e
S
,
i
,
j
=
∑
i
≤
k
≤
j
e
k
j
−
i
+
1
e_{S,i,j}=\frac{\sum_{i \le k \le j} e_k}{j-i+1}
eS,i,j=j−i+1∑i≤k≤jek
e
k
e_k
ek是token
k
k
k的通过transformer baseline语言模型上下文表征。对于句子编码,我们选择所有token的平均表征:
d
D
=
∑
1
≤
k
≤
m
F
F
N
(
e
k
)
m
d_D=\frac{\sum_{1 \le k \le m} FFN(e_k)}{m}
dD=m∑1≤k≤mFFN(ek)
其中FFN表示一个两层前馈神经网络,
e
k
e_k
ek是token
w
k
w_k
wk的向量表示。
在这一步中,我们遵循对比学习框架,优化边际排名损失。假设随机抽样的负定义集合为
N
′
N'
N′,对于每个
D
′
∈
N
′
D' \in N'
D′∈N′,可根据式2计算其表示为
d
D
′
d_{D'}
dD′。对于每个实例
(
S
,
i
,
j
,
D
)
∈
T
(S,i,j,D) \in T
(S,i,j,D)∈T和一个随机抽样的负定义集
D
′
D'
D′,我们使以下边际排名损失(marginal ranking)最小化:
∑
D
′
∈
N
′
m
a
x
(
0
,
ε
−
(
c
o
s
(
e
S
,
i
,
j
,
d
D
)
−
c
o
s
(
e
S
,
i
,
j
,
d
D
′
)
)
)
∥
N
′
∥
\frac{\sum_{D' \in N'} max(0,\varepsilon -(cos(e_{S,i,j},d_D)-cos(e_{S,i,j},d_{D'})))}{\parallel N' \parallel}
∥N′∥∑D′∈N′max(0,ε−(cos(eS,i,j,dD)−cos(eS,i,j,dD′)))
m
a
x
max
max指的是最大化操作,
c
o
s
cos
cos是余弦相似度,
ε
\varepsilon
ε是一个边界情况。
4.2 Query-specific Warming
在预训练阶段之后,模型简要理解了如何将上下文化的事件提及和相应的定义投射到嵌入中的相似位置。然而,由于之前的负抽样策略不鼓励这种能力,其区分相似定义的能力仍然有限。为了解决这个问题,我们引入了一个额外的变暖阶段,以帮助模型了解相似定义之间的微小差异。
与人类通过回忆相关知识来理解新概念类似,我们也从
T
T
T中检索相关知识,进一步对模型进行微调。具体来说,假设感兴趣的事件定义集为
D
^
\hat D
D^,对于每个
D
^
∈
N
^
\hat D \in \hat N
D^∈N^,我们首先从原始定义集
N
N
N中检索到最相似的定义
D
~
\widetilde D
D
:
D
~
=
a
r
g
m
a
x
D
∈
N
s
i
m
(
P
L
M
(
D
)
,
P
L
M
(
D
^
)
)
\widetilde D= \underset{D\in N}{argmax} \ sim(PLM(D),PLM(\hat D))
D
=D∈Nargmax sim(PLM(D),PLM(D^))
s
i
m
sim
sim是相似度测量,
P
L
M
PLM
PLM是预训练语言模型编码器。在我们的实验中,我们使用余弦相似度作为相似度度量方法,使用BERT-base来表示平均上下文token嵌入。但是其他方法也可以被应用。
因此,我们表示所有检索到的相关定义的集为 N ~ \widetilde N N ,并选择I的一个子集 I ~ \widetilde I I ,以便所有的定义 I I I属于 D ~ \widetilde D D ,以进一步微调模型。在生成所有数据后,我们将按照公式3中的损失函数对所有模型进行微调。
4.3 推理
在推理过程中,我们计算在目标事件类型描述中每个候选事件的表示。之后,对于每个候选提及,我们计算它与所有目标事件类型表示的余弦相似度。如果最大相似度大于阈值 t t t,则该提及将被识别并标记为最相似的事件类型。假设所有候选提及和目标事件类型的大小分别为 N N N和 T T T。与之前依赖于候选提及和目标事件类型联合编码的零样本模型相比,我们成功地将计算复杂度从 O ( N ∗ T ) O(N∗T) O(N∗T)降低到 O ( N + T ) O(N +T) O(N+T)。计算效率的数值评估见第6.2节。
5、实验
这个部分将介绍实验的详细设置,包括所选的baseline模型、实验数据集、详细的配置。
5.1 Baseline 模型
在过去的两年中,社区一直致力于用不同的方法解决零样本事件抽取问题。具体来说,我们选择以下表现最好的模型作为我们的基线。
预训练问答模型:大多数NLP任务都可以转换为QA格式,事件提取也不例外。基于此,Du和Cardie建议为每个目标事件类型设计一个问题模板,并直接要求QA模型回答提及是否是目标事件。
预训练文本蕴涵模型(Pretrained Textual Entailment Models):在QA方法的激励下,Lyu等人探索了利用预训练的文本蕴涵(TE)模型自动抽取事件的可能性。具体而言,Lyu等人针对每个目标事件类型,手动设计模板将其转换为假设,将目标事件提及作为前提,并询问TE模型目标事件提及是否可以包含事件类型。
词义消歧模型(Word Sense Disambiguation Models):以前的WSD工作也严重依赖于定义的正确建模,因此从概念上讲,它们也可以应用于我们设置之后的事件抽取任务。我们的工作与Yao等人之间主要有两个关键区别:(1)Yao等人联合编码上下文和定义,而我们的模型分别编码它们;(2) Yao等人的目标是对同一词的不同同义词集之间的微小差异进行建模,而我们的工作旨在对一般定义语义进行建模。
上下文标签嵌入(CLE):我们比较的最后一个基线是上下文标签表示。具体来说,对于每个目标事件类型,Zhang等人通过将标签名称放回上下文来生成上下文的标签表示,并基于提及表征和事件类型表征之间的相似度直接抽取事件。
除了这些基线,我们还展示了“Chance”效果,其中一个提及是根据一定比率随机选择正确提及,并随机分配一个事件类型,以及“Most Popular Event Type”效果,其中一个提及也是根据一定比率随机选择正确提及,并且总是被预测为最受欢迎的事件类型。
5.2 评估数据集
我们选择THU-KEG/MAVEN-dataset: Source code and dataset for EMNLP 2020 paper “MAVEN: A Massive General Domain Event Detection Dataset”. (github.com)作为评估数据集,因为其规模大且分布均衡。具体来说,MAVEN包含186种从FrameNet 中选择的独特事件类型和118,732个标注事件提及,这几乎比之前的数据集(如ACE)大两个量级。此外,MAVEN提供了正式的事件提及候选,以更公平地评估所有事件抽取模型的提及理解能力。由于原始数据集只提供短语格式的事件名称(例如,“Body_movement”),我们直接使用Wordnet中的定义作为描述。附录表5给出了事件类型和相应定义的示例。
5.3 实施细节
对于基线模型,我们使用官方发布的代码、超参数、模板和预训练的模型进行实验。对于ZED,我们使用两个单独的编码器进行上下文和定义编码。它们都是用BERT-base初始化的。在零镜头设置和MA VEN的测试集是不公开的,我们报告在开发集上的性能。在零样本设置的训练中不需要训练数据集,MAVEN的测试集是不公开的,我们在报告中使用的是dev数据集。具体来说,我们将边际排名损失(the marginal ranking loss)的边际值设置为0.2,将负样本的数量设置为2。推理阶段处的选择阈值设置为0.7。对预训练短语和升温阶段用10个epoch进行训练。我们直接计算最后一个检查点,以模拟没有可用dev set的实际应用程序。所有模型均使用Tesla P40进行训练,批量batch_size为16。在单个GPU上,预训练和升温阶段分别需要大约200个小时和3个小时,但如果使用多个GPU,我们可以加快速度。
6、零样本的效果
所有模型的零样本如表2所示,从中我们可以观察到以下几点:
- 所有模型都显著优于朴素基线(naive baselines),即使它们不使用任何标注。这一观察结果表明,目前的深度模型确实可以学习丰富的语义,这些语义可以泛化到原始训练目标之外。
- 预训练的QA、TE和WSD模型的总体性能并不令人满意,因为它们受到领域迁移的影响。例如,尽管目前的深度模型驱动的QA模型在几个排行榜方面已经超过了人类的表现,但是它们还没有准备好作为一个通用的QA模型来解决需要深入理解的任务,比如零样本事件抽取。
- 与其他方法相比,Contextualized label embedding的识别F1更低,但分类精度更高,与Zhang等人中的原始观测结果一致。这背后的原因是由于BERT表示the cone property(即BERT的大多数标记表示法被分组在一个小区域内),很难确定一个事件提及是否符合特定事件类型的余弦相似边界。因此,即使CLE能够准确地识别高信度提及,它也不能很好地处理边界提及。
- 与基线方法相比,ZED在识别和分类任务上都有更好的表现。主要原因是我们使用定义来建模标签语义,这比单个单词更准确。
6.1 消融实验
消融实验的结果如表3所示,我们可以看见:如果去除了升温阶段,模型的性能将在识别和分类上都急剧下降,尤其是分类上。这很好地符合我们的假设,即模型可以在预训练步骤后学习对一般定义语义建模,但不能很好地区分微小的差异。去除强壮的负采样模块模型的性能将急剧下降,显示了强壮的负采样是表征学习的关键,它能对其先前的观察结果保持一致。
除了这些消融研究,我们还在图3中显示了预训练数据尺度的影响。正如预期的那样,我们使用的数据越多,性能就越好。但是,每个同义词集有10个实例之后的性能提升是有限的。因此,我们为每个同义词集选择10个实例作为训练效率的预训练数据。
6.2 推理效率
我们在图4中展示了所有评估模型的推断速度。由于ZED采用了不相交编码设计,我们成功地将计算复杂度从 O ( N ∗ T ) O(N * T) O(N∗T)降低到 O ( N + T ) O(N + T) O(N+T),其中 N N N为事件提及的数量, T T T为事件类型的数量。在有168种不同事件类型的Maven上,ZED可以将推理效率提高近两个数量级。
7、带有正确标注的变暖
当标注可用时,ZED还可以适应完全监督或少样本学习设置。具体来说,在模型的升温阶段,我们可以用带标注的示例替换自动检索的示例,并对模型进行微调。在本节中,我们比较了最近的语言模型驱动的基准:DMBERT、BERT+CRF,ZED实现了比之前模型更好的性能。有关这些基线模型的技术细节,请参阅原始论文。我们使用正式发布的代码实现所有模型,并报告dev set中5次试验的平均性能。对所有模型进行10个epoch的训练,并对最终模型进行评估。与零样本设置一样,我们还报告了“识别”和“识别+分类”设置的micro precision、recall和F1。所有超参数都基于正式发布的代码。
表4中的结果表明,在预训练步骤的帮助下,我们的模型在识别任务和分类任务上的表现优于所有之前的监督模型。这是有意义的,因为一个精心设计的深度模型可以通过MAVEN提供的大规模标注来学习识别和分类事件提及。
然而,我们认为这样大规模的标注在金钱和时间方面通常是昂贵的。数据稀缺学习设置可能更适用于实际应用。因此,我们还测试了这些监督设置在数据稀缺学习设置下的表现。具体来说,我们从训练数据中随机选择1%到10%的训练句子进行采样,并报告如图5所示的表现。我们的模型可以通过少量的标注不断优于基线模型。特别是当只有1%的数据可用时,我们每个事件类型只有7.07次提及,ZED可以达到50个F1以上。仅用10%的训练数据,ZED就能达到95%以上的全监督性能。这些观察结果表明,我们的框架可以应用于更广泛的应用程序,在这些应用程序中,除了零样本设置之外,还有有限或足够多的标注可用。此外,另一个有趣的发现是,即使“BERT+CRF”在有足够标注的情况下表现略优于“DMBERT”,这与Wang等人中的观察结果一致,但在数据稀缺设置下,其表现更差。这一观察结果表明,当标注规模有限时,使用CRF可能不是最佳选择。
8、总结
本文提出了一种新的零样本事件抽取框架ZED。给定一组定义格式的感兴趣事件类型,ZED可以比以前的方法更好地从原始文档中自动抽取所有符合定义的事件提及。实验表明,提出的升温阶段和混合强负样本抽样策略有助于ZED的成功。进一步的实验也表明ZED可以应用于监督环境。得益于预训练阶段,它可以在完全监督和数据稀缺的设置下取得良好的性能。