DocEE: A Large-Scale and Fine-grained Benchmark for Document-level Event Extraction

论文：NAACL2022.pdf (tongmeihan1995.github.io)

代码：tongmeihan1995/DocEE: DocEE: A Large-Scale and Fine-grained Benchmark for Document-level Event Extraction (github.com)

期刊/会议：NAACL 2022

摘要

事件抽取旨在识别一个事件，然后抽取参与该事件的论元。尽管在句子级事件抽取方面取得了巨大的成功，但事件更自然地以文档的形式呈现，事件论元分散在多个句子中。然而，推动文档级事件抽取的一个主要障碍是缺乏大规模和实用的训练和评估数据集。在本文中，我们提出了DocEE，一个新的文档级事件抽取数据集，包括27,000多个事件，180,000多个论元。我们重点介绍了三个特性:大规模手动标注、细粒度论元类型和面向应用程序的设置。实验表明，最先进的模型与人类之间仍然存在很大的差距(F1分数41% Vs 85%)，说明DocEE是一个开放的问题。

1、简介

事件抽取(EE)旨在从文本中检测事件，包括事件分类和事件论元抽取。EE是文本挖掘的基本任务之一(Feldman和Sanger, 2006)，有很多应用。例如，它可以监测政治或军事危机，以生成实时通知和警报(Dragos, 2013)，并挖掘显要人物之间的联系和联系(例如，谁见过谁和什么时候见过谁)，以进行肖像分析(Zhan等人，2020)。

大多数现有数据集(例如，ACE2005和KBP2017)专注于句子级事件抽取，而事件通常在文档级描述，事件论元通常分散在不同的句子中(Hamborg et al, 2019)。图1显示了一个Air Crash事件。为了抽取论元Date，我们需要阅读句子[1]，而为了抽取论元Cause of the Accident，我们需要整合句子[6]和[7]中的信息。显然，这需要对多个句子进行推理，并对长距离依赖进行建模，直观上超出了句子级EE的范围。因此，有必要将EE从句子级推进到文档级。

只有少数数据集是针对文档级EE的。MUC-4(griishman and Sundheim, 1996)提供了1700篇新闻文章，标注了4种事件类型和5种论元类型。这5个论元在不同的事件类型之间共享，无需进一步细化。WikiEvents(Li et al, 2021)仅由246个文档组成，其中很少(占总数的22%)跨句论元标注。RAMS(Ebner et al, 2020)将5句话窗口中的论元的范围限制在其事件触发词周围，这与实际应用不符合，RAMS中的论元类型数量只有65个，非常有限。Doc2EDAG, TDJEE和GIT (Zheng等，2019;Wang等，2021;Xu et al, 2021)在金融领域中只包含5种事件类型和35种论元类型。综上所述，现有的文档级EE数据集在以下方面存在不足:数据规模小，域覆盖有限，论元类型细化不足。因此，迫切需要开发一个人工标记的大规模数据集来加速文档级EE的研究。

在本文中，我们提出了DocEE，一个大规模的人工标注文档级EE数据集。图1展示了DocEE的一个示例。DocEE侧重于主事件的抽取，即每个文档一个事件。我们将新闻标题作为主要事件的触发词，并着重于整篇文章的主要事件论元抽取。我们强调了DocEE在这一领域的三个贡献:1)大规模手动标注。DocEE包含27,485个文档级事件和180,528个论元，远远超过现有文档级EE数据集的规模。DocEE的大规模标注可以提供足够的训练和测试数据，公平地评估EE模型。2)细粒度论元类型。DocEE共有356种论元类型，远远超过现有数据集中的论元类型数量(MUC-5中有5种，RAMS中有65种)。除了一般论元，如时间和位置，我们还为每种事件类型设计了更多个性化的事件论元，如洪水事件的水位和地震事件的震级。这些细粒度的角色可以带来更详细的语义，对现有模型的语义消歧能力提出了更高的挑战。3)面向应用的设置。在实际应用中，事件抽取经常面临如何从资源丰富的领域快速适应到新的领域的问题。因此，我们添加了一个跨域设置来更好地测试EE模型的传输能力。此外，DocEE还取消了论元范围应在RAMS中的某个窗口内的限制，以更好地应对文章长度特别长、事件的论元可能出现在文章的任何角落的现实场景。由于事件论元更加分散(参见表1)，DocEE对现有模型的长文本处理能力提出了更高的挑战。

为了评估DocEE的挑战，我们在DocEE上实现了9个最新的最先进的EE模型，并进行了人工评估。实验证明了DocEE的高质量，即使是SOTA模型的性能也远低于人类的性能，说明现有技术在处理文档级EE方面的薄弱。

2、相关的数据集

句子级时间抽取数据集：ACE2005、TAC-KBP、Chinese Emergency Corpus(CEC)、RED(https://catalog.ldc.upenn.edu/LDC2016T23)、MAVEN、LSEE。

文档级事件抽取：20news(https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups)、THUCNews(http://thuctc.thunlp.org)、MUC-4、WikiEvents、RAMS、financial domain、biological domain。

开放领域事件抽取：要在开放领域中收集EE数据集，一种方法是利用半结构化资源(Wikipedia)或现有知识库(Freebase)。代表性作品有EventKG (Gottschalk and Demidova, 2018)、Event Wiki (Ge et al, 2018)和Historical Wiki (Hienert and Luciano, 2012)。

3、构建DocEE

我们的主要目标是收集大规模数据集，以促进事件抽取从句子级到文档级的发展。在接下来的部分中，我们将首先介绍如何构建事件模式，然后介绍如何收集候选数据以及如何通过众包对它们进行标记。

3.1 事件模式构建

新闻是热点事件的第一手来源，所以我们注重从新闻中提炼事件。之前的事件模式，如FrameNet (Baker, 2014)和HowNet (Dong and Dong, 2003)，更多地关注吃饭(eating)和睡觉(sleeping)等琐碎的动作，因此不适合文档级的新闻事件抽取。

为了构建事件图式，我们从新闻学中获得了洞察力。新闻业通常将事件分为硬新闻和软新闻(Reinemann等人，2012;Tuchman, 1973)。硬新闻是指必须立即报道的社会紧急事件，如地震、交通事故和武装冲突。软新闻指的是与人类生活相关的有趣事件，如名人事迹、体育赛事和其他以娱乐为中心的报道。基于硬/软新闻理论和(Lehman-Wilzig and Seletzky, 2010)中的类别框架，我们一共定义了59种事件类型，其中硬新闻事件类型31种，软新闻事件类型28种。具体情况见附录表1。我们的模式涵盖了人类关注的有影响力的事件，如地震、洪水和外交峰会，这些事件无法在句子层面上抽取，需要多个句子来描述。

为了构建论证模式，我们利用维基百科中的信息框。如图3(a)所示，Wikipedia页面描述了一个事件，框中的关键信息，如时间(Time)和总的死亡人数(Total fatalities)，可以看作是事件的原型论元。基于这种观察，我们为每种事件类型手动收集了20个wiki页面，并在信息框中使用它们的共享键作为我们的基本论元类型集。在此之后，我们进一步扩展基本集。具体来说，对于 $e$ 类事件，我们首先从纽约时报收集了20篇新闻报道，然后邀请了5名学生(英语为母语，新闻专业)来总结公众希望从 $e$ 类新闻中了解到的关键事实。例如，在洪水事件新闻中，水位是一个关键事实，因为它是洪水成因分析和救灾决策的重要事实依据，可以引起广泛关注。最后，通过合并5个学生的关键事实，我们完成了论元类型的展开。为了保证质量，我们进一步邀请了上述5位同学对收集到的新闻进行试贴标签，过滤文章中出现频率较低的参论元类型。

我们总共为59种事件类型定义了356种事件论元类型。平均来说，每个类有6.0个事件论元。图2显示了我们定义的事件论元类型的一些示例。完整的模式和相应的示例可以在事件模式的补充材料中。

3.2 候选数据集收集

在本节中，我们将介绍如何收集候选文档级事件。我们选择wiki作为数据源。Wiki包含两种事件:历史事件和时间轴事件(Hienert and Luciano, 2012)。历史事件指的是那些有自己维基页面的事件，比如1922年皮卡迪号的空中相撞事件。时间轴事件是指按时间顺序组织的新闻事件，例如wiki页面Portal:Current_events/June_2010.7中的热浪袭击印度和南亚。图3显示了两个事件的示例。我们采用这两种事件作为我们的候选数据，因为仅使用历史事件将导致在我们的事件模式下数据分布不均匀，而时间轴事件可以作为一个很好的补充。对于一个历史事件，我们采用它的维基百科文章作为事件论元1的文档进行标注。对于时间轴事件，我们使用URL下载原始新闻文章，作为要标注的事件论元的文档。因为22%的时间轴事件没有URL(维基百科编辑在编辑条目时不提供URL)，所以我们使用Scale SERP来查找新闻文章并手动确认其真实性。对于历史事件，我们采用模板+事件类型作为查询关键词来检索候选事件。模板包括“列表”+事件类型，事件类型+“在”+年份，类别:“+事件类型+“在”+国家，等等。更多模板见附录表7。对于时间轴事件，我们选择1980年到2021年之间的事件作为候选事件，因为1980年之前的事件很少。

为了平衡文章的长度，我们过滤掉了少于5句话的文章，也截断了过长的文章(超过50句话)。最后，我们从维基百科中选择了44000个候选事件。

3.3 众包标注

给定候选事件和预定义的事件模式，我们现在介绍如何通过众包对它们进行标注。为保证标注质量，标注人员均为英语母语者或托福成绩在100以上或雅思成绩在7.5以上的英语专业学生。众包标注过程包括两个阶段。

3.3.1 阶段一：事件分类

在此阶段，需要标注这将候选事件分类为预定义的事件类型。以下(Hamborg et al, 2018;Hsi, 2018)，我们专注于主事件分类，因此阶段1是单标签分类任务。具体来说，主事件是指标题中反映的、文章中主要描述的事件。形式上，假定候选事件 $e =< t, a >$ ，其中 $t$ 表示标题， $a$ 表示文章，阶段1的目的是为每个 $e$ 获取标签 $y A$ ，其中 $y$ 属于3.1小节中定义的59种事件类型。

我们总共邀请了大约60名标注人员参与第一阶段的标注。在线标注页面如图5所示。我们首先手动将100篇文章作为标准答案标注给预测标注者，剔除准确率低于70%的标注者，剩下48个有效标注者。然后，我们请两个独立的标注者对每个候选事件进行标注。如果两个标注者的结果不一致(在本案例中占32.8%)，第三个标注者将是最终的裁判。由于实际事件类型的多样性，候选事件可能不属于任何预定义的类。我们将此类事件归为另一类，占总数据的23.6%。

3.3.2 阶段二：事件论元抽取

在此阶段，需要标注者从整篇文章中抽取事件论元。形式上，给定候选事件 $e =< t, a >$ ，它的事件类型 $y 和$ 预定义的论元类型 $R (y)$ ，阶段2的目标是找到文章 $a$ 中的所有论元。

由于第二阶段工作繁重，我们邀请了90多名标注员。附录图6显示了在线标注页面的一个示例。我们使用初步标注-多轮检查方法进行标注。在初步标注步骤中，每个文章都将由标注者标记。在此步骤中，我们将不超过两种事件类型分配给每个标注者，以使标注者更加集中。然后，在多轮检查的步骤中，我们首先根据批注人之间的协议，选择高精度的批注人组成审稿人团队(占总数的44.4%)，然后每篇文章由审稿人团队中三位独立的标注者进行三轮纠错。在每一轮之后，我们将把标注问题反馈给评审员，以便他们在下一轮标注中纠正这些问题。每轮标记的准确率从56.24%、76.83%稳步提高到85.96%，说明了我们的标记方法的有效性。我们以第三轮的结果作为最终的标注结果。

我们在这里澄清一些标注细节。我们的标注中不包括冠词、介词。例如，我们在“damaged car”、“damaged car belonging to the victim”和“the damaged car”中选择“damaged car”。对于文档中多次提到的事件论元，例如，图1中的Cause of the Accident有两次提到，我们将标记所有提到，以确保抽取的完整性。对于提及同一实体的重复提及，我们只标记一次。

3.3.3 标注质量与报酬

遵循(Artstein and Poesio, 2008;McHugh, 2012)，我们使用Cohen 's kappa系数来衡量标注者者间协议(IAA)。状态1事件分类和阶段2事件论元抽取的IAA得分分别为94%和81%，属于较高水平。在阶段1中，标注人员平均花0.5分钟标记一条数据，因此我们为每条数据支付他们0.1美元。在第二阶段，标记一个数据大约需要5分钟，所以我们为每个数据支付0.8美元。

4、DocEE的数据分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pA5mGQPa-1676958180022)(DocEE： A Large-Scale and Fine-grained Benchmark for Document-level Event Extraction.assets/image-20230220095857847.png)]

5、DocEE上的实验

两种基准设置:普通设置和跨领域设置。

5.1 事件分类

四个结论：(1)基于Transformer的预训练语言模型表现效果好，原因在于在大规模无监督预料中进行预训练，有更多的背景知识。(2)人类标注的分数最高，数据标注质量很好。(3)现有的SOTA模型和人类的水平还是存在较大的差异。(4)领域迁移还是巨大的挑战，在迁移学习上。

5.2 事件论元抽取

如表5所示，SOTA模型的性能与人类性能之间存在很大差距(F score 41.0% Vs 85.9%)，这表明文档级事件论元抽取仍然是一项具有挑战性的任务。

现有基线的失败可能是由于两个原因。一个可能的原因是神经网络中的灾难性遗忘。与NER和句子级EE相比，文档级EE(我们的任务)突出了模型处理长文本的能力:在确定span的论元类型之前，模型必须读取整个文本。虽然已经提出了一些模型来提高预训练模型的长文本能力(如longformer)，并取得了良好的效果，(longformer的性能(BERT_Seq(doc))优于BERT_Seq(sent)和BERT_Seq(chunk)如表5所示)，但这些模型与人类相比仍有较大的性能差距。

另一个原因是现有的基线在语义理解方面能力较差，这体现在两个方面:1)EE模型不能区分相似事件的参数。例如，文章主要描述了2021年的美国阿拉斯加半岛大地震，也简要提及2008年汶川大地震。在询问主要事件的日期时，EE模型很容易混淆正确答案2021和错误答案2008。2) EE模型经常将不相关的实体误认为事件论元。例如，在911恐怖袭击五角大楼事件中抽取事件论元Attack Target时，除了正确答案是纽约五角大楼外，EE模型经常将文章中其他不相关的位置实体(如Mount Sinai Hospital)误认为答案之一。

我们认为以下研究方向值得关注:1)探索具有较强长文本处理能力的预训练模型。2)利用本体和常识知识，提高对EE模型的语义理解。在未来，我们将专注于将事件抽取提升到更高的级别，例如跨文档级别。