DocEE:一种用于文档级事件抽取的大规模细粒度基准 论文解读

news2025/2/25 9:58:13

DocEE: A Large-Scale and Fine-grained Benchmark for Document-level Event Extraction

论文:NAACL2022.pdf (tongmeihan1995.github.io)

代码:tongmeihan1995/DocEE: DocEE: A Large-Scale and Fine-grained Benchmark for Document-level Event Extraction (github.com)

期刊/会议:NAACL 2022

摘要

事件抽取旨在识别一个事件,然后抽取参与该事件的论元。尽管在句子级事件抽取方面取得了巨大的成功,但事件更自然地以文档的形式呈现,事件论元分散在多个句子中。然而,推动文档级事件抽取的一个主要障碍是缺乏大规模和实用的训练和评估数据集。在本文中,我们提出了DocEE,一个新的文档级事件抽取数据集,包括27,000多个事件,180,000多个论元。我们重点介绍了三个特性:大规模手动标注、细粒度论元类型和面向应用程序的设置。实验表明,最先进的模型与人类之间仍然存在很大的差距(F1分数41% Vs 85%),说明DocEE是一个开放的问题。

1、简介

事件抽取(EE)旨在从文本中检测事件,包括事件分类和事件论元抽取。EE是文本挖掘的基本任务之一(Feldman和Sanger, 2006),有很多应用。例如,它可以监测政治或军事危机,以生成实时通知和警报(Dragos, 2013),并挖掘显要人物之间的联系和联系(例如,谁见过谁和什么时候见过谁),以进行肖像分析(Zhan等人,2020)。

大多数现有数据集(例如,ACE2005和KBP2017)专注于句子级事件抽取,而事件通常在文档级描述,事件论元通常分散在不同的句子中(Hamborg et al, 2019)。图1显示了一个Air Crash事件。为了抽取论元Date,我们需要阅读句子[1],而为了抽取论元Cause of the Accident,我们需要整合句子[6]和[7]中的信息。显然,这需要对多个句子进行推理,并对长距离依赖进行建模,直观上超出了句子级EE的范围。因此,有必要将EE从句子级推进到文档级。

只有少数数据集是针对文档级EE的。MUC-4(griishman and Sundheim, 1996)提供了1700篇新闻文章,标注了4种事件类型和5种论元类型。这5个论元在不同的事件类型之间共享,无需进一步细化。WikiEvents(Li et al, 2021)仅由246个文档组成,其中很少(占总数的22%)跨句论元标注。RAMS(Ebner et al, 2020)将5句话窗口中的论元的范围限制在其事件触发词周围,这与实际应用不符合,RAMS中的论元类型数量只有65个,非常有限。Doc2EDAG, TDJEE和GIT (Zheng等,2019;Wang等,2021;Xu et al, 2021)在金融领域中只包含5种事件类型和35种论元类型。综上所述,现有的文档级EE数据集在以下方面存在不足:数据规模小,域覆盖有限,论元类型细化不足。因此,迫切需要开发一个人工标记的大规模数据集来加速文档级EE的研究。

在本文中,我们提出了DocEE,一个大规模的人工标注文档级EE数据集。图1展示了DocEE的一个示例。DocEE侧重于主事件的抽取,即每个文档一个事件。我们将新闻标题作为主要事件的触发词,并着重于整篇文章的主要事件论元抽取。我们强调了DocEE在这一领域的三个贡献:1)大规模手动标注。DocEE包含27,485个文档级事件和180,528个论元,远远超过现有文档级EE数据集的规模。DocEE的大规模标注可以提供足够的训练和测试数据,公平地评估EE模型。2)细粒度论元类型。DocEE共有356种论元类型,远远超过现有数据集中的论元类型数量(MUC-5中有5种,RAMS中有65种)。除了一般论元,如时间和位置,我们还为每种事件类型设计了更多个性化的事件论元,如洪水事件的水位和地震事件的震级。这些细粒度的角色可以带来更详细的语义,对现有模型的语义消歧能力提出了更高的挑战。3)面向应用的设置。在实际应用中,事件抽取经常面临如何从资源丰富的领域快速适应到新的领域的问题。因此,我们添加了一个跨域设置来更好地测试EE模型的传输能力。此外,DocEE还取消了论元范围应在RAMS中的某个窗口内的限制,以更好地应对文章长度特别长、事件的论元可能出现在文章的任何角落的现实场景。由于事件论元更加分散(参见表1),DocEE对现有模型的长文本处理能力提出了更高的挑战。

为了评估DocEE的挑战,我们在DocEE上实现了9个最新的最先进的EE模型,并进行了人工评估。实验证明了DocEE的高质量,即使是SOTA模型的性能也远低于人类的性能,说明现有技术在处理文档级EE方面的薄弱。

2、相关的数据集

句子级时间抽取数据集:ACE2005、TAC-KBP、Chinese Emergency Corpus(CEC)、RED(https://catalog.ldc.upenn.edu/LDC2016T23)、MAVEN、LSEE。

文档级事件抽取:20news(https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups)、THUCNews(http://thuctc.thunlp.org)、MUC-4、WikiEvents、RAMS、financial domain、biological domain。

开放领域事件抽取:要在开放领域中收集EE数据集,一种方法是利用半结构化资源(Wikipedia)或现有知识库(Freebase)。代表性作品有EventKG (Gottschalk and Demidova, 2018)、Event Wiki (Ge et al, 2018)和Historical Wiki (Hienert and Luciano, 2012)。

3、构建DocEE

我们的主要目标是收集大规模数据集,以促进事件抽取从句子级到文档级的发展。在接下来的部分中,我们将首先介绍如何构建事件模式,然后介绍如何收集候选数据以及如何通过众包对它们进行标记。

3.1 事件模式构建

新闻是热点事件的第一手来源,所以我们注重从新闻中提炼事件。之前的事件模式,如FrameNet (Baker, 2014)和HowNet (Dong and Dong, 2003),更多地关注吃饭(eating)和睡觉(sleeping)等琐碎的动作,因此不适合文档级的新闻事件抽取。

为了构建事件图式,我们从新闻学中获得了洞察力。新闻业通常将事件分为硬新闻和软新闻(Reinemann等人,2012;Tuchman, 1973)。硬新闻是指必须立即报道的社会紧急事件,如地震、交通事故和武装冲突。软新闻指的是与人类生活相关的有趣事件,如名人事迹、体育赛事和其他以娱乐为中心的报道。基于硬/软新闻理论和(Lehman-Wilzig and Seletzky, 2010)中的类别框架,我们一共定义了59种事件类型,其中硬新闻事件类型31种,软新闻事件类型28种。具体情况见附录表1。我们的模式涵盖了人类关注的有影响力的事件,如地震、洪水和外交峰会,这些事件无法在句子层面上抽取,需要多个句子来描述。

为了构建论证模式,我们利用维基百科中的信息框。如图3(a)所示,Wikipedia页面描述了一个事件,框中的关键信息,如时间(Time)和总的死亡人数(Total fatalities),可以看作是事件的原型论元。基于这种观察,我们为每种事件类型手动收集了20个wiki页面,并在信息框中使用它们的共享键作为我们的基本论元类型集。在此之后,我们进一步扩展基本集。具体来说,对于 e e e类事件,我们首先从纽约时报收集了20篇新闻报道,然后邀请了5名学生(英语为母语,新闻专业)来总结公众希望从 e e e类新闻中了解到的关键事实。例如,在洪水事件新闻中,水位是一个关键事实,因为它是洪水成因分析和救灾决策的重要事实依据,可以引起广泛关注。最后,通过合并5个学生的关键事实,我们完成了论元类型的展开。为了保证质量,我们进一步邀请了上述5位同学对收集到的新闻进行试贴标签,过滤文章中出现频率较低的参论元类型。

我们总共为59种事件类型定义了356种事件论元类型。平均来说,每个类有6.0个事件论元。图2显示了我们定义的事件论元类型的一些示例。完整的模式和相应的示例可以在事件模式的补充材料中。

3.2 候选数据集收集

在本节中,我们将介绍如何收集候选文档级事件。我们选择wiki作为数据源。Wiki包含两种事件:历史事件和时间轴事件(Hienert and Luciano, 2012)。历史事件指的是那些有自己维基页面的事件,比如1922年皮卡迪号的空中相撞事件。时间轴事件是指按时间顺序组织的新闻事件,例如wiki页面Portal:Current_events/June_2010.7中的热浪袭击印度和南亚。图3显示了两个事件的示例。我们采用这两种事件作为我们的候选数据,因为仅使用历史事件将导致在我们的事件模式下数据分布不均匀,而时间轴事件可以作为一个很好的补充。对于一个历史事件,我们采用它的维基百科文章作为事件论元1的文档进行标注。对于时间轴事件,我们使用URL下载原始新闻文章,作为要标注的事件论元的文档。因为22%的时间轴事件没有URL(维基百科编辑在编辑条目时不提供URL),所以我们使用Scale SERP来查找新闻文章并手动确认其真实性。对于历史事件,我们采用模板+事件类型作为查询关键词来检索候选事件。模板包括“列表”+事件类型,事件类型+“在”+年份,类别:“+事件类型+“在”+国家,等等。更多模板见附录表7。对于时间轴事件,我们选择1980年到2021年之间的事件作为候选事件,因为1980年之前的事件很少。

为了平衡文章的长度,我们过滤掉了少于5句话的文章,也截断了过长的文章(超过50句话)。最后,我们从维基百科中选择了44000个候选事件。

3.3 众包标注

给定候选事件和预定义的事件模式,我们现在介绍如何通过众包对它们进行标注。为保证标注质量,标注人员均为英语母语者或托福成绩在100以上或雅思成绩在7.5以上的英语专业学生。众包标注过程包括两个阶段。

3.3.1 阶段一:事件分类

在此阶段,需要标注这将候选事件分类为预定义的事件类型。以下(Hamborg et al, 2018;Hsi, 2018),我们专注于主事件分类,因此阶段1是单标签分类任务。具体来说,主事件是指标题中反映的、文章中主要描述的事件。形式上,假定候选事件 e = < t , a > e =< t, a > e=<t,a>,其中 t t t表示标题, a a a表示文章,阶段1的目的是为每个 e e e获取标签 y A yA yA,其中 y y y属于3.1小节中定义的59种事件类型。

我们总共邀请了大约60名标注人员参与第一阶段的标注。在线标注页面如图5所示。我们首先手动将100篇文章作为标准答案标注给预测标注者,剔除准确率低于70%的标注者,剩下48个有效标注者。然后,我们请两个独立的标注者对每个候选事件进行标注。如果两个标注者的结果不一致(在本案例中占32.8%),第三个标注者将是最终的裁判。由于实际事件类型的多样性,候选事件可能不属于任何预定义的类。我们将此类事件归为另一类,占总数据的23.6%。

3.3.2 阶段二:事件论元抽取

在此阶段,需要标注者从整篇文章中抽取事件论元。形式上,给定候选事件 e = < t , a > e =< t, a > e=<t,a>,它的事件类型 y 和 y和 y预定义的论元类型 R ( y ) R(y) R(y),阶段2的目标是找到文章 a a a中的所有论元。

由于第二阶段工作繁重,我们邀请了90多名标注员。附录图6显示了在线标注页面的一个示例。我们使用初步标注-多轮检查方法进行标注。在初步标注步骤中,每个文章都将由标注者标记。在此步骤中,我们将不超过两种事件类型分配给每个标注者,以使标注者更加集中。然后,在多轮检查的步骤中,我们首先根据批注人之间的协议,选择高精度的批注人组成审稿人团队(占总数的44.4%),然后每篇文章由审稿人团队中三位独立的标注者进行三轮纠错。在每一轮之后,我们将把标注问题反馈给评审员,以便他们在下一轮标注中纠正这些问题。每轮标记的准确率从56.24%、76.83%稳步提高到85.96%,说明了我们的标记方法的有效性。我们以第三轮的结果作为最终的标注结果。

我们在这里澄清一些标注细节。我们的标注中不包括冠词、介词。例如,我们在“damaged car”、“damaged car belonging to the victim”和“the damaged car”中选择“damaged car”。对于文档中多次提到的事件论元,例如,图1中的Cause of the Accident有两次提到,我们将标记所有提到,以确保抽取的完整性。对于提及同一实体的重复提及,我们只标记一次。

3.3.3 标注质量与报酬

遵循(Artstein and Poesio, 2008;McHugh, 2012),我们使用Cohen 's kappa系数来衡量标注者者间协议(IAA)。状态1事件分类和阶段2事件论元抽取的IAA得分分别为94%和81%,属于较高水平。在阶段1中,标注人员平均花0.5分钟标记一条数据,因此我们为每条数据支付他们0.1美元。在第二阶段,标记一个数据大约需要5分钟,所以我们为每个数据支付0.8美元。

4、DocEE的数据分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pA5mGQPa-1676958180022)(DocEE: A Large-Scale and Fine-grained Benchmark for Document-level Event Extraction.assets/image-20230220095857847.png)]

5、DocEE上的实验

两种基准设置:普通设置和跨领域设置。

5.1 事件分类

四个结论:(1)基于Transformer的预训练语言模型表现效果好,原因在于在大规模无监督预料中进行预训练,有更多的背景知识。(2)人类标注的分数最高,数据标注质量很好。(3)现有的SOTA模型和人类的水平还是存在较大的差异。(4)领域迁移还是巨大的挑战,在迁移学习上。

5.2 事件论元抽取

如表5所示,SOTA模型的性能与人类性能之间存在很大差距(F score 41.0% Vs 85.9%),这表明文档级事件论元抽取仍然是一项具有挑战性的任务。

现有基线的失败可能是由于两个原因。一个可能的原因是神经网络中的灾难性遗忘。与NER和句子级EE相比,文档级EE(我们的任务)突出了模型处理长文本的能力:在确定span的论元类型之前,模型必须读取整个文本。虽然已经提出了一些模型来提高预训练模型的长文本能力(如longformer),并取得了良好的效果,(longformer的性能(BERT_Seq(doc))优于BERT_Seq(sent)和BERT_Seq(chunk)如表5所示),但这些模型与人类相比仍有较大的性能差距。

另一个原因是现有的基线在语义理解方面能力较差,这体现在两个方面:1)EE模型不能区分相似事件的参数。例如,文章主要描述了2021年的美国阿拉斯加半岛大地震,也简要提及2008年汶川大地震。在询问主要事件的日期时,EE模型很容易混淆正确答案2021和错误答案2008。2) EE模型经常将不相关的实体误认为事件论元。例如,在911恐怖袭击五角大楼事件中抽取事件论元Attack Target时,除了正确答案是纽约五角大楼外,EE模型经常将文章中其他不相关的位置实体(如Mount Sinai Hospital)误认为答案之一。

我们认为以下研究方向值得关注:1)探索具有较强长文本处理能力的预训练模型。2)利用本体和常识知识,提高对EE模型的语义理解。在未来,我们将专注于将事件抽取提升到更高的级别,例如跨文档级别。

6、总结

在本文中,我们提出了DocEE,一个大型文档级EE数据集,以促进从句子级到文档级的事件抽取。与现有数据集相比,DocEE极大地扩展了数据规模,拥有超过27,000+个事件和180,000+个论元,并包含更精细的事件论元。实验表明,DocEE仍然是一个悬而未决的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/361840.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ABAP 辨析ON INPUT|REQUEST|CHAIN-INPUT|CHAIN-REQUEST

1、逻辑流 在屏幕开发中&#xff0c;存在如下逻辑流&#xff1a; PBO&#xff08;Process Before Output&#xff09;&#xff1a;屏幕输出之前触发 PAI&#xff08;Process After Input&#xff09;&#xff1a;用户在屏幕中执行操作触发 POH&#xff08;Process On Help-…

5.8 BGP属性-AS-PATH

5.4.2配置BGP AS-PATH属性控制选路 1. 实验目的 熟悉BGP AS-PATH属性控制选路的应用场景掌握BGP AS-PATH属性控制选路的配置方法2. 实验拓扑 实验拓扑如图5-8所示: 图5-8:配置BGP AS-PATH属性控制选路 3. 实验步…

DADPS-Biotin-Alykne|2241685-22-1|DADPS生物素炔烃

DADPS&#xff08;二烷氧基二苯基硅烷&#xff09;生物素炔烃探针消除了链霉亲和素-生物素亲和纯化的主要限制。该试剂含有生物素部分和叠氮化物反应部分。DADPS 探针可用于生物分子标记和蛋白质组学研究。 DADPS biotin alkyne probe eliminates the main limitation of affin…

【Linux】软件安装(三)

目录 1. 软件安装 1.1 软件安装方式 1.2 安装JDK 1.3 安装Tomcat 1.4 安装MySQL 1.5 安装lrzsz 1. 软件安装 1.1 软件安装方式 在Linux系统中&#xff0c;安装软件的方式主要有四种&#xff0c;这四种安装方式的特点如下&#xff1a; 安装方式特点二进制发布包安装…

基于springboot校园二手市场平台

一、项目简介 本项目是一套基于springboot校园二手市场平台&#xff0c;主要针对计算机相关专业的正在做bishe的学生和需要项目实战练习的Java学习者。 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目可以直接作为bishe使用。 项目都经过严格调试&#xff0c;确保…

YOLOv6-3.0-目标检测论文解读

文章目录摘要算法2.1网络设计2.2Anchor辅助训练2.3自蒸馏实验消融实验结论论文&#xff1a; 《YOLOv6 v3.0: A Full-Scale Reloading 》github&#xff1a; https://github.com/meituan/YOLOv6上版本参考 YOLOv6摘要 YOLOv6 v3.0中YOLOv6-N达到37.5AP&#xff0c;1187FPS&…

安装配置RabbitMQ(Win11)

一、安装依赖Erlang打开RabbitMQ官网&#xff1a;https://www.rabbitmq.com/点击Get Started点击Download Installation点击 Chocolatey or Installer点击? Erlang/OTP Version Tree点击win64下载完成后&#xff0c;右击“以管理员身份”安装配置Erlang环境变量 &#xff1a;…

linux的TCP连接数量最大不能超过65535个吗,那服务器是如何应对百万千万的并发的?

文章目录65535从哪来的&#xff0c;干啥的&#xff1f;最大并发tcp连接数是多少呢&#xff1f;如何标识一个TCP连接client最大tcp连接数server最大tcp连接数实际的tcp连接数0102TCP怎么建立连接&#xff0c;与端口号是什么关系&#xff1f;&#xff08;1&#xff09;Linux服务器…

【分享】订阅万里牛集简云连接器同步企业采购审批至万里牛系统

方案场景 面临着数字化转型的到来&#xff0c;不少公司希望实现业务自动化需求&#xff0c;公司内部将钉钉作为办公系统&#xff0c;万里牛作为ERP系统&#xff0c;两个系统之前的数据都储存在各自的后台&#xff0c;导致数据割裂&#xff0c;数据互不相通&#xff0c;人工手动…

springboot 自动注入源码分析spring.factories

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一、铂金手写starter组件&#xff0c;开源starter组件结构 1.项目层级 2. 各个项目引入关系 3.项目侧使用 二、星耀源码跟踪分析 1.SpringApplication.run开…

sHMIctrl智能屏幕使用记录

手上有个案子&#xff0c;“按压机器人”&#xff0c;功能是恒定一个力按下一定时间。 屏幕选型使用“sHMIctrl”&#xff0c;一下记录使用过程中遇到的问题以及解决方法。 目录 问题1&#xff1a;按键控件做定时触发&#xff0c;模拟运行时触发不了。 问题2&#xff1a;厂家…

数字IC设计工程师是做什么的?

随着我国半导体产业的发展&#xff0c;近几年的新入行的从业人员&#xff0c;除了微电子相关专业的&#xff0c;还有就是物理、机械、数学、计算机等专业&#xff0c;很多人对这一高薪行业充满了好奇&#xff0c;那么数字IC设计工程师到底是做什么的&#xff1f; 首先来看看数…

Vue3.x+Element Plus仿制Acro Design简洁模式分页器组件

Vue3.xElement Plus仿制Acro Design简洁模式分页器组件 开发中难免会遇到宽度很窄的列表需要使用分页器的情况&#xff0c;这时若使用Element Plus组件的分页器会导致分页器内容超出展示的区域&#xff0c;而Element Plus组件中目前没有Acro Design那样小巧的分页器&#xff08…

AWS 中文入门开发教学 43- Cloud9 - 云端集成开发环境(IDE)

知识点 Cloud9 - 云的集成开发环境(IDE)的基本介绍 官网 https://aws.amazon.com/cn/cloud9/ 功能 只需一个浏览器即可进行编码&#xff0c;无需配置各种开发环境实时共同编写代码&#xff0c;团队协作直接通过终端访问AWS资源迅速开始新项目无缝集成CodeSeries(Commit,Bu…

vscode报错Vetur can‘t find ‘tsconfig.json‘ or ‘jsconfig.json‘

文章目录问题描述解决办法方案一方案二方案三方案四问题描述 今天启动vscode的时候发现vetur插件需要更新&#xff0c;重新加载以后点击 .vue后缀的文件发现就会弹出如下报错&#xff0c;并且此时写代码没有代码提示&#xff01;&#xff01; 用提示快捷键一直显示正在加载… …

日日顺于贞超:供应链数字化要做到有数、有路、有人

在供应链行业里面&#xff0c;关于“数字化”的讨论绝对是一个经久不衰的话题。 但关于这个话题的讨论又时常让人觉得“隔靴搔痒”&#xff0c;因为数字化变革为非一日之功&#xff0c;对于企业来说意味着投入和牺牲。企业既怕不做怕将来被淘汰&#xff0c;又怕投入过高、不达预…

适合运动的无线蓝牙耳机有哪些,运动无线蓝牙耳机推荐

最为适合运动的无线蓝牙耳机还是骨传导耳机最为合适&#xff0c;骨传导耳机在运动当中使用不仅更加安全&#xff0c;在耳机的佩戴方式上也是十分舒适的&#xff0c;开放式的佩戴设计&#xff0c;即使是长时间运动使用也依旧能够保证耳道舒适、佩戴牢固&#xff0c;下面就分享几…

圆角矩形的绘制和曲线均匀化

摘要&#xff1a; 圆角矩形是软件 UI 等视觉设计中的常见表达&#xff0c;一种常见的绘制方法是将矩形的四角替换为与边相切的四分之一圆弧&#xff0c;然而这种绘制方式会在连接处产生视觉上的切折感&#xff0c;这是因为圆弧和直线的连接处只满足 G1G^1G1 连续性。本文探究了…

【刷题篇】链表(下)

前言&#x1f338;各位读者们好&#xff0c;本期我们来填填之前留下的坑&#xff0c;继续来讲解几道和链表相关的OJ题。但和上期单向链表不一样的是&#xff0c;我们今天的题目主要是于环形链表有关&#xff0c;下面让我们一起看看吧。&#x1f4bb;本期的题目有&#xff1a;环…

vue3-element-admin搭建

vue3-element-admin 是基于 vue-element-admin 升级的 Vue3 Element Plus 版本的后台管理前端解决方案&#xff0c;是 有来技术团队 继 youlai-mall 全栈开源商城项目的又一开源力作功能清单技术栈清单技术栈 描述官网Vue3 渐进式 JavaScript 框架 https://v3.cn.vuejs.org/Ty…