事件抽取(Event Extraction, EE)

news2024/11/26 9:33:35

一、引言

事件抽取(Event Extraction, EE)是信息抽取领域中的一个重要任务,旨在从非结构化文本中识别和抽取事件相关的信息。事件抽取通常包括识别事件触发词、事件类型以及事件中的参与者、时间、地点等元素,最终将这些信息结构化地表示出来。事件抽取是自然语言处理(NLP)中的一个挑战性问题,广泛应用于新闻分析、舆情监控、情报分析等场景。

二、分类

2.1 句子级事件抽取

句子级事件抽取指的是从单个句子中识别并提取事件信息。这包括找到事件触发词、识别事件类型,以及抽取相关的事件论元(如参与者、时间、地点等)。句子级事件抽取主要集中于以下几个方面:

  1. 触发词检测:识别一个句子中的事件触发词,这是事件抽取的第一步。触发词通常是某些动词或名词,表示事件的发生。

  2. 事件类型分类:根据识别到的触发词,对事件进行类型分类,例如“自然灾害”、“人事变动”等。

  3. 论元抽取:找到与事件相关的要素,如“谁做了什么”、“在什么时候”、“在什么地点”等。

句子级事件抽取的优势在于处理范围相对较小,容易利用句法和语义特征进行分析。然而,它也存在一些限制,例如无法处理跨句子分布的事件信息

2.2 篇章级事件抽取

篇章级事件抽取则涉及对整个篇章或多句话段中事件的识别和提取。在篇章中,事件往往会跨越多个句子,形成因果、从属或并列关系,篇章级事件抽取的目标是在更大上下文中完整地捕捉这些事件及其相互关系。研究的主要任务包括:

  1. 跨句子事件抽取:识别分布在多个句子中的事件信息。例如,一个句子描述事件的主体,另一个句子描述事件的发生背景或时间。

  2. 事件链建模:通过识别多个事件之间的因果关系和时间顺序,构建事件链,以此来理解整个篇章中事件的因果逻辑和发展。

  3. 篇章内论元共享:在篇章级别中,事件论元往往需要共享。例如,前面某句话中提到的实体在后面的句子中继续起作用,这就需要模型有能力理解指代和篇章连贯性。

2.3 句子级与篇章级事件抽取的差异

2.3.1 抽取范围

  • 句子级事件抽取聚焦于单个句子,能够快速识别和提取特定句子中的事件。

  • 篇章级事件抽取则着重于跨越句子的上下文,目标是捕获完整的篇章信息。

2.3.2 上下文理解

  • 句子级事件抽取通常可以在有限的上下文内进行,只需要理解句子内的关系

  • 篇章级事件抽取需要处理更复杂的上下文,包含跨句子的依存关系、指代消解、篇章结构等,这对事件的连贯性建模提出了更高要求。

2.3.3 研究重点

  • 句子级事件抽取的研究重点主要集中在事件触发词识别、事件类型分类以及论元的抽取。它通常利用深度学习模型(如LSTM、BERT等)来学习词汇和句法特征。

  • 篇章级事件抽取的研究重点在于对跨句子的上下文建模和复杂关系的抽取。篇章级事件抽取常采用图神经网络(GNN)等方法,构建句子之间的关系图,或者利用指代消解技术和篇章推理模型来获取更深层次的关系。

2.3.4 研究挑战与方法

  • 句子级事件抽取面临的主要挑战在于如何应对词语的歧义性和抽取论元时的复杂语法。一般使用依存句法分析、BERT等预训练模型来解决这些问题。

  • 篇章级事件抽取的主要挑战是如何有效建模篇章内的关系和理解上下文依存。例如,篇章内的一个事件可能由多个触发词跨越不同的句子来描述,如何处理这些分布式的信息是篇章级事件抽取中的一个难点。常见的方法包括利用篇章级Transformer模型,或者通过建立图结构进行跨句子的依存关系建模。

三、篇章级事件抽取(Document-level Event Extraction, DEE)

篇章级事件抽取(Document-level Event Extraction, DEE)是从给定篇章中检测出符合预先定义事件模板的事件,并抽取与事件相关的角色和论元。根据是否需要识别事件,DEE 研究可以分为两个子任务:篇章级事件识别及其论元抽取(DocEI & AE)和篇章级事件论元抽取(DocEAE)。

3.1 篇章级事件识别及其论元抽取 (DocEI & AE)

DocEI & AE 的目标是从篇章中抽取所有符合指定类型的事件信息。这一任务的核心在于识别事件类型及其相关的论元,并形成一个完整的事件表格。任务包括以下三个子任务:

  1. 实体抽取:首先从篇章中识别出可能作为论元的候选实体。例如,在篇章中,实体可以是人名、地点、时间等,与事件相关的信息通常通过不同的颜色来标注。

  2. 事件类型判断:识别篇章中包含的事件类型。每个篇章可能包含多个事件类型,例如,事件类型 EU 和 EO,表示不同类别的事件。

  3. 多事件识别及论元抽取:给定事件类型后,识别篇章中多个相同类型的事件,并抽取这些事件的相关论元。例如,在篇章中可能包含同一种类型的多个事件(如一个EU事件和两个EO事件),需要对每个事件进行角色-论元抽取。

3.1.1 DocEI & AE 任务定义

假定篇章为D,DocEI & AE 任务的目标包括:

  1. 识别篇章 D中包含的所有事件类型集合\{t\}

  2. 对于每个事件类型t,识别其包含的所有事件集合\{event\},并完成每个事件在每个角色下的论元抽取。

  3. 可以形式化表示为:event=\{Role_{t,k}, \{arg_{t,k,j}\}\},其中Role_{t,k}是事件类型 t 的第k个角色,arg_{t,k,j}是篇章D中的一个实体,代表角色Role_{t,k}的论元,j表示该角色可以包含多个论元。

3.1.2 研究进展

DocEI & AE任务的实现模式有两种,一种是流水线模式,即分布独立实现实体抽取、事件类型判断和多事件抽取等子任务 (如:Doc2EDAG,DE-PPN,PTPCG,GIT,RAAT,SCDEE),难点在于多时间识别。

另一种是联合模式,即将上述子任务整合成一个完整的抽取任务,从而避免错误传播。难点在于设计一个合理的数据结构/图结构(如:Token-Event-Role Structure-based Multi-Channel Document-Level Event Extraction,TT-BECG),既能表示和解码篇章中包含的所有事件,又能直接揭示实体在何种时间类型下的哪些事件中扮演了何种角色论元,从而将3 个子任务集成为 1 个任务完成整个抽取任务。

3.2 篇章级事件论元抽取 (DocEAE)

DocEAE 的目标是在已知每个篇章包含的事件类型和事件触发词的情况下,识别每一个触发词所对应事件的角色与论元,无需再次识别事件类型。任务包括以下两个子任务:

  1. 识别候选论元:从篇章中识别出所有可能作为论元的文本片段。这些片段可以是命名实体,也可能是非命名实体,如时间描述或短语等(在示例图中通常用下划线表示)。

  2. 论元分类与链接:针对给定事件类型的每个角色,对候选论元进行分类,判断该论元是否充当相应角色。例如,针对触发词标记的事件,找到其对应角色的论元并进行标注(通常通过带箭头的线段来表示角色与论元的对应关系)。

3.2.1 DocEAE 任务定义

假定篇章D中包含多个事件,每个事件由一个触发词t标记,同时t表示所触发的事件类型。任务目标是:

  1. 针对每个触发词t触发的事件event_t,找到事件的所有角色-论元对集合\{Role_{t,k}, \{arg_{t,k,j}\}\}

  2. 其中,Role_{t,k}是事件类型 t 的第k个角色,arg_{t,k,j}是篇章D中的一个文本片段,充当事件 event_t中角色Role_{t,k}的论元,j表示该事件在角色Role_{t,k}上可以有多个论元。

3.2.2 研究进展

目前,篇章级事件论元抽取(DocEAE)的研究主要集中于 RAMS 和 WIKIEVENTS 语料库,研究思路大致分为四种策略:基于传统分类、机器阅读理解(MRC)、文本生成、和跨度选择。这些策略基于不同的实现方式,分别为 DocEAE 任务提供了解决思路和研究进展。

1. 基于传统分类

这种策略的核心是先产生候选论元,再对每个角色进行分类判断,即识别每个候选论元是否充当该角色的论元。

  • 候选论元生成:RAMS提出了枚举一定长度范围内的所有文本片段作为候选论元,然后再对每个角色进行分类判断,确定哪些候选片段可以充当角色的论元。

  • 语义编码和减少候选空间

    • TSAR和EAE采用抽象语义表示图(AMR)对篇章结构语义进行编码,以增强对篇章结构的理解。

    • A Two-Step Approach for Implicit Event Argument Detection提出了一种两阶段方法来确定论元中心词,从而减少候选论元的选择范围。

    • Document-Level Event Argument Extraction via Optimal Transport利用剪枝的句法依存树学习词语表示,以减少分类任务的复杂性。

    • STCP考虑了论元上下文线索和同一事件类型角色之间的关联,以提高论元抽取的准确性。

2. 机器阅读理解 (MRC)

这种方法将任务转换为机器阅读理解,通过提出问题并确定文本中的答案来实现论元抽取。

  • 问题生成和文本拼接:文献[14]和文献[36]将每个事件的角色生成为一个问题,然后将该问题与篇章拼接在一起,送入预训练语言模型,通过确定论元在文本中的开始和结束位置来避免候选论元的产生。

  • 预训练和论元关系建模

    • Machine Reading Comprehension as Data Augmentation: A Case Study on Implicit Event Argument Extraction提出先在 MRC 数据集上进行预训练,然后在 DocEAE 数据集上进行微调,以缓解少样本训练的问题。

    • FEAE通过使用同一事件的其他论元及其角色作为线索,捕捉论元与论元之间的语义关系,增强了模型的推理能力。

3. 文本生成

文本生成策略基于事件本体,通过创建事件模板,并用论元填充模板的方式进行事件抽取。

  • 事件模板生成:文献[6]将 DocEAE 任务转化为基于事件模板的文本生成任务。对于每种事件类型,创建一个包含所有论元占位符的模板,并通过序列到序列(Seq2Seq)的编码器-解码器模型生成填充后的模板。

  • 扩展生成模型

    • 文献[37-38]扩展了生成模型,捕获了多个事件之间的关联语义。

    • 文献[39]捕捉了论元与触发词之间的依赖关系,以增强对事件的理解。

    • 文献[40]将检索增强技术融入生成模型,用于更好地生成论元信息。

    • 文献[41]则将文本生成策略应用于临床医学领域的事件抽取。

4. 跨度选择

跨度选择策略通过基于角色的表示,训练模型分别确定论元在文本中的开始和结束位置。

  • 基于提示的跨度选择:Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction为每种事件类型设计了一个提示模板,基于预训练语言模型(PLMs)返回的角色表示为每个角色生成两个跨度选择器,分别确定论元的开始和结束位置。由于所有角色的跨度选择器是联合训练的,因此可以捕获同一事件类型下各角色论元之间的语义关联。

  • 扩展与改进

    • Contextualized Soft Prompts for Extraction of Event Arguments基于软提示对Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction的方法进行了扩展。

    • Revisiting Event Argument Extraction: Can EAE Models Learn Better When Being Aware of Event Co-occurrences?在Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction的基础上,尝试同时抽取多个事件的论元,以捕获多事件之间的关联语义。

    • Intra-Event and Inter-Event Dependency-Aware Graph Network for Event Argument Extraction为每个事件建立事件内和事件间的依赖感知图网络,以捕获事件中的角色依赖关系。

5. 其他研究进展
  • 基于预训练模型的策略:除了基于传统分类的方法,后面三种策略(MRC、文本生成和跨度选择)均是基于预训练语言模型,充分利用了其在语言理解和生成方面的优势。

  • 迁移学习与其他方法

    • A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational Information Bottleneck、Textual Entailment for Event Argument Extraction: Zero- and Few-Shot with Multi-Source Learning、What Is Overlap Knowledge in Event Argument Extraction? APE: A Cross-datasets Transfer Learning Model for EAE

      将迁移学习、文本蕴涵(Textual Entailment)等方法应用于 DocEAE 任务,以缓解训练数据不足的问题。

    • Few-Shot Document-Level Event Argument Extraction构建了少样本数据集 FewDocAE,为少样本场景下的事件抽取研究提供了支持。

    • Document-Level Event Argument Extraction With a Chain Reasoning Paradigm采用链式推理(Chain Reasoning)的方法来解决长距离依赖问题,以增强模型对篇章中复杂依存关系的理解。

四、未来趋势

4.1 获取更多语义信息/缩小候选跨度的抽取策略

  • 语义信息的深度挖掘:现有的方法在利用蕴含的语义信息方面存在不足,例如角色的语义信息、事件类型的语义信息,以及角色、事件类型、触发词和篇章之间的关联语义信息。未来的研究可以探索如何有效地编码这些语义信息,从而提升篇章级事件抽取的效果。

  • 减少候选跨度:候选论元的巨大跨度范围是影响抽取性能的一个重要因素。如何通过有效的方法来缩小候选跨度范围,是未来篇章级事件论元抽取(DocEAE)的一个研究热点。例如,可以通过更精确的候选论元生成策略来减少不必要的候选,进而提升模型的效率和准确性。

4.2 基于少样本的篇章级事件论元抽取

少样本问题:目前支持篇章级事件抽取的数据集有限,尤其是在英文数据集方面,规模较小且事件类型分布不均,导致某些事件类型样本非常少,无法有效支撑深度学习模型的训练。为了解决这一问题,未来可以探索基于少样本学习的篇章级事件论元抽取策略,例如:

  • 零样本学习和元学习:利用零样本学习(Zero-shot Learning)和元学习(Meta-learning)等技术,减少对大规模标记数据的依赖,从而提升模型在数据稀缺情况下的表现。

4.3 面向跨度论元的篇章级事件抽取

  • 面向跨度的事件抽取:当前的篇章级事件抽取研究中,针对 RAMS 和 WIKIEVENTS 数据集的任务大多聚焦于篇章级事件论元抽取,即在给定事件触发词的情况下,识别与之相关的论元。然而,这种任务设置降低了任务的难度,限制了研究的适用性和实际应用场景的广泛性。

  • 多事件识别与论元抽取的结合:未来可以设计面向跨度的篇章级事件识别及其论元抽取(DocEI & AE)模型,同时解决事件类型识别和跨度论元的抽取问题,这将提高抽取任务的复杂性,但也能更好地模拟现实应用中的复杂场景,使研究成果具备更高的应用推广价值。

4.4 基于新数据集的篇章级开放事件抽取

  • 篇章级开放事件抽取:目前的中文篇章级事件抽取数据集大多集中在金融公告领域,文本内容和描述相对固定,且事件论元较为简单,多为命名实体。英文数据集虽然包含部分跨度论元,但规模有限且事件类型固定,无法很好地适应新类型事件的抽取需求。

  • 财经评论中的事件抽取:财经评论的语言描述较复杂,涉及施事者、受事者、时间、地点等多个事件成分,还包括事件行为发生的背景、条件等。财经评论的逻辑性较强,存在丰富的事件关系,因此,如何从财经评论中抽取篇章级开放事件,特别是处理复杂的非命名实体论元和论元共享问题,是一个重要的研究方向。

  • 开放事件抽取的应用场景:通过构建新型的数据集,例如面向财经评论的篇章级开放事件抽取数据集,可以推动事件关系抽取和开放事件抽取的研究,使这一领域成为新的研究热点。

4.5 基于大模型的篇章级事件论元抽取

  • 大模型的应用:随着大模型(如GPT-3、T5、PaLM等)在NLP任务中的广泛应用,未来篇章级事件抽取的研究将更多地考虑如何利用大模型来提升事件抽取的效果。具体策略可能包括:

    • 零样本提示和上下文情境学习:利用大模型的零样本提示(Zero-shot Prompting)和上下文情境学习(Contextual Learning)技术,设计更加有效的提示词(Prompts)来获取更多的语义信息,提高论元抽取的精度。

    • 思维链推理(Chain-of-Thought Reasoning):利用大模型的思维链推理能力,设计新的篇章级事件论元抽取执行框架,以捕获复杂的事件逻辑和跨句推理的能力。

  • 多任务学习和知识共享:大模型可以用于跨任务学习和知识共享,例如同时训练多个事件类型或论元角色的抽取任务,以提高模型对篇章中多事件信息的综合理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2190294.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【进阶OpenCV】 (4)--图像拼接

文章目录 图像拼接1. 读取图片2. 计算图片特征点及描述符3. 建立暴力匹配器4. 特征匹配5. 透视变换6. 图像拼接 总结 图像拼接 图像拼接是一项将多张有重叠部分的图像(这些图像可能是不同时间、不同视角或者不同传感器获得的)拼成一幅无缝的全景图或高分…

论文翻译 | Model-tuning Via Prompts Makes NLP Models Adversarially Robust

摘要 近年来,NLP从业者集中于以下实践:(i)导入现成的预训练(掩码)语言模型;(ii)在CLS令牌的隐藏表示(随机初始化权重)上附加多层感知器;(iii)在下游任务(MLP-FT)上微调整个模型。这一过程在标准的NLP基准上产生了巨大的收益,但这些模型仍然很脆弱&#x…

mysql单表查询·3

准备好表 create table product(id int primary key,name varchar(32),price double,category varchar(32) ); # 插入数据 INSERT INTO product(id,name,price,category) VALUES(1,联想,5000,c001); INSERT INTO product(id,name,price,category) VALUES(2,海尔,3000,c001); I…

加密与安全_HOTP一次性密码生成算法

文章目录 HOTP 的基础原理HOTP 的工作流程HOTP 的应用场景HOTP 的安全性安全性增强措施Code生成HOTP可配置项校验HOTP可拓展功能计数器(counter)计数器在客户端和服务端的作用计数器的同步机制客户端和服务端中的计数器表现服务端如何处理计数器不同步计…

好用的苹果笔推荐!五大高品质王者款!附避坑宝典助你选购无忧!

现在平板和电容笔在一定程度上可以替代传统的笔和纸,很多用户在购置iPad后,急需找到一款好用的电容笔。但由于苹果原装笔的价格太过高昂,让许多人不得不选择平替电容笔!下面我就为大家推荐五款高品质的电容笔,并分享几…

单细胞hdWGCNA分析学习和整理

hdWGCNA的分析逻辑是跟bulkRNA数据中的WGCNA基本一样,只是hdWGCNA中多了一步metacell过程,有助于减少无用的信息(单细胞数据有很多零值,会影响分析结果)。 WGCNA的基础信息可见既往推文: https://mp.weixin.qq.com/s/2Q37RcJ1pBy_WO1Es8upIg…

二分查找算法专题(2)

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏: 优选算法专题 对于二分查找算法不是很了解或者只了解一部分的小伙伴一定要去看下面这篇博客:二分查找算法的介绍与另外一种查找方…

【EcoNAS: Finding Proxies for Economical Neural Architecture Search】读后感

鄙人近日阅读了来自 CVPR2020 的一篇论文, 在这里与大家分享一下读后感, 有些东西可能不一定正确, 还望大家指正. Exploration Study 进化算法是 NAS 中一种常用的搜索算法, 使用进化算法时, 如果将每一个候选网络训练到完全收敛来评估性能的话, 需要耗费大量的资源 (时间, G…

现代身份和访问管理 IAM 如何降低风险

您的公司是否仍在使用 1998 年时的身份管理系统?仅凭用户名和密码就能登录本地网络并访问几乎所有资源吗? 虽然大多数企业已经转向现代身份和访问管理(IAM) 平台,但成千上万的企业和其他组织仍然依赖过时的用户名/密码系统。 如果你看一下传…

Ubuntu18.04配置OpenPCDet并运行demo过程记录

一、概述 因为最近需要配置OpenPCDet,发现在配置过程中存在诸多的问题需要解决,将过程中所遇到的问题进行记录保存。 二、具体配置过程 (一)参考链接 因为中间遇到了很多问题,参考了很多不少相应的博客进行问题解决。…

【Unity】unity安卓打包参数(个人复习向/有不足之处欢迎指出/侵删)

1.Texture Compression 纹理压缩 设置发布后的纹理压缩格式 Use Player Settings:使用在播放器设置中设置的纹理压缩格式 ETC:使用ETC格式(兼容) ETC2:使用ETC2格式(很多设备不支持) ASTC:使用…

使用JavaScript写一个网页端的四则运算器

目录 style(内联样式表部分) body部分 html script 总的代码 网页演示 style(内联样式表部分) <style>body {font-family: Arial, sans-serif;display: flex;justify-content: center;align-items: center;height: 100vh;background-color: #f0f0f0;}.calculator {…

c++ 指针传参

// // Created by 徐昌真 on 2024/10/4. // #include <iostream>//函数的值传递 void swap(int a, int b){ //只是单纯的改变了函数内部a b的值 在main函数内值并不会改变 因为值存在地址里面 而地址里面的值要通过指针来改变int temp;temp a;a b;b temp; }//函数的址…

Oracle架构之表空间详解

文章目录 1 表空间介绍1.1 简介1.2 表空间分类1.2.1 SYSTEM 表空间1.2.2 SYSAUX 表空间1.2.3 UNDO 表空间1.2.4 USERS 表空间 1.3 表空间字典与本地管理1.3.1 字典管理表空间&#xff08;Dictionary Management Tablespace&#xff0c;DMT&#xff09;1.3.2 本地管理方式的表空…

8647 实现图的存储结构

### 思路 1. 读取输入的顶点个数n和边的条数m。 2. 初始化一个n*n的邻接矩阵&#xff0c;所有元素初始为0。 3. 读取每条边的信息&#xff0c;更新邻接矩阵对应位置为1。 4. 输出邻接矩阵。 ### 伪代码 1. 读取n和m。 2. 初始化n*n的邻接矩阵matrix&#xff0c;所有元素为0。 …

CSS列表和超链接的使用(8个案例+代码+效果图+素材)

目录 1.无序列表ul 案例:定义不同type的li 1.代码 2.效果 2.有序列表ol type 取值 start属性 value 案例:定义不同类型的有序列表 1.代码 2.效果 3.定义列表dl 1.代码 2.效果 4.list-style-type属性 list-style-type的取值 案例:list-type的使用 1.代码 2.效果 5.list-style-im…

关于OJ平台的一个代码小问题 ——

目录 一、关于OJ平台的一个代码小问题 1、将OJ代码复制粘贴到vs上 2、创建测试方法&#xff0c;调用本次要调试的目标方法 3、利用vs调试工具排查代码问题 一、关于OJ平台的一个代码小问题 思考&#xff1a;OJ代码有bug怎么办&#xff1f; 答&#xff1a;VS调试技能用起来 …

G. Gears (2022 ICPC Southeastern Europe Regional Contest. )

G. Gears 思路&#xff1a; 本身这个题并不难&#xff0c;奈何卡了很久后看了题解才做出来&#xff0c;感觉自己好笨。 很容易想到的是&#xff0c;只要确定了一个齿轮的位置&#xff0c;其他齿轮的位置都可以直接推出来。所以当前目标是如何确定第一个齿轮的位置。 令 x [ i …

第2篇:Windows权限维持----应急响应之权限维持篇

关键词&#xff1a;Windows系统后门、权限维持 在获取服务器权限后&#xff0c;通常会用一些后门技术来维持服务器权限&#xff0c;服务器一旦被植入后门&#xff0c;攻击者便如入无人之境。本文将对常见的window服务端自启动后门技术进行解析&#xff0c;知己知彼方能杜绝后门…

系统规划与管理——1信息系统综合知识(4)

文章目录 1.3 信息系统1.3.4 信息系统总体规划 1.3 信息系统 1.3.4 信息系统总体规划 信息系统总体规划的概念和作用 一个组织或一个区域的信息系统建设&#xff0c;都要经历由初始到成熟的发展过程。诺兰总结了信息系统发展的规律&#xff0c;在1973年提出了信息系统发展的阶…