【数据分析】用Python做事件抽取任务-快速上手方案

news2024/11/24 23:37:04

目录

  • 方法一:使用OmniEvent库
    • 安装OmniEvent
    • 使用OmniEvent进行事件抽取
    • OmniEvent优点
    • 缺点
  • 方法二:使用大模型
    • 使用GPT网页版进行事件抽取
      • 事件类型列表
    • 大模型优点
    • 缺点
  • 总结

在自然语言处理(NLP)领域,事件抽取是一项关键任务,它涉及从文本中识别和提取事件及其相关信息。

本文作者将介绍两种常见的事件抽取方法:使用清华大学开源的OmniEvent工具包ChatGPT大模型方法。

我们将分析这两种方法的优缺点,并提供一些代码示例来展示其实际应用。

方法一:使用OmniEvent库

OmniEvent是清华大学开源的一款用于事件抽取的库,支持多种事件抽取任务,包括触发词检测、事件论元抽取等。该库提供了预训练模型和易于使用的接口,极大简化了事件抽取的实现。

全面涵盖各种范式,并对广泛使用的英文和中文数据集提供公平、统一的评估。模块化实现使 OmniEvent 具有高度可扩展性。

安装OmniEvent

首先,我们需要安装OmniEvent库。可以使用以下命令进行安装:

pip install omnievent

使用OmniEvent进行事件抽取

以下是一个使用OmniEvent进行事件抽取的示例代码:


from OmniEvent import infer
device='cpu'


# 初始化OmniEvent模型
def init_models(device='cpu'):
    ed_model, ed_tokenizer = infer.get_pretrained("s2s-mt5-ed",device=device)
    eae_model, eae_tokenizer = infer.get_pretrained("s2s-mt5-eae",device=device)
    return (ed_model, ed_tokenizer,eae_model,eae_tokenizer)

# 进行事件抽取
def run_ee(models,news_text_list,device='cpu'):
    schemas = ["<ace>"]*len(news_text_list)
    
    ed_model, ed_tokenizer,eae_model,eae_tokenizer=models
    events = infer.do_event_detection(ed_model, ed_tokenizer, news_text_list, schemas, device)
    instances = infer.prepare_for_eae_from_pred(news_text_list, events, schemas)
    

    if len(instances[0]["triggers"]) == 0:
        results = [{
            "text": instances[0]["text"],
            "events": []
        }]
        return results
    arguments = infer.do_event_argument_extraction(eae_model, eae_tokenizer, instances, device)
    results = infer.get_eae_result(instances, arguments)
    return results


text = "“中比动漫文化周”12日在布鲁塞尔中国文化中心开幕,旨在通过动漫这一独特的艺术形式,促进两国文化的交流与理解。"
models=init_models(device)
ee=run_ee(models,[text])
# 输出结果

for events in ee:
    print("文本:", events['text'])
    for event in events['events']:
        print(f"事件类型: {event['type']}")
        print(f"触发词: {event['trigger']}")
        print(f"论元: {event['arguments']}")

Output:

文本: “中比动漫文化周”12日在布鲁塞尔中国文化中心开幕,旨在通过动漫这一独特的艺术形式,促进两国文化的交流与理解。
事件类型: 组织行为开幕
触发词: 开幕
论元: [{'mention': '12日', 'offset': [9, 12], 'role': '时间'}, {'mention': '布鲁塞尔中国文化中心', 'offset': [13, 23], 'role': '地点'}, {'mention': '“中比动漫文化周”', 'offset': [0, 9], 'role': '活动名称'}]
CPU times: user 21.2 s, sys: 78.3 ms, total: 21.3 s
Wall time: 5.53 s

OmniEvent优点

  1. 易用性高:OmniEvent提供了简单易用的API,用户可以快速上手。
  2. 预训练模型:库中包含多种预训练模型,可直接用于实际任务,减少训练成本。
  3. 多任务支持:支持多种事件抽取任务,包括触发词检测和事件论元抽取。

缺点

  1. 依赖数据集:虽然预训练模型能应对大部分任务,但特定领域的事件抽取可能需要额外的训练数据。
  2. 运行效率低: 模型是直接将ED任务和EAE任务合并为EE任务,因此耗时较长。(可将其分开,再得到ED任务结果后,选择满足条件的数据进行下一步EAE任务的测试)

方法二:使用大模型

大模型(如GPT-4、BERT等)在各种NLP任务中表现优异,也可用于事件抽取。大模型的优势在于其强大的语言理解能力和泛化能力。

由于经费有限,本文只能用网页版用来演示效果。项目中实际开发可以使用Pythonlangchain工具包调用大模型api接口达到此效果。

使用GPT网页版进行事件抽取

input prompt:

给定的句子为:"“中比动漫文化周”12日在布鲁塞尔中国文化中心开幕,旨在通过动漫这一独特的艺术形式,促进两国文化的交流与理解。"

给定事件类型列表:['灾害/意外-坠机', '司法行为-举报', '财经/交易-涨价', '组织关系-解雇', '组织关系-停职', '财经/交易-加息', '交往-探班', '人生-怀孕', '组织关系-辞/离职', '组织关系-裁员', '灾害/意外-车祸', '人生-离婚', '司法行为-起诉', '竞赛行为-禁赛', '人生-婚礼', '财经/交易-涨停', '财经/交易-上市', '组织关系-解散', '财经/交易-跌停', '财经/交易-降价', '组织行为-罢工', '司法行为-开庭', '竞赛行为-退役', '人生-求婚', '人生-庆生', '交往-会见', '竞赛行为-退赛', '交往-道歉', '司法行为-入狱', '组织关系-加盟', '人生-分手', '灾害/意外-袭击', '灾害/意外-坍/垮塌', '组织关系-解约', '产品行为-下架', '灾害/意外-起火', '灾害/意外-爆炸', '产品行为-上映', '人生-订婚', '组织关系-退出', '交往-点赞', '产品行为-发布', '人生-结婚', '组织行为-闭幕', '人生-死亡', '竞赛行为-夺冠', '人生-失联', '财经/交易-出售/收购', '竞赛行为-晋级', '竞赛行为-胜负', '财经/交易-降息', '组织行为-开幕', '司法行为-拘捕', '交往-感谢', '司法行为-约谈', '灾害/意外-地震', '人生-产子/女', '财经/交易-融资', '司法行为-罚款', '人生-出轨', '灾害/意外-洪灾', '组织行为-游行', '司法行为-立案', '产品行为-获奖', '产品行为-召回']

在这个句子中,可能包含了哪些事件类型?
请给出事件类型列表中的事件类型。
如果不存在则回答:无
按照元组形式回复,如 (事件类型1, 事件类型2, ……)

output:
在这里插入图片描述
Input prompt:

事件类型"组织行为-开幕"对应的论元角色列表为:['时间', '地点', '活动名称']。
在给定的句子中,根据论元角色提取出事件论元。
如果论元角色没有相应的论元内容,则论元内容回答:无
按照表格形式回复,表格有两列且表头为(论元角色,论元内容):

Output:
在这里插入图片描述

事件类型列表

{
	'灾害/意外-坠机': ['时间', '地点', '死亡人数', '受伤人数'],
	'司法行为-举报': ['时间', '举报发起方', '举报对象'],
	'财经/交易-涨价': ['时间', '涨价幅度', '涨价物', '涨价方'],
	'组织关系-解雇': ['时间', '解雇方', '被解雇人员'],
	'组织关系-停职': ['时间', '所属组织', '停职人员'],
	'财经/交易-加息': ['时间', '加息幅度', '加息机构'],
	'交往-探班': ['时间', '探班主体', '探班对象'],
	'人生-怀孕': ['时间', '怀孕者'],
	'组织关系-辞/离职': ['时间', '离职者', '原所属组织'],
	'组织关系-裁员': ['时间', '裁员方', '裁员人数'],
	'灾害/意外-车祸': ['时间', '地点', '死亡人数', '受伤人数'],
	'人生-离婚': ['时间', '离婚双方'],
	'司法行为-起诉': ['时间', '被告', '原告'],
	'竞赛行为-禁赛': ['时间', '禁赛时长', '被禁赛人员', '禁赛机构'],
	'人生-婚礼': ['时间', '地点', '参礼人员', '结婚双方'],
	'财经/交易-涨停': ['时间', '涨停股票'],
	'财经/交易-上市': ['时间', '地点', '上市企业', '融资金额'],
	'组织关系-解散': ['时间', '解散方'],
	'财经/交易-跌停': ['时间', '跌停股票'],
	'财经/交易-降价': ['时间', '降价方', '降价物', '降价幅度'],
	'组织行为-罢工': ['时间', '所属组织', '罢工人数', '罢工人员'],
	'司法行为-开庭': ['时间', '开庭法院', '开庭案件'],
	'竞赛行为-退役': ['时间', '退役者'],
	'人生-求婚': ['时间', '求婚者', '求婚对象'],
	'人生-庆生': ['时间', '生日方', '生日方年龄', '庆祝方'],
	'交往-会见': ['时间', '地点', '会见主体', '会见对象'],
	'竞赛行为-退赛': ['时间', '退赛赛事', '退赛方'],
	'交往-道歉': ['时间', '道歉对象', '道歉者'],
	'司法行为-入狱': ['时间', '入狱者', '刑期'],
	'组织关系-加盟': ['时间', '加盟者', '所加盟组织'],
	'人生-分手': ['时间', '分手双方'],
	'灾害/意外-袭击': ['时间', '地点', '袭击对象', '死亡人数', '袭击者', '受伤人数'],
	'灾害/意外-坍/垮塌': ['时间', '坍塌主体', '死亡人数', '受伤人数'],
	'组织关系-解约': ['时间', '被解约方', '解约方'],
	'产品行为-下架': ['时间', '下架产品', '被下架方', '下架方'],
	'灾害/意外-起火': ['时间', '地点', '死亡人数', '受伤人数'],
	'灾害/意外-爆炸': ['时间', '地点', '死亡人数', '受伤人数'],
	'产品行为-上映': ['时间', '上映方', '上映影视'],
	'人生-订婚': ['时间', '订婚主体'],
	'组织关系-退出': ['时间', '退出方', '原所属组织'],
	'交往-点赞': ['时间', '点赞方', '点赞对象'],
	'产品行为-发布': ['时间', '发布产品', '发布方'],
	'人生-结婚': ['时间', '结婚双方'],
	'组织行为-闭幕': ['时间', '地点', '活动名称'],
	'人生-死亡': ['时间', '地点', '死者年龄', '死者'],
	'竞赛行为-夺冠': ['时间', '冠军', '夺冠赛事'],
	'人生-失联': ['时间', '地点', '失联者'],
	'财经/交易-出售/收购': ['时间', '出售方', '交易物', '出售价格', '收购方'],
	'竞赛行为-晋级': ['时间', '晋级方', '晋级赛事'],
	'竞赛行为-胜负': ['时间', '败者', '胜者', '赛事名称'],
	'财经/交易-降息': ['时间', '降息幅度', '降息机构'],
	'组织行为-开幕': ['时间', '地点', '活动名称'],
	'司法行为-拘捕': ['时间', '拘捕者', '被拘捕者'],
	'交往-感谢': ['时间', '致谢人', '被感谢人'],
	'司法行为-约谈': ['时间', '约谈对象', '约谈发起方'],
	'灾害/意外-地震': ['时间', '死亡人数', '震级', '震源深度', '震中', '受伤人数'],
	'人生-产子/女': ['时间', '产子者', '出生者'],
	'财经/交易-融资': ['时间', '跟投方', '领投方', '融资轮次', '融资金额', '融资方'],
	'司法行为-罚款': ['时间', '罚款对象', '执法机构', '罚款金额'],
	'人生-出轨': ['时间', '出轨方', '出轨对象'],
	'灾害/意外-洪灾': ['时间', '地点', '死亡人数', '受伤人数'],
	'组织行为-游行': ['时间', '地点', '游行组织', '游行人数'],
	'司法行为-立案': ['时间', '立案机构', '立案对象'],
	'产品行为-获奖': ['时间', '获奖人', '奖项', '颁奖机构'],
	'产品行为-召回': ['时间', '召回内容', '召回方']
}

大模型优点

  1. 强大的语言理解能力:大模型具有强大的语言理解和推理能力,能够应对复杂的事件抽取任务。
  2. 适应性强:无需针对特定任务进行大量调整,能较好地泛化到不同领域的任务。
  3. 持续更新:大模型通常由大型公司维护,更新频率高,性能不断提升。

缺点

  1. 成本高:调用大模型通常需要付费,成本较高。
  2. 响应时间:由于模型复杂度高,推理时间较长,可能影响实时性要求高的应用。
  3. 依赖网络:需要稳定的网络连接来访问模型服务。

总结

OmniEvent库和大模型各有优缺点,适用于不同的应用场景。如果您需要快速实现事件抽取并且对特定领域有较高的定制化需求,OmniEvent是一个不错的选择。如果您追求高精度和强泛化能力,并且预算充足,可以考虑使用大模型。

无论选择哪种方法,都需要根据具体需求和资源情况进行权衡。希望本文能为您的事件抽取任务提供一些有价值的参考。

大数据分析为运营和各行业带来了前所未有的机会,使企业能够更敏锐地洞察市场、优化运营,并更有效地应对竞争和变革。在信息时代,充分利用大数据分析,将成为企业取得竞争优势的不可忽视的关键要素。

本人数据分析领域的从业者,拥有专业背景和能力,可以为您的数据采集、挖掘和分析需求提供支持。期待着能够与您共同探索更多有意义的数据洞见,为您的项目和业务提供数据分析方面的帮助。

创作不易,如果你觉得有帮助,请点个赞支持一下。你的鼓励是我创作的最大动力,期待未来能为大家带来更多有趣的分析文章。感谢大家的阅读和支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1830742.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多组学双疾病串扰怎么做?PAN-AD九个机器学习+MR+单细胞,工作量不少

说在前面 “串扰”这个名词听起来高级了一个level&#xff0c;其实就是MR-通路的双疾病联合分析。虽然是筛选标志物的思路&#xff0c;但是工作量不小&#xff0c;作者还收集了13个不同AD自身免疫疾病数据集用于验证自己的机器学习模型&#xff0c;分析就是一些常规的WGCNA、P…

基于sass模式Java语言+MySQL + MyCat开发的his系统源码 HIS系统住院业务流程 HIS系统住院流程化管理

基于sass模式Java语言MySQL MyCat开发的his系统源码 HIS系统住院业务流程 HIS系统住院流程化管理 HIS系统住院业务&#xff0c;该系统为医院提供了一套完整的住院业务流程解决方案&#xff0c;旨在提高住院管理的效率和精确度。通过HIS系统&#xff0c;医院工作人员可以某轻理…

DzzOffice集成功能最丰富的开源PHP+MySQL办公系统套件

DzzOffice是一套开源办公套件&#xff0c;旨在为企业和团队提供类似“Google企业应用套件”和“微软Office365”的协同办公平台。以下是对DzzOffice的详细介绍&#xff1a; 主要功能和应用&#xff1a; 网盘&#xff1a;支持企业、团队文件的集中管理&#xff0c;提供文件标签…

Oracle 是否扼杀了开源 MySQL

Oracle 是否无意中扼杀了开源 MySQL Peter Zaitsev是一位俄罗斯软件工程师和企业家&#xff0c;曾在MySQL公司担任性能工程师。大约15年前&#xff0c;当甲骨文收购Sun公司并随后收购MySQL时&#xff0c;有很多关于甲骨文何时“杀死MySQL”的讨论。他曾为甲骨文进行辩护&#…

攻防演练“轻装上阵” | 亚信安全信舱ForCloud 打造全栈防护新策略

网络世界攻防实战中&#xff0c;攻击风险已经从代码到云横跨全栈技术点&#xff0c;你准备好了吗 云服务器&#xff0c;攻击众矢之的 2022年超过38万个Kubernetes API服务器暴露公网&#xff0c;成为攻击者目标。云服务器&#xff0c;尤其是开源设施&#xff0c;一直以来不仅是…

物理隔离后数据怎么导入和导出?安全U盘一键解决

政府单位、军工和科研所、航空航天企业、金融机构、医疗单位、电力企业、生物制药实验室等企业及单位&#xff0c;因研发和生产过程、或日常经营中涉及大量敏感信息和技术&#xff0c;需要通过物理隔离来确保网络的安全性。因此&#xff0c;多采用物理隔离的方式进行网络建设。…

【Unity实战篇】| 快速制作一个简易时钟,包括2D和3D时钟

前言 【Unity实战篇】| 快速制作一个时钟&#xff0c;包括2D和3D时钟一、2D时钟制作1.1 钟表盘制作1.2 指针制作1.3 钟表搭建1.4 设置时钟的中心点1.5 时钟旋转逻辑 二、3D时钟制作2.1 搭建表盘和指针2.2 调整指针的位置和节点2.3 时钟旋转逻辑 总结 前言 时钟 这个东西想必不…

租房项目之并发缺失数据问题

前奏&#xff1a;本项目是一个基于django的租房信息获取项目。本次博客牵扯到两个版本&#xff0c;集中式分布以及分布式部署&#xff08;两个版本的ui不同&#xff0c;集中式用的是老版ui&#xff0c;分布式使用的是新版ui&#xff09;&#xff1b; 项目链接&#xff1a;http…

Peewee,一个既小巧又强大的 Python 库-轻松实现数据库的增删改查

目录 01初识 Peewee 为什么选择 Peewee? 02安装与配置 安装 Peewee 配置 Peewee 03定义模型 定义简单模型 定义复杂模型 04基本操作 创建记录 查询记录 更新记录 删除记录 05高级操作 复杂查询 事务处理 使用信号 模型迁移 06实战案例 简单博客系统 任务管…

2024年金地杯山西省大学生数学建模竞赛B题D题论文代码分析

2024金地杯数学建模B题和金地杯数学建模D题32页论文和代码已完成&#xff0c;代码为B题D题全部问题的代码&#xff0c;论文包括摘要、问题重述、问题分析、模型假设、符号说明、模型的建立和求解&#xff08;问题1模型的建立和求解、问题2模型的建立和求解、问题3模型的建立和求…

elasticsearch过滤器filter:原理及使用

码到三十五 &#xff1a; 个人主页 目录 一、引言二、Elasticsearch的过滤器概述三、使用DSL进行过滤操作术语过滤范围过滤复合过滤 四、优化策略五、结语 一、引言 Elasticsearch是一个功能强大的开源搜索引擎&#xff0c;广泛应用于各种数据检索和处理场景。在Elasticsearch…

C++ | Python气泡表面张力和预期形态及上升速度数值模型

&#x1f4dc;模型-用例 &#x1f4dc;流体力学&#xff1a;C风流和MATLAB | Python | CUDA 库埃特流泊肃叶流薄膜流体 | &#x1f4dc;神经网络&#xff1a;Python捕捉重叠气泡单体运动&#xff0c;算法测速 ✒️C风成和风蚀建模 风成过程是指由风在地表或近地表引起的侵蚀…

大跨度气膜综合馆有哪些应用场景—轻空间

1. 体育场馆 气膜综合馆广泛应用于各类体育场馆&#xff0c;如足球场、篮球场、网球场、游泳馆等&#xff0c;满足不同体育项目的需求。 2. 大型展览 气膜馆的宽敞空间和灵活布局&#xff0c;非常适合举办各类大型展览、交易会和博览会&#xff0c;提供充足的展示和活动空间。…

深入剖析 Laravel 框架:构建高效PHP应用的最佳实践

引言 随着互联网的高速发展&#xff0c;PHP 作为一门广泛使用的服务器端脚本语言&#xff0c;始终备受开发者青睐。而在众多 PHP 框架中&#xff0c;Laravel 凭借其优雅的设计和高效率&#xff0c;成为了构建现代 Web 应用的热门选择。本文将从零开始&#xff0c;探讨如何使用 …

聊聊redis中的字典的实现

写在文章开头 redis作为非关系数据库&#xff0c;其底层采用了字典(也称为映射)保存键值对。本文会基于源码分析的方式带你了解redis中这一常见数据结构的精巧设计&#xff0c;希望对你有帮助。 Hi&#xff0c;我是 sharkChili &#xff0c;是个不断在硬核技术上作死的 java c…

需求虽小但是问题很多,浅谈JavaScript导出excel文件

最近我在进行一些前端小开发&#xff0c;遇到了一个小需求&#xff1a;我想要将数据导出到 Excel 文件&#xff0c;并希望能够封装成一个函数来实现。这个函数需要接收一个二维数组作为参数&#xff0c;数组的第一行是表头。在导出的过程中&#xff0c;要能够确保避免出现中文乱…

【单片机】DS2431芯片,读写128个字节,程序

ds2431pt&r stm32读写程序&#xff1a; 部分程序&#xff1a; #include "sys.h" #include "delay.h" #include "usart.h"#include <stdio.h> #include <stdlib.h> #include <string.h>#include "sys.h" #incl…

使用代理IP常见问题及解答

代理IP在互联网数据收集和业务开展中发挥着重要作用&#xff0c;它充当用户客户端和网站服务器之间的“屏障”&#xff0c;可以保护用户的真实IP地址&#xff0c;并允许用户通过不同的IP地址进行操作。然而&#xff0c;在使用代理IP的过程中&#xff0c;用户经常会遇到一些问题…

车载学习:UDS诊断、ECU刷写、OTA升级、Tbox测试、CANoe实操

每天的直播时间&#xff1a; 周一至周五&#xff1a;20&#xff1a;00-23&#xff1a;00 周六与周日&#xff1a;9&#xff1a;00-12&#xff1a;00&#xff0c;14&#xff1a;00-17&#xff1a;00 TBOX 深圳 涉及过T-BOX测试吗Ota升级涉及的台架环境是什么样的&#xff1f;上…

全球潮流集结:海外盲盒小程序引领消费新风尚

随着全球化的加速和互联网的普及&#xff0c;消费者的购物选择不再局限于本土市场&#xff0c;而是越来越多地关注国际潮流和时尚趋势。在这个背景下&#xff0c;海外盲盒小程序应运而生&#xff0c;以其独特的购物模式和全球化的商品选择&#xff0c;迅速成为引领消费新风尚的…