【ChatIE】论文解读:Zero-Shot Information Extraction via Chatting with ChatGPT

news2025/3/11 9:28:15

文章目录

    • 介绍
    • ChatIE
      • Entity-Relation Triple Extration (RE)
      • Named Entity Recognition (NER)
      • Event Extraction (EE)
    • 实验
    • 结果
    • 结论

论文:Zero-Shot Information Extraction via Chatting with ChatGPT
作者:Xiang Wei, Xingyu Cui, Ning Cheng, Xiaobin Wang, Xin Zhang, Shen Huang, Pengjun Xie, Jinan Xu, Yufeng Chen, Meishan Zhang, Yong Jiang, Wenjuan Han
时间:2023

zero-shot information extraction 的目是从未注释的文本中构建信息提取(IE)系统,由于大模型发展迅速,其下游任务效果有了质的提升,文章中考虑采用prompt技巧进行信息提取,观察zero-shot 提取信息的可取性;

为此创建了一个二阶段的多回合问答框架ChatIE,并在三个IE任务上广泛地评估:整体关系三重提取、命名实体识别和事件提取。在两种语言的6个数据集上的经验结果表明,ChatIE取得了令人印象深刻的性能;

介绍

首先information extration 的目的是从非结构化的文本中提取出结构化的信息,并将结构化的信息转化为结构化的数据格式,信息提取主要由三块任务构成:三元组提取,实体命名识别,事件提取 entity-relation triple extract (RE), named entity recognition (NER), event extraction (EE);

在一般的处理工作中,以RE任务中PURE模型举例子[2010.12812] A Frustratingly Easy Approach for Entity and Relation Extraction (arxiv.org),首先识别出两个实体,然后再预测两个实体之间的关系,虽然说效果很好,但是这只适用于特别的任务并且是监督训练的,需要大量的标注数据;

由于一般IE方法的特殊性和昂贵性,这里转向研究ChatGPT的prompt来进行IE任务处理;

作者提出了一个两阶段的多轮问答框架,在第一阶段找出相应的元素类型,在第二阶段对每个元素类型进行链式信息提取;利用该框架进行信息提取的效果很明显;

ChatIE

这是一个两阶段框架:在第一阶段,目标是在三个任务中分别找出句子中的实体、关系或事件的现有类型。这样,我们就可以过滤掉不存在的元素类型,以减少搜索空间和计算复杂度,从而提取信息。然后在第二阶段,我们根据第一阶段提取的元素类型以及相应的任务特定方案,进一步提取相关信息。

如果没有提取任何内容,每个阶段都将生成无token的回答;

Entity-Relation Triple Extration (RE)

三元组提取任务也就是在文本中提取 ( s , r , o ) (s,r,o) (s,r,o):

这里的r指的是第一阶段提取到的关系,q1指第一阶段的问题,qr指根据第一阶段得到的关系提出的第二阶段的问题,也就得到 ( s , r , o ) (s,r,o) (s,r,o)

Named Entity Recognition (NER)

第一阶段我们先去获得实体类型,第二阶段根据实体类型获得实体的名字;

例如:第一阶段得到人物,地点,导演;第二阶段得到人物是谁,地点在哪,导演是谁;

Event Extraction (EE)

第一阶段我们先去获得事件类型并进行分类,第二阶段再根据每个类型的事件去获得类型;

实验

数据

RE数据:NYT11-HRL 包含12个预定义的关系类型,DuIE2.0 该行业中最大的基于模式的中国RE数据集,包含48种预定义的关系类型。三元组中的一些对象具有多个属性;

NER数据:The conllpp dataset conll2003的修改版本包含4种实体类型,MSRA 一个针对新闻字段的中文命名实体识别数据集,其中包含3种实体类型。

EE数据:DuEE1.0 百度发布的中文事件提取数据集,The ACE05 corpus 来自新闻通讯社和在线论坛等各种领域的文档和句子级别的事件注释。

评价指标

micro F1

结果

可以看到ChatIE的效果很突出;同时观察下表:

可以发现,基于聊天的Chat-based prompt 要比 一般的prompt得到的更准确;

结论

ChatIE 在 zero-shot information extration 任务中效果表现突出;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1453913.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PyTorch使用Tricks:学习率衰减 !!

文章目录 前言 1、指数衰减 2、固定步长衰减 3、多步长衰减 4、余弦退火衰减 5、自适应学习率衰减 6、自定义函数实现学习率调整:不同层不同的学习率 前言 在训练神经网络时,如果学习率过大,优化算法可能会在最优解附近震荡而无法收敛&#x…

算法刷题:长度最小的子数组

长度最小的子数组 .题目链接题目详情算法原理滑动窗口定义指针进窗口判断出窗口 我的答案 . 题目链接 长度最小的子数组 题目详情 算法原理 滑动窗口 这道题,我们采用滑动窗口的思想来解决,具体步骤如图所示 定义指针 如图所示,两个指针都需要从左往右进行遍历,因此初始值…

AIGC实战——能量模型(Energy-Based Model)

AIGC实战——能量模型 0. 前言1. 能量模型1.1 模型原理1.2 MNIST 数据集1.3 能量函数 2. 使用 Langevin 动力学进行采样2.1 随机梯度 Langevin 动力学2.2 实现 Langevin 采样函数 3. 利用对比散度训练小结系列链接 0. 前言 能量模型 (Energy-based Model, EBM) 是一类常见的生…

食物厨艺展示404错误页面模板源码

食物厨艺展示404错误页面模板源码,HTMLCSSJSCSS,记事本打开源码文件可以进行内容文字之类的修改,双击html文件可以本地运行效果,也可以上传到服务器里面,重定向这个界面 蓝奏云:https://wfr.lanzout.com/i3uC71oj52ah…

初识数据库:探索数据的世界

初识数据库:探索数据的世界 1. 什么是数据库?2. 数据库的类型2.1 关系型数据库(RDBMS)2.2 非关系型数据库(NoSQL) 3. 为什么使用数据库?4. 如何选择合适的数据库?5. 结语 在信息技术…

ovs和ovn安装

ovn和ovs介绍 ovn架构图 CMS||-----------|-----------| | || OVN/CMS Plugin || | || | || OVN Northbound DB || | || | || ovn-northd || …

设置windows10资源管理器等的边框

Windows10默认状态下,资源管理器、浏览器等没有边框,在打开多个窗口等情况下,想要拖动或选择某个窗口时,不是很好定位到窗口标题栏。 通过:设置(可以通过wini组合键打开设置)---》个性化 ---》…

第十二章[模块]:12.4:标准库:datetime

一,官方文档: 1,文档地址 datetime --- 基本日期和时间类型 — Python 3.12.2 文档源代码: Lib/datetime.py datetime 模块提供了用于操作日期和时间的类。 在支持日期时间数学运算的同时,实现的关注点更着重于如何能够更有效地解析其属性用于格式化输出和数据操作。 感知型…

vue-自定义创建项目(六)

为什么要自定义创建项目? 因为VueCli默认创建的项目不能够满足我们的要求,比如默认的项目中没有帮我们集成路由,vuex,eslink等功能。 默认项目 自定义创建项目 流程: 创建项目命令:vue create custom_dem…

VNCTF 2024 Web方向 WP

Checkin 题目描述:Welcome to VNCTF 2024~ long time no see. 开题,是前端小游戏 源码里面发现一个16进制编码字符串 解码后是flag CutePath 题目描述:源自一次现实渗透 开题 当前页面没啥好看的,先爆破密码登录试试。爆破无果…

项目第一次git commit后如何撤销

问题描述: # 1. 新建gitcode目录,然后在目录下 git init# 2. 用idea打开目录后,新建.gitignore文件后 git add .git commit -m "init project"git log# 3. 就出现如下图情况目的:向撤销该次代码提交 # 仅撤销 git com…

电商API接口|大数据关键技术之数据采集发展趋势

在大数据和人工智能时代,数据之于人工智能的重要性不言而喻。今天,让我们一起聊聊数据采集相关的发展趋势。 本文从电商API接口数据采集场景、数据采集系统、数据采集技术方面阐述数据采集的发展趋势。 01 数据采集场景的发展趋势 作为大数据和人工智…

Eclipse 分栏显示同一文件

Eclipse 分栏显示同一文件 1. Window -> EditorReferences 1. Window -> Editor Toggle Split Editor (Horizontal) :取消或设置水平分栏显示 Toggle Split Editor (Vertical) :取消或设置垂直分栏显示 References [1] Yongqiang Cheng, https:/…

【制作100个unity游戏之25】3D背包、库存、制作、快捷栏、存储系统、砍伐树木获取资源、随机战利品宝箱11(附带项目源码)

效果演示 文章目录 效果演示系列目录前言物品堆叠源码完结 系列目录 前言 欢迎来到【制作100个Unity游戏】系列!本系列将引导您一步步学习如何使用Unity开发各种类型的游戏。在这第25篇中,我们将探索如何用unity制作一个3D背包、库存、制作、快捷栏、存…

JoySSL免费可续签通配符证书:中小企业网站安全的理想选择

在数字时代,网络安全已成为企业和个人用户不可忽视的重要议题。其中,SSL证书作为保障网站数据传输加密和身份验证的关键工具,对于维护网站的安全性和可信度至关重要。然而,对于许多中小企业来说,高昂的SSL证书费用常常…

网络原理(UDP与TCP篇)

网络原理 协议应用层现成的自定义协议格式运输层端口号UDP协议首部格式TCP报文段的首部格式首部格式源端口号 和 目的端口号序号确认号ack 和 ACK数据偏移(**首部长度**)保留窗口校验和SYNFINRSTPSHURG 和 紧急指针扩展首部填充 TCP的可靠传输TCP的超时重…

函数、极限、连续——刷题(7

目录 1.题目:2.解题思路和步骤:3.总结:小结: 1.题目: 2.解题思路和步骤: 记住和差化积、积化和差公式即可: 然后就可以化简: 3.总结: 记住和差化积、积化和差公式即可…

Ps:污点修复画笔工具

污点修复画笔工具 Spot Healing Brush Tool专门用于快速清除图像中的小瑕疵、污点、尘埃或其他不想要的小元素。 它通过分析被修复区域周围的内容,无需手动取样,自动选择最佳的修复区域来覆盖和融合这些不完美之处,从而实现无痕修复的效果。 …

7.1 Qt 中输入行与按钮

目录 前言: 技能: 内容: 参考: 前言: line edit 与pushbotton的一点联动 当输入行有内容时,按钮才能使用,并能读出输入行的内容 技能: pushButton->setEnabled(false) 按钮不…

代码随想录 Leetcode56. 合并区间

题目&#xff1a; 代码(首刷自解 2024年2月18日&#xff09;&#xff1a; 这题与气球扎针&#xff0c;删除重复的大体逻辑相似。需要额外定义些变量来存储头尾 class Solution { private:const static bool cmp(vector<int>& a, vector<int>& b) {return …