论文笔记——chatgpt评估+

news2024/11/24 0:17:11

文章目录

  • 1. chatgpt 效果评估:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness
    • 文章简介
    • 文章结论
  • 2. 事件抽取: OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction
    • 论文核心
    • 论文方法

1. chatgpt 效果评估:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness

文章简介

论文是从开放域和限定域两个角度对chatGPT的**performance、可解释性、校准性(calibration)和可信性(faithfulness)**进行了评估(assessment)。(performance、explainability、calibration、faithfulness四个维度进行测评的)
以上评估是杂7个细粒度知识抽取任务中进行的。

四个维度:

  1. performance(表现):chatgpt在不同任务下的性能表现。
  2. explainability(可解释性):chatgpt在self-check和human-check下的可解释性。

ChatGPT和领域专家高度认可ChatGPT给出的理由,大多数数据集在Standard-IE和OpenIE设置中获得了超过90%的合理分数
与人的评价相比,ChatGPT在为其预测提供的理由方面显示出很高的信心。ChatGPT displays a high level of confidence in the reasons provided for its predictions when compared with human evaluation
当ChatGPT为一个预测提供了合理的解释时,ChatGPT和人类的评价之间有很高的一致性。

  1. calibration(校准性):校准性是用来判断chatgpt性能的不确定性的评价手段。一个好的calibratedclassifier是应该能够预测模型给出的判断的准确性(A properly calibrated classifier should have predictive scores that accurately reflect the probability of correctness)

虽然ChatGPT在标准-IE设置中的表现比基于BERT的同类产品差,但它在正确和错误的预测中都表现出过度自信。
ChatGPT倾向于产生不容易代表真实概率的置信度。ChatGPT tends to produce confidences that do not represent true probabilities easily.

  1. faithfulness(可信性):ChatGPT的解释的忠实性对于确保其可信度非常重要 (The faithfulness of ChatGPT’s explanation is important to ensure its trustworthine)。

ChatGPT’s decision-making process primarily relies on the input of the original text. ChatGPT的决策过程主要依赖于原文的输入.

7个知识抽取任务

实体类型判断 命名实体识别 关系分类 关系抽取 事件检测 事件论元抽取 事件抽取

文章结论

  1. 在standard IE情况下,ChatGPT的性能在大多数情况下无法与基线模型和SOTA方法相比。
  2. ChatGPT在相对简单的IE任务中(实体类型判断)表现良好,但在更复杂和具有挑战性的任务中(关系抽取、事件抽取)却很吃力。
  3. chatgpt在standard IE知识抽取任务中,表现略差于在openIE任务中的表现。
  4. chatgpt可以用来辅助标注工作。(我们的研究结果表明,ChatGPT是一个合格的答案候选生成器,适用于标准-IE设置下的特定任务。Our findings suggest that ChatGPT is a competent answer candidate generator for a given task under the Standard-IE setting.)

2. 事件抽取: OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction

论文核心

论文将event extraction转化为了word-word relation recognition任务。(参考了relation extraction任务的方法)

论文面向任务是EE: EE任务的核心是需要抽取出trigger和event的arguments。
在解决EE任务时,将可能的关系定义为了以下几类:
S-T 表示head和tail boundary words of a trigger.
S-A 表示head和tail boundary words of a argument
R-S, R-O, R-T, and R-P 表示 trigger Word和argument Word之间的关系。(S表示subject、O表示object、T表示target、P表示proportion)——也就是事件论元和事件trigger之间的关系。

论文方法

方法上还是以tagging scheme 为主,是以table filling方式实现的event extraction。
在这里插入图片描述
注意公式中的字的写法

第一步是使用bert 得到sentence 的embedding

在这里插入图片描述

第二步使用attention module和 gate module 得到每种event type的contextual representation. (一个由注意模块和两个门融合模块组成的自适应事件融合层被用来为每个事件类型获得偶发的环境表征。)

  1. 先使用attention mechanism 得到了每个Word的 event type下的embedding。E表示event type的embedding。在这里插入图片描述
  2. 融合target event type的embedding和last gate module的output。
    在这里插入图片描述
    在这里插入图片描述

第三步,使用table filling实现relation的classification。是将argument和trigger作为的span,然后做了一次span 分类。然后,对argument做了span的分类,判断argument的role。 在计算Word-Word pair之间的关系得分时,使用的是** dot product**.
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/489574.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DolphinScheduler海豚调度教程

DolphinScheduler 教程 (一)入门指南 简介 关于Dolphin Apache DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。解决数据研发ETL 错综复杂的依赖关系,不能直观监控任务健康状态等问题。DolphinScheduler以DAG流式…

MySQL知识学习06(SQL语句在MySQL中的执行过程)

1、MySQL 基本架构概览 下图是 MySQL 的一个简要架构图,从下图可以很清晰的看到用户的 SQL 语句在 MySQL 内部是如何执行的。 先简单介绍一下下图涉及的一些组件的基本作用帮助大家理解这幅图 连接器: 身份认证和权限相关(登录 MySQL 的时候)。查询缓…

mysql数据之表管理-mysql高级管理

1. #创建表tt01 #对id字段设置零填充约束、主键约束、自增长约束 #对name字段设置非空约束、默认值约束 #对cardid字段设置非空约束、唯一键约束 插入数据记录: 1)因为id字段设置了自增长,如果不指定id字段值,则默认从1开始递…

electron+vue3全家桶+vite项目搭建【17】pinia状态持久化

文章目录 引入问题演示实现效果展示、实现步骤1.封装状态初始化函数2.封装状态更新同步函数3.完整代码 引入 上一篇文章我们已经实现了electron多窗口中,pinia的状态同步,但你会发现,如果我们在一个窗口里面修改了状态,然后再打开…

第十四届蓝桥杯Python B组省赛复盘

第十四届蓝桥杯Python B组省赛复盘 文章目录 第十四届蓝桥杯Python B组省赛复盘试题 A: 2023【问题描述】(5 分)【思路】 试题 B: 硬币兑换【问题描述】【思路】 试题 C: 松散子序列【问题描述】【输入格式】【输出格式】【样例输入】【样例输出】【评测…

Python | 人脸识别系统 — 活体检测

本博客为人脸识别系统的活体检测代码解释 人脸识别系统博客汇总:人脸识别系统-博客索引 项目GitHub地址: 注意:阅读本博客前请先参考以下博客 工具安装、环境配置:人脸识别系统-简介 UI界面设计:人脸识别系统-UI界面设…

6---N字形变化

将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。 比如输入字符串为 "PAYPALISHIRING" 行数为 3 时,排列如下: P A H N A P L S I I G Y I R 之后,你的输出需要从左往右逐…

JavaScrpit—数据类型转换

目录 1、起 源 理 念 2、特 点 框 架 AngularJS框架 WebSocket协议 3、书 写 位 置 注 释 浏览器调试js代码 4、变量作用 全局变量 局部变量 常量 5、数据类型 数 组 严格检查数据类型 字符串 6、类型转换 字符串转数字 转bool值 能力判断 7、编码方式 …

Spring IOC相关注解运用——上篇

目录 前言 一、Component 二、Repository、Service、Controller 三、Scope 四、Autowired 五、Qualifier 六、Value 1. 直接设置固定的属性值 2. 获取配置文件中的属性值 3. 测试结果 往期专栏&文章相关导读 1. Maven系列专栏文章 2. Mybatis系列专栏文章 3.…

记录一次Linux下ChatGLM部署过程

前言 本地化的GPT就是香,就是有点费钱。 项目地址:https://github.com/THUDM/ChatGLM-6B 前期准备 服务器(本机的跳过) 由于本地电脑显卡都不行,所以我租了AutoDL的一台算力服务器。Tesla T4 16G显存,…

自供电-测力刀柄资料整理

自供电-测力刀柄资料整理 2. 相关专利2.1 实时测量铣削过程中床主轴温度装置【1】2.2 一种基于应变片的测力系统【2】 3. 相关商业化产品3.1 spike 测力刀柄【3】3.2 瑞士奇石乐(Kistler)旋转切削测力仪【4】3.3 kistler的通用型压电式切削力测量系统3.4…

SPSS如何进行聚类分析之案例实训?

文章目录 0.引言1.快速聚类分析2.分层聚类分析3.两阶段聚类分析 0.引言 因科研等多场景需要进行绘图处理,笔者对SPSS进行了学习,本文通过《SPSS统计分析从入门到精通》及其配套素材结合网上相关资料进行学习笔记总结,本文对聚类分析进行阐述。…

【软考高项笔记】第1章 信息化发展1.5 数字化转型与元宇宙

1.5 数字化转型与元宇宙 元宇宙本质上是对现实世界的虚拟化、数字化过程,需要对内容生产、经济系统、用户体验以及实体世界内容等进行大量改造1.5.1 数字化转型 新建一个富有活力的数字化商业模式 组织对业务进行彻底重新定义(大洗牌)之后才…

浅谈明日方舟游戏系统

主要玩法:敌方阵营从敌方初始点进入战斗并且沿着怪物前进路线行驶到己方保护目标。玩家可以通过部署干员守护己方保护目标,防止敌方阵营进入;当保护目标的生命值为0时,则战斗失败,任务结束。 1 干员系统 1.1 职业分支…

linux(stat-readdir-dup2)04-虚拟地址空间,stat函数,文件,目录,errno说明,dup2和dup

01 学习目标 1.掌握stat/lstat函数的使用 2.了解文件属性相关的函数使用 3.了解目录操作相关的函数的使用 4.掌握目录遍历相关函数的使用 5.掌握dup,dup2函数的使用 6.掌握fcntl函数的使用 02 虚拟地址空间 03 打开最大文件数量 openmax.c #include<stdio.h> #include&…

Redo log详解

WAL&#xff08;Write-Ahead Logging&#xff09;机制 WAL 的全称是 Write-Ahead Logging&#xff0c;中文称预写式日志(日志先行)&#xff0c;是一种数据安全写入机制。就是先写日志&#xff0c;然后再写入磁盘&#xff0c;这样既能提高性能又可以保证数据的安全性。Mysql中的…

华为MPLS跨域C2方式RR场景(数据不经过RR)实验配置

目录 配置BGP邻居的建立 配置MPLS LDP 配置RR之间的MP-BGP邻居 配置通过ASBR学习PE路由并为PE分配标签&#xff08;实现Vpnv4路由传递和数据传输&#xff09; 根据图配置接口的IP地址和IGP协议 配置BGP邻居的建立 PE1和RR1建立MP-IBGP邻居&#xff08;RR1传给PE1的Vpnv4路…

进程/线程 状态模型详解

前言&#xff1a;最近操作系统复习到线程的状态模型&#xff08;也可以说进程的状态模型&#xff0c;本文直接用线程来说&#xff09;时候&#xff0c;网上查阅资料&#xff0c;发现很多文章都说的很不一样&#xff0c;有五状态模型、六状态模型、七状态模型.......虽然都是对的…

【1024杯】web

文章目录 1024_fastapi信息收集SSTI 1024_柏拉图信息收集phar反序列化 1024_WEB签到1024_图片代理信息收集gopherus|fastcgi 1024_hello_world信息收集ssti盲注 1024_fastapi 信息收集 FastAPI 是一个高性能 Web 框架&#xff0c;用于构建 API。 主要特性&#xff1a; 快速&am…

【头歌】完整汇编语言程序设计

摘自头歌实训​​​​​​ 目录 相关知识 1.1 RISC-V 汇编语言程序基本结构 1.2 RISC-V 汇编语言程序主要元素 1.2.1 汇编指令 1.2.2 标签 1.2.3 汇编指示语句 1.3 RISC-V 汇编语言程序示例 相关知识 RISC-V 操作数类型、基本调用约定等已在前序关卡中介绍&#xff0c;…