chatgpt在复杂问题的回答表现

news2025/1/24 11:29:34

2023年东南大学论文:Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

代码库已经无法访问了:https://github.com/tan92hl/Complex-Question-Answering- Evaluation-of-ChatGPT

1.简介

复杂问题的回答(KB-based CQA)是一种很有挑战性的KBQA任务,希望模型能具备compositional reasoning的学习能力,比如通过多步推理、进行集合操作或者其他复杂推理得到最终的答案。

如何去评判ChatGPT的回答表现呢?一方面,该文章采用的方法是,对测试问题进行打多个标签:答案类型(语法分析获得),推理操作,语种(数据集带了),这些标签每一个都可以助于分析ChatGPT的推理能力,标签间的组合也有助于发现潜在的问答场景和ChatGPT的表现情况。另一方面,沿用了checklist的测试方法对模型推理任务执行情况、推理过程可信服进行了测试。

KBQA数据集有很多,格式也不尽相同,这里选择的是基于SPARQL格式的数据集,并利用关键字来识别可能用于回答的推理操作。

结果简述:

  • 单语问题的回答上,ChatGPT除了数字和时间类的,其他表现都是最好的;如果问题需要多步推理或者基于事实的推理(这里我不知道start-shape是啥意思),ChatGPT表现不如GPT3.5;多语言问答上,在少数据源的语言上表现最好
  • checklist测试上,ChatGPT在复杂问题回答上有几个问题:在单推理类型的任务表现不好(MFT结果);和传统的KBQA相比,ChatGPT在相似问题上表现不稳定(INV结果);ChatGPT并不能按照预期prompt生成相应的结果(DIR结果)

2.相关工作

2.1 LLM和prompt

简单介绍了一下GPT3及3.5、T5、BERT。这里不再赘述。

2.2 LLM的评估

之前最全面的评估要数HELM了(Holistic Evaluation of Language Models,该文为大模型评估方向的综述论文,由Percy Liang团队打造,将2022年四月份前的大模型进行了统一的评估。其中,被评估的模型包括GPT-3,InstructGPT等。在经过大量的实验之后,论文提出了一些可供参考的经验总结。)

和HELM类似,本文提出了自己的评价方法(前面说过了,对测试问题进行打多个标签,然后基于标签进行评估)

2.3 NLP模型的黑盒测试

这里用了CheckList的方案,每一项评估包括三项:最小功能测试(MFT)不变性测试(INV)定向期望测试(DIR)

1. 最小功能测试(MFT, minimum functionality test): 类似软工中的“单元测试”,用大量简单但具有极强针对性的样例进行测试。

2. 不变性测试(INT, invariance test): 对原有数据做一些不影响结果的轻微变化。比如拼写错误或者语法错误。

3. 定向期望测试(DIR, directional expectation test): 也是对原有数据做少许改动。改动后,模型的结果应该朝一个期望的方向变化。比如“明天星期六,我很{开心}”,“周末要加班,我很{难过}”

接下来的问题就是,有那么多测试要进行,如何针对每一项测试大规模生成测试样例呢?根据checklist原文的说法,测试样例可以完全“无中生有”,也可以通过改动已有数据得到。而作者们已经给出了强大的开源工具,帮助你快速生成测试样例。整个工具完全可视化,操作性极强。

本文采用的是利用CoT prompting来生成INV和DIR的测试用例。

3.本文提出的LLM评估框架

之前在简介也提到了,整个评估框架包含两部分,第一部分是通过试用多标签来描述一个测试问题,第二部分是针对每一个标签,测试模型的功能性、鲁棒性和控制性。、

3.1 特征驱动的多标签问题打标

原因:现在数据集使用不同标签来定义回答类型、推理类型等,为了可以进行统一的评估,需要对这些特征类型进行标准化。本文设计了三类标签:回答类型(问题涉及的话题)、推理类型(获得答案的方法)、语言类型(描述问题的语种)。一般一个问题只包含一个回答类型。

  1. 参考NER类型定义、英文问题类型、现有KBQA数据集给出的回答类型,本文最终选定8类作为回答类型。
  2. 基于KBQA数据集提供的推理类型,本文选了8个
  3. 语言标签使用了数据集中的标签

3.2 衡量方法

3.2.1 答案匹配策略

背景:ChatGPT生成的是句子,标答给的是短语

匹配方法:

对于日期、布尔类型、数字的匹配,直接和标答进行匹配。否则,按照如下方式:

基于提取的匹配:

  1. 将ChatGPT生成的句子进行语法解析,提取出名词短语,然后按照[名词,名词短语,短句]升序排列
  2. 对标答进行扩充,包括同义、多语言、别名

基于向量的匹配:

        如果不能基于名词短语匹配,就是用向量相似度算匹配程度

 3.2.2 基于prompt的checklist策略

仿照了checklist的指标:MFT、INV、DIR。

MFT示例如下图(SetOperation和Counting的例子不都一样???)

INV:本文通过随机把句子中的词拼错、同义词改写

DIR:首先,替换了问题中与推理相关的短语,要求模型使用 SPARQL 查询生成答案,以观察 ChatGPT 输出中的逻辑操作是否与给出的修改相对应。其次,将包含答案类型的提示添加到输入中,以检查 ChatGPT 是否可以根据提示控制输出答案类型。第三,从CoT中得到启发,使用通用的多轮提示重写让Chat-GPT通过“逐步”过程获得答案的测试用例,以观察ChatGPT对不同类型问题的CoT提示的敏感性.

 4.结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/572857.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ROS学习——在rviz中调用电脑摄像头

一、安装相关软件包 安装uvc camera sudo apt-get install ros-kinetic-uvc-camera安装image相关功能包 sudo apt-get install ros-kinetic-image-* sudo apt-get install ros-kinetic-rqt-image-view 要记得把kinetic换成 你自己的ros版本。 二、启动ros,调用…

我国中央商务区(CBD)的空间重构及发展模式

中央商务区(Central Business District,简称为CBD),原始意义为“商业会聚之地”是指一个国家或城市商务活动的主要集中的区域,是汇聚商务服务、金融服务、科技服务、咨询服务、会展服务、文化服务等服务业的集聚区域&a…

科海思针对锂盐溶液/锂电废水除钙镁、除硼、除铊的解决方案

碳酸锂是锂电行业阳极生产中的一个重要原材料,主要用于制造钴酸锂、镍酸锂、锰酸锂等电极材料,在充电锂电池中也用作非水溶液电解质等,具有良好的电化学性能,应用领域还在不断扩大。 工业级碳酸锂主含量(Li2CO3&#…

es elasticsearch 八 mapping 映射 、复杂数据类型

目录 Mapping 映射 复杂数据类型 Mapping 映射 精确匹配 必须和对应字段值安全一致才可查出 全文检索 缩写搜索全程、格式转换 大小写 同义词 全文检索核心原理 分词,初步的倒排索引的建立 重建倒排索引 时态转换、重复数的转换、同义词的转换、大小写的转换 …

公文写作素材:工作落实类过渡句50例

1.再美的发展蓝图,如果不能落到实处,都是纸上谈兵;再大的奋进决心,如果没有实际行动,对工作毫无益处。 2.会议提出的任务再明确不落实只是纸上谈兵,会议出台的措施再可行不担当只是空中楼阁。 3.既要有不…

buildroot简介

网址 官网:https://buildroot.org/ 下载地址:https://buildroot.org/download.html 使用 解压后,执行make menuconfig Target options (目标板配置) Target Architecture: 目标架构&#…

SpringCloud微服务踩坑系列-java.lang.IllegalStateException

异常如下: 2023-05-24 08:47:10.764 ERROR 118400 --- [nio-8084-exec-1] o.a.c.c.C.[.[.[/].[dispatcherServlet] : Servlet.service() for servlet [dispatcherServlet] in context with path [] threw exception [Request processing failed; nested exceptio…

1978-2020年337个城市的原材料储备量数据

铜、钢、铝、木材、水泥等原材料是城市建设和经济发展的必备物质!厘清原材料的储备情况对于经济发展、资源可持续利用等都具有重要意义! 我们发现在Springer Nature平台上分享有1978-2020年我国337个城市的原材料储备量数据!该数据包括了337…

《Spring Guides系列学习》guide16 - guide20

要想全面快速学习Spring的内容,最好的方法肯定是先去Spring官网去查阅文档,在Spring官网中找到了适合新手了解的官网Guides,一共68篇,打算全部过一遍,能尽量全面的了解Spring框架的每个特性和功能。 接着上篇看过的gu…

【微博-计算Cell子控件的frame Objective-C语言】

一、计算Cell子控件的frame 1.来,看一下,刚才我们已经做到把这个模型设置给自定义的cell了吧, 那么,在这个自定义Cell里面呢,我们是不是要开始设置数据了, 设置数据,我们,设置数据,其实很简单,就是把我们这里边的每一个控件,对应的值,从模型里面取出来,给了它,…

挂耳式耳机品牌排行榜,看看谁被推荐上榜

下班路上就想放空自己刷会儿视频,但是马路、地铁还有公交上都会有嘈杂的声音影响,如果佩戴入耳式耳机放大声音不仅会过度屏蔽外界,同时还会损伤我们的耳朵,所以新近流行的开放式耳机很好的解决了这些问题,但也有很多小…

智安网络|如何做好网络漏洞管理?这几点一定要了解!

随着网络技术的不断发展和应用,网络安全已经成为了各个企业、机构、甚至个人都需要面对和解决的难题。而在网络安全中,漏洞管理是非常重要的一个方面。本文将阐述网络安全中漏洞管理的相关知识和如何有效地进行漏洞管理。 一、漏洞管理的定义 漏洞是指软…

5.YAML介绍

什么是YAML? YAML是一种存储数据的文件格式。类似json和xml。 Ansible playbooks或者配置文件,以称为YAML的特定格式编写。如果您使用过其他数据结构格式(如XML或JSON),则应该能够轻松地使用它。 上图中就是以3种格式表…

找不到vcruntime140.dll,无法继续执行代码,vcruntime140.dll怎么修复

vcruntime140.dll是一个Microsoft Visual C Redistributable包的一部分,它是用于运行在Windows操作系统上使用Visual C开发的程序和应用程序的必备文件之一。它是Microsoft Visual C Redistributable的动态链接库文件,也就是所谓的DLL文件。如果这个文件…

nova 11系列可打断动画闪亮登场,带你领略极致丝滑体验

华为nova 11系列手机自发布以来就受到广大消费者的好评和青睐,尤其是全网热捧的丝滑流畅动效体验,更是让不少用户直呼——“一旦上手,就回不去了”,让我们先来欣赏一下nova 11系列上的动效吧! 从上面的视频演示&#x…

C++学习day--12 循环的应用,暴力破解密码和输出动图

第 1 节 职场修炼:程序员到底能干多久 现状: 很多程序员,过了 30 岁,纷纷转行。 原因: 1 )薪资过万后,很难进一步提升 2 )可替代性高,在新人面前,没有…

学习ChatGPT,从这几个中文提示词教程开始

ChatGPT已经火爆了一段时间了,很多用户也体验了ChatGPT,他的回答非常的强大。但有些人能够得到很好地回答,有些人得到的答案,并不是非常的完美,其实这个短时间内,和一个叫做提示工程(Prompt Eng…

在城市之间“闪送”,同城即时速递的正确解法

从5月14日母亲节到“520”网络情人节,鲜花店、餐饮店和蛋糕店里,满是闪送骑手师傅进进出出的身影。 在成都,一位闪送师傅通过抖音展示了自己忙碌的一天:“了不起的母亲节,凌晨就开始预约单,(系…

SSM框架学习-REST内容、案例及快速开发

1. REST简介 当访问行为不同时(例如insert、delete等等),REST风格描述形式的路径是相同的,那如何区分? 所以,通过路径请求方式,我们就可以区分对资源进行了何种操作; 而REST风格对资…

[PyTorch][chapter 35][经典卷积神经网络-1 ]

前言: ILSVRC(ImageNet Large Scale Visual Recognition Challenge)是近年来机器视觉领域最受追捧也是最具权威的学术竞赛之一,代表了图像领域的最高水平。 ImageNet数据集是ILSVRC竞赛使用的是数据集,由斯坦福大学李…