Why Does ChatGPT Fall Short in Providing Truthful Answers?

news2024/11/15 21:56:04

文章目录

    • 题目
    • 摘要
    • 简介
    • 相关工作
    • 模型和数据集
    • 结果
    • 事实性背后的能力
    • 提高 QA 的事实性
    • 结论

题目

为什么 ChatGPT 无法提供真实的答案?

在这里插入图片描述

论文地址:https://arxiv.org/abs/2304.10513

摘要

    ChatGPT 等大型语言模型的最新进展已显示出影响人类生活各个方面的巨大潜力。然而,ChatGPT 在为用户问题提供可靠和准确的答案方面仍然面临挑战。为了更好地了解该模型在提供真实答案方面的具体弱点,我们开始深入探索开放域问答。具体来说,我们详细检查了 ChatGPT 的失败之处,将其分为:理解力、事实性、特异性和推理。我们进一步指出事实性是导致失败的主要原因,并确定了与事实性相关的两种关键能力:知识记忆和知识回忆。通过专注于事实性的实验,我们提出了几种潜在的增强策略。我们的研究结果表明,用细粒度的外部知识和知识回忆的线索来增强模型可以增强模型在回答问题时的真实性。

简介

    ChatGPT/GPT-4 因其实际应用而获得了广泛认可,为广泛的查询提供了有用且信息丰富的响应。最近的研究对 ChatGPT 在众多 NLP 任务上进行了全面的技术评估,表明 ChatGPT 在各种任务中的表现优于其他模型。然而,尽管 ChatGPT 展现出了令人印象深刻的能力,但研究人员也强调了 ChatGPT 的一些挑战,例如它无法执行可靠的推理 、有效地翻译低资源语言、解决复杂的数学问题并提供准确的信息。虽然这些缺点都有记录,但现有文献中尚不完全清楚。ChatGPT 导致这些挑战的具体局限性。以问答系统为例:模型失败是因为无法推理还是缺乏回答问题的知识?这个问题是由于知识不足造成的,还是模型难以回忆起问题的内部知识?回忆知识的困难是根本原因,还是模型难以理解问题的上下文或意图?在本研究中,我们深入探讨了 ChatGPT 在复杂开放域问答系统中的弱点,因为这项任务与用户的日常搜索需求密切相关,需要广泛的知识以及强大的理解和推理能力。

    我们的目标是确定 ChatGPT 在提供真实答案方面的常见失败模式,找出导致这些失败的 ChatGPT 缺乏的具体能力,并考虑潜在的改进策略为此,我们首先采用主题分析法来分析 ChatGPT 失败的实例,并将其分为四种主要错误类型:理解错误、事实性错误、特异性错误和推理错误。然后,我们将事实性缺陷确定为主要失败,并将知识记忆和知识回忆确定为回答事实性问题的关键能力。此外,我们提出了几种潜在的策略来帮助缓解这些缺陷。我们的结果表明,通过提供细粒度的外部知识和知识回忆线索,可以增强 ChatGPT 的事实性。我们的研究结果为开发更可靠的问答系统提供了实用的见解。

相关工作

    大量研究已对 ChatGPT 的各个方面进行了检查,包括其总体评价、理解能力、数学能力、错误修复性能、分布外 (OOD) 行为、翻译行为和问答性能。尽管 ChatGPT 表现出色,但研究界已发现一些问题,包括其推理、事实准确性、解决复杂数学问题和伦理影响。然而,这些研究主要集中在常见问题的分类和识别上,对导致失败的潜在缺陷的深入研究有限。在这项工作中,我们识别了问答场景中的常见故障,深入研究了导致这些错误的基本能力缺陷,并根据我们的实验见解提出了缓解这些故障的潜在策略。

模型和数据集

    我们专注于复杂的开放域问答,使用两个广泛使用的基准数据集:HotpotQA和 BoolQ,它们都使用维基百科作为知识来源。 我们从 HotpotQA 中选择了 200 个问题来分析 ChatGPT 所犯的错误。 为了评估事实性,我们从 HotpotQA 中另外抽样了 500 个问题,从 BoolQ 中抽样了 1000 个问题。 我们使用这些数据集评估了 GPT-3.5 和 GPT-4 的性能。 为了从 GPT-3.5 和 GPT-4 生成响应,我们使用了公共 OpenAI API。1 4 ChatGPT 的失败 4.1 主题分析 我们使用主题分析 [Braun and Clarke, 2012] 检查了模型对 200 个 HotpotQA 样本的响应,这是一种识别数据中的模式或“主题”的方法。该过程首先从数据中提取初步的“代码”,然后将其组合成更广泛的主题。

    为了确保主题分析严谨而全面,我们采用了双注释者方法。我们要求两位独立的注释者(两人都精通该主题并有定性分析经验)独立审查数据集。最初,他们分别工作以识别代码、分析和报告数据中的模式(主题)。在完成独立分析后,注释者召开协作会议,比较、讨论和协调他们确定的主题中的任何差异。在注释者之间讨论之后,我们将他们分为几个主题,并用额外的 40 个问题验证了这些主题。我们确认可以通过这些主题实现错误的完整表示。

    为了量化注释者之间的一致性程度,我们使用了 Cohen 的 Kappa κ。此统计指标用于评估两位评分者之间超出偶然预期的一致性的可靠性。Cohen’s Kappa 的公式如下:在这里插入图片描述
    在这个公式中,po 代表观察到的一致比例,pe 代表预期的一致比例。在我们的研究中,计算出的编码员间一致性为 0.8394,这表明注释者之间的一致性程度很高。我们最终确定了四个确定的主题:问题理解和意图、事实正确性、特异性水平和推理,称为理解错误、事实性错误、特异性错误和推理错误。理解错误是指未能理解问题的上下文和意图。在我们的实验中,该模型在理解问题方面表现出色,但在面对包含语法错误或歧义的问题时会表现出不足。例如,表 1 理解行中显示的问题对模型提出了挑战,因为疑问代词“what”不正确,应该是“which”。因此,模型无法认识到问题是在用蓝色标记的两个项目中寻求选择,而是将其误解为在最后三个项目中的选择。

    当模型缺乏产生准确答案所需的支持事实时,就会发生事实性错误。这可能是由于模型缺乏对特定实体、属性或事件的了解。表 1 事实性行中的示例显示了当模型对两个管道的长度有不正确的了解时发生的错误。虽然这种类型的错误很简单,但它占了模型中的大多数错误。当模型无法在适当的特异性水平上回答问题时,就会发生特异性错误。这可能表现为模型提供的答案过于笼统或过于具体。例如,在表 1 的特异性行中,对于第一个问题,正确答案是剧作家,但如果模型回答作者,则不够具体。同样,在第二个问题中,基本事实是摇滚,但模型预测 Superheaven 是另类摇滚,Oceansize 是前卫摇滚,并声称它们不属于同一流派。这也被归类为特异性错误。

    当模型拥有回答问题的必要知识,但未能有效地推理事实以得出正确答案时,就会发生推理错误。例如,对于表 1 推理行中的第一个问题,模型可能知道 Muse 有三名成员,The Raconteurs 有四名成员,但仍然错误地声称 Muse 拥有更多成员。此外,该模型可能无法根据常识做出预测。在第二个问题中,尽管知道 Meadowbank 金矿仍在生产黄金,而 Temagami-Lorrain 矿已经停产多年,但该模型仍然无法推断出前者目前由于持续生产而更有价值。

在这里插入图片描述

结果

    我们统计了四个类别的错误频率。我们使用 GPT-3.5 作为基线模型,向其输入了简单的问题。为了研究提供外部证据的效果并研究 GPT-4 的改进,我们还探索了向 GPT-3.5 模型(GPT3.5+evi)提供具有黄金证据(提供问题明确答案的准确信息)的问题,向 GPT-4 模型提供简单的问题。结果总结在表 2 中。根据我们的实验,我们做出了以下观察:

  1. 近一半的失败是由于事实性错误,其次是推理错误、理解错误和特异性错误。
  2. 提供证据不仅解决了事实性问题,而且还显着减轻了理解和特异性错误。
  3. 与 GPT-3.5 相比,GPT-4 模型有所改进,特别是在解决理解和特异性错误方面。然而,事实性只是略有改善。

我们的发现强调了事实性是开放领域 QA 中主要关注点,因为它在错误中占据主导地位,对其他错误类型有影响,而 GPT-4 在这方面的改进不足。
在这里插入图片描述

事实性背后的能力

    正如我们在第 4.2 节中指出的那样,事实性是开放域问答中最关键的问题,因此我们专注于研究事实性。借鉴认知科学对问答中人类记忆组织的研究,我们将事实性错误视为从 LLM 记忆中检索问题相关知识的认知失败。 我们将问题 q 的基本知识 p 定义为回答问题 q 所必需的知识,并确定知识检索过程的两个关键能力:

  • 定义 1(知识记忆) 存在一个适当的提示 s,当输入模型时,将产生基本知识 p。
  • 定义 2(知识回忆) 给定问题 q 作为提示,模型能够输出记忆的基本知识 p。

    针对这两种能力,我们对模型由于缺乏知识而无法回答的问题进行了实验。为了测试知识记忆,我们将基本知识改写为一个问题。例如,在表 3 中,我们通过询问管道长度来评估模型的记忆能力。为了进一步评估知识回忆,我们在同一次对话中重新询问了原始问题。如果模型在这种情况下回答准确,但只问原始问题时回答不准确,则表明存在回忆问题。在表 3 的回忆行中,该模型在前面的相关问题之后正确回答了关于 Chang 出生事件的查询,但没有这个上下文则失败。
我们发现 46 个错误中有 6 个源于回忆问题,其余来自记忆。我们区分知识记忆和回忆的新见解为解决与知识相关的问题提供了新的视角。

提高 QA 的事实性

    在我们之前的实验中,我们证明了事实性错误可能源于知识记忆或回忆。为了研究如何缓解它,我们使用 HotpotQA 和 BoolQ 数据集进行了实验。我们使用简单问题配置和 GPT-3.5 模型作为基线。由于 GPT-3.5 和 GPT-4 具有相似的底层架构和训练过程,我们仅对前者进行了实验以得出观察结果。我们的实验提示如附录 A 所示。为了进行评估,我们使用了部分匹配,它检查基本事实是否是预测的子串。

    知识记忆模型在记忆事实方面的局限性已将研究引向检索增强语言模型,例如使用外部语料库或搜索引擎增强的语言模型。但是,噪音和非必要信息可能会影响检索,例如,值得注意的方法从 Bing 搜索中检索整个网页作为知识。因此,我们将检索到的知识称为上下文信息,并将粒度定义为上下文信息与基本知识的长度比。我们研究了粒度在四种不同粒度设置中对性能的影响。

  • 句子级别。直接在句子级别提供外部知识。
  • 段落级别。我们提供黄金证据句子以及与实体相关的其他句子。
  • 部分级别。我们提供包含黄金证据句子的维基百科部分。

    知识回忆为了缓解知识回忆问题,我们将知识回忆过程视为使用给定的键(默认情况下为简单问题)检索 LLM 内存中的值(基本知识),并测试提供实体相关键是否有助于知识回忆过程。根据提供的键,我们提出了以下设置:

  • 完整的实体名称。我们为模型提供问题中核心实体的完整维基百科名称,例如,对于电影“Samson and Deliah”,我们提供“Samson and Deliah (1984 film)”。
  • 定义句。除了实体名称外,我们还提供实体的初始维基百科句子作为定义或背景,确保不存在基本知识。
  • 随机相关句子。我们还提供实体维基百科页面中的其他随机句子以及实体名称,再次避免基本知识。

    发现I.外部知识的粒度越细,结果越好。表4(顶部)显示,外部知识的整合可提高性能,并且有效性受知识粒度的影响。将基本知识与其他句子一起包含会影响(尽管影响很小)结果,而使用带有证据的整个维基百科部分会大大降低性能提升。这表明,输入知识粒度越粗,性能越低。

在这里插入图片描述

    发现 II. 提供相关键有助于回忆基本知识。表 4(底部)表明,为模型提供键可以提高准确性。提供完整的实体名称可以提高性能,而提供实体背景或定义句子可以进一步帮助回忆知识,即使没有基本知识也是如此。但是,来自实体维基百科页面的随机句子并不能提高性能,反而会降低性能。

基于这些发现,我们从 LLM 研究的角度探索了提高问答真实性的策略。

  • 提供具有细粒度的外部上下文作为证据,帮助记忆基本知识。虽然 LLM 拥有大量的隐性知识,但显然仍有大量知识在训练期间难以覆盖或在推理期间难以回忆。因此,根据我们的研究结果,构建一个基于问题的 IR 系统以更细粒度地检索知识将很有帮助。在 New Bing2、Bard3 和 ChatGPT 插件4 等系统中,已经观察到一些朝这个方向的尝试。
  • 提供实体描述作为键来帮助回忆基本知识。在我们的分析中,我们观察到有时 ChatGPT 确实记住了解决问题的基本知识,但无法回忆起问题相关的知识。Huang 等人的研究中强调了一个相关发现,他们观察到虽然语言模型可以记住大量的电子邮件地址,但它们很难将特定的电子邮件地址与相应的个人姓名关联起来。提高回忆能力可能是开发更强大的语言模型的一个有趣方向。

结论

    我们的研究探讨了 ChatGPT 在真实开放域问答环境中的常见错误,确定了四种错误类型,并指出事实性错误是最关键的错误。我们进一步定义了基本知识,并研究了与事实性相关的两种关键能力:知识记忆和知识回忆。我们研究了证据粒度对知识记忆的影响,并为知识回忆提供了相关关键点。我们最后提出了一些方法来提高 ChatGPT 在问答中的事实性,有助于理解事实性,并为增强问答系统和语言模型提供见解,促进更可靠的 LLM。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2047895.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

18.token刷新拦截器

问题 上一篇博客中提到使用redis来存用户的登录信息,解决了session不共享问题。 在拦截器中,重新设置了用户信息的有效期,保证只要用户一直请求就永不过期。但是并不是每个请求都会经过拦截器的(因为登录拦截器,不是…

多个文件上传

♥️作者:小宋1021 🤵‍♂️个人主页:小宋1021主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!! 🎈🎈加油! 加油&#xff01…

【书生大模型实战营】LMDeploy 量化部署进阶实践

LMDeploy 量化部署进阶实践 【书生大模型实战营】LMDeploy 量化部署进阶实践任务环境将大模型封装为API接口服务以命令行形式连接API服务器以Gradio网页形式连接API服务器 LMDeploy Lite和InternLMkv cacheW4A16 模型量化和部署W4A16 量化 KV cacheKV cache 量化 LMDeploy与Int…

【JavaEE】MyBatis 实战指南:从 JDBC 到高效数据库操作的进阶教程

目录 MyBatis 操作数据库JDBC 操作⽰例回顾什么是MyBatis?MyBatis⼊⻔1. 准备⼯作2. 配置数据库连接字符串3. 写持久层代码4. 单元测试使用MyBatis可能遇到的问题 MyBatis的基础操作打印⽇志参数传递增(Insert)返回主键 删(Delete)改(Update)查(Select)起别名结果映射开启驼峰…

vue使用高德获取当前地区天气

1、收件箱 | 高德控制台 (amap.com) 首先打开高德开放平台注册一下 2、创建一个应用获取到key后面获取天气的时候 请求接口的时候会用到key 2.1.1 创建应用的时候注意类型选成天气 2.1.2 创建完成之后就点添加key 然后选择web服务就行 3、可以调取天气接口 天气查询-基础 API…

https握手过程详解

https握手过程详解 上一篇《HTTPS通讯全过程》中https握手过程实际上还有更多的细节,为什么会这样设计呢?是因为一开始将握手过程时,吧步骤说的太详细会导致更难理解惹。所以我就先在上一篇把部分细节忽略,把原来几步的过程先简化…

洛杉物理服务器怎么样?

洛杉矶作为美国科技和互联网的重要中心,物理服务器的质量通常非常高,可以提供卓越的性能、强大的安全性、多样的配置选项和专业的服务支持。以下是对洛杉物理服务器的详细介绍。 1. 优质的性能 稳定的网络连接:洛杉矶物理服务器位于先进的数据…

CASS11时空版 全新升级支持多版本CAD软件下载License使用

南方数码地形地籍成图软件CASS,经过二十余年的发展,市场和技术积累丰厚,用户遍及国内外测绘地理信息相关行业。软件销量和市场占有率持续领先,是业内应用广,服务优的软件品牌。 南方数码深刻理解信息化测绘的内…

合宙LuatOS生成毫秒级时间戳

合宙Luatos - os操作 os.time()生成时间戳的精度只能达到秒级,在很多联网应用中需要毫秒级的时间戳。 经查看LuatOS-SOC接口文档,发现了解决办法。 socket - 网络接口文档 通过文档,我们只要获取当前数,然后把毫秒数与os.time(…

【C语言】:字符和字符串中的字符比较

1.入门 当我们想要一个字符和字符串中的某个字符进行比较时,可以直接用“”进行比较。 为什么可以用“”? 因为字符是存放在常量区,字符变量的值是固定的,字符之间的比较,本质上是对字符的ASCII比较。ASCII_百度百科…

FinalData-绿色便携免安装数据恢复软件 下载

下载地址(资源制作整理不易,使用需付费,不能接受请勿浪费时间下载): 链接:https://pan.baidu.com/s/17CH5tkSc2qAj-6FuGvfb9Q?pwdvyze 提取码:vyze

基于Java语言的能源管理系统-水电气热油数据采集系统

基于Java语言的能源管理系统-水电气热油数据采集系统 介绍 适用于高能耗企业、建筑、工厂、园区的水、电、气、热、油、空压机等能源数据采集、分析、报表; 基于SpringCloud的能源管理系统-能源管理平台源码-能源在线监测平台-双碳平台源码-SpringCloud全家桶-能管…

string模拟

本章准备对string模拟进行讲解,以下是string的学习网址: string - C Reference (cplusplus.com) string本质可以理解为储存char类型的顺序表,其中string的迭代器用一个char*就可以解决。所以string类成员变量如下: 这里用了一个命…

PumpkinRaising靶机

端口扫描 目录扫描 访问80端口, 在页面上面发现提到了一个Jack,可能是一个用户名 f12查看源码 找到一个页面 拼接访问 查看源码 发现一个注释 解密 是一个目录 /scripts/spy.pcap 访问,自动下载了一个文件 wireshark打开流量包 找到第一个s…

Element plus部分组件样式覆盖记录

文章目录 一、el-button 样式二、Popconfirm 气泡确认框三、Popover 气泡卡片四、Checkbox 多选框五、Pagination 分页六、Form 表单七、Table 表格 一、el-button 样式 html&#xff1a; <el-button class"com_btn_style">button</el-button>样式覆盖…

端口隔离 Port isolation 华为交换机配置端口隔离

Port isolation 什么是端口隔离 如果用户想进行二层隔离&#xff0c;用户可以将不同的端口加入不同的VLAN&#xff0c;但这样会浪费有限的VLAN资源。采用端口隔离功能&#xff0c;可以实现同一VLAN内端口之间的隔离。用户只需要将端口加入到隔离组中&#xff0c;就可以实现隔离…

hyper-v连接显卡,hyper-v使用显卡能力、Hyper-V显卡虚拟化VMGpu设置

hyper-v连接显卡&#xff0c;hyper-v使用显卡能力、Hyper-V显卡虚拟化VMGpu设置 现在越来越多的软件在使用时&#xff0c;都会调用GPU获得更好的使用效果。如&#xff1a;浏览器的硬件加速模式。由于Nvidia和AMD都屏蔽了家用显卡虚拟化技术&#xff0c;常用的虚拟机也无法对显卡…

交互式散点图,快速提升你的PPT观赏性|每日科研绘图·24-08-17

一、散点图基础概念 散点图是一种非常直观且功能强大的图表&#xff0c;用于探索和展示两个数值变量之间的相关性。这种图表通过在二维平面上绘制数据点&#xff0c;使得观察者能够一眼看出变量间的潜在联系。 1-1&#xff1a;散点图的构成 X轴&#xff08;横轴&#xff09;&…

电话语音机器人优势很多

智能语音机器人近年来备受关注&#xff0c;受到很多个人或是企业的青睐&#xff0c;其广泛受到欢迎归因于智能语音机器人对电话销售提供了极大的帮助&#xff0c;其可以完美替代人工进行电销外呼服务&#xff0c;不间断的工作&#xff0c;不带有任何情绪色彩&#xff0c;且能实…

Hive:大数据时代的SQL魔法师

时间&#xff1a;2024年08月17日 作者&#xff1a;小蒋聊技术 邮箱&#xff1a;wei_wei10163.com 微信&#xff1a;wei_wei10 音频地址&#xff1a;https://xima.tv/1_ZRh54d?_sonic0 希望大家帮个忙&#xff01;如果大家有工作机会&#xff0c;希望帮小蒋内推一下&#x…