复旦大学:一个小技巧探测大模型的知识边界,有效消除幻觉

news2024/7/6 18:54:44

孔子说“知之为知之,不知为不知,是知也”,目前的大模型非常缺乏这个能力。虽然大模型拥有丰富的知识,但它仍然缺乏对自己知识储备的正确判断。近年来LLMs虽然展现了强大的能力,但它们偶尔产生的内容捏造,即所谓的“幻觉”,限制了其在专业领域的应用,人们也对它们的专业建议持怀疑态度,这些幻觉现象的根源正在于LLMs无法准确表达其知识边界

最近,复旦大学提出了COKE方法( Confidence-derived Knowledge boundary Expression),通过利用模型内部的置信信号,教导LLMs识别和表达其知识边界,从而减少幻觉现象。实验结果表明,COKE显著提升了模型在域内和域外的表现,使模型能够在回答已知问题的同时,坦诚面对其未知领域的问题。

简而言之,就是增加大模型“知道自己不知道”的知识,减少大模型“不知道自己不知道”的知识。就比如图中的大模型在面对自己未知的问题“《迷失太空2018》中的机器人是谁”时,它如果不知道,就应该给出“不知道”,而不是编造一个“Max Robinson”的答案。

图片

论文标题:Teaching Large Language Models to Express Knowledge Boundary from Their Own Signals

论文链接https://arxiv.org/abs/2406.10881

图片

COKE方法的核心思想

大语言模型的学习机制让它们能够在自己的参数中找到最接近查询q的知识点k作为答案。虽然训练可以让模型准确地测量这些q和k的距离,但并没有教会它们如何根据距离拒绝回答。因此,我们希望模型能够学会使用内部信号来识别何时较大的距离表示模型缺乏回答问题q的知识。

COKE分为两个阶段:

图片

在第一阶段(图左下,探测阶段),模型对未标记的问题进行预测。基于模型置信度,我们得到了两个部分,Dk和Dunk,分别对应模型知道的问题数据集和模型不知道的问题数据集。这一步可以理解为数据标注,给一些问题,然后用模型计算出对于该问题的答案的置信度。

在第二阶段(图右下,训练阶段),对同一个问题使用不同的提示进行训练,并使用无监督损失和一致性损失来教授模型表达知识边界。这一步可以理解为使用第一步标注的数据集训练模型。

经典的“标注-训练”两阶段方法

探测阶段(标注阶段)

在COKE方法的探测阶段,利用模型内部的信号来探测其知识边界,具体步骤如下:

  1. 信号选择:确定反映模型置信度的关键信号。研究发现,最小标记概率(Min-Prob)是最有效的置信度指标。Min-Prob是指模型生成的答案中,所有标记的最小概率。

  2. 数据集划分:根据置信度信号,将问题划分为两类:

    • Dk:置信度高于某个阈值的答案,表示模型拥有足够的知识来回答这些问题。

    • Dunk:置信度低于某个阈值的答案,表示模型缺乏足够的知识,容易捏造答案。

  3. 置信度计算:对未标注的问题集Q,使用贪婪解码法生成答案,并计算每个答案的最小标记概率。将置信度低于阈值的答案归入Dunk,高于阈值的归入Dk。

训练阶段

在COKE方法的训练阶段,旨在通过提示和正则化训练,教导模型表达其知识边界,具体步骤如下:

  1. 提示设计:为每个问题构建三种提示类型,分别是:

    • 先验提示(Prior awareness):在提供答案之前,评估模型是否有能力回答问题。例如,提示“你知道‘熊猫是哪个国家的国宝’的答案吗?如果知道,请回答‘是’,否则回答‘否’。”

    • 直接提示(Direct awareness):直接询问问题,如果模型知道答案则回答,如果不知道则承认。例如,提示“回答‘熊猫是哪个国家的国宝’。”

    • 后验提示(Posterior awareness):在提供答案后,评估模型对其答案的确定性。例如,提示“你确定‘熊猫是哪个国家的国宝’的答案是‘中国’吗?”

  2. 一致性正则化:为了确保模型在不同提示下对同一问题的回答一致,设计了一种正则化方法,将不同提示下的置信度差异纳入损失函数中。具体来说,损失函数定义为:

    其中,表示置信度在不同提示下的一致性损失,其公式为:

    通过这种一致性训练,使得模型在不同提示下对同一问题的回答置信度一致,提升模型在不同领域的泛化能力。

模型能力显著提升

整体性能

本文在多个数据集上进行了广泛的实验,包括域内数据集TriviaQA和域外数据集Natural Questions (NQ) 以及PopQA。结果如表所示,COKE方法在各个设置中均显著优于其他方法。

图片

  • Llama2-Chat-7B:在TriviaQA数据集上,COKE方法的Saware达到75.0,而基于提示的方法最高为64.2。在PopQA数据集上,COKE方法的Saware为77.0,而基于提示的方法最高为63.8。这表明模型在表达知识边界方面存在显著的改进。

  • Llama2-Chat-13B:随着模型规模的增加,COKE方法在多个数据集上的表现也有所提升。然而,尽管数据集准确性有所提高,但模型的自我认知能力并未显著提升,这可能需要更大的模型来体现。

与利用标记数据确定阈值的基于不确定性的方法相比,COKE方法在大多数设置中表现更佳。这表明COKE方法能够有效地学习并利用模型内部的置信信号,并且在域外数据集上表现出更好的泛化能力。

信号的有效性

为了验证置信度计算方法的有效性,本文对Llama2-Chat-7B模型在TriviaQA训练集上的响应进行了实证研究。如图显示了模型正确和错误预测的置信度分布。结果表明,置信度小于0.4的预测大多是错误的,而正确预测的置信度通常为1.0。这表明模型信号能够反映模型的置信度,从而暗示其是否具备相关知识。

图片

模型是否学会了使用信号

本文进一步分析了模型在不同置信度水平下的响应,如图所示,当置信度较高时,模型很少回应“未知”;而当置信度较低时,模型经常回应“未知”。例如,当置信度低于0.4时,模型几乎总是回应“未知”;而接近1.0时,模型则自信地提供答案。这表明模型有效地使用置信度信号来划定其知识边界,并且在域外数据上表现出良好的泛化能力。

图片

哪种信号更准确

本文比较了不同信号在反映模型知识边界方面的准确性及其对方法的影响。结果如表所示,基于最小标记概率的多标记产品在域内和域外数据集上的表现最佳。这表明最小标记概率信号更易于模型掌握,且能更好地反映模型的置信度。

图片

一致性损失的益处

本文还探讨了一致性损失对模型训练的益处。通过构建不同提示下的同一问题,并应用一致性正则化损失函数,发现这一策略不仅提高了模型的泛化能力,还确保了在不同提示下的一致性表达。如表所示,尽管在域内数据集上Saware有所下降,但在域外数据集上取得了显著的提升,表明一致性训练增强了模型的泛化能力。

图片

结语

罗翔说过,人需要承认自己的有限性,人这一生就是在走出偏见。人类的成长过程就是不断认清自己的边界和消除偏见的过程,大模型的成长亦是如此。

图片

图片

参考资料

[1]https://x.com/markgurman/status/1808240961522159862

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1891174.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

240703_昇思学习打卡-Day15-K近邻算法实现红酒聚类

KNN(K近邻)算法实现红酒聚类 K近邻算法,是有监督学习中的分类算法,可以用于分类和回归,本篇主要讲解其在分类上的用途。 文章目录 KNN(K近邻)算法实现红酒聚类算法原理数据下载数据读取与处理模型构建--计算距离模型预测 算法原理 KNN算法虽…

AIGC到底如何改变创意设计?

在当今数字化时代,AIGC(生成式人工智能)技术的崛起对创意设计领域产生了深远的影响。AIGC不仅为设计师提供了新的工具和方法,还改变了传统的设计流程和思维方式。 传统的设计过程中,设计师需要耗费大量时间在绘图、修…

利用GPT 将 matlab 内置 bwlookup 函数转C

最近业务需要将 matlab中bwlookup 的转C 这个函数没有现成的m文件参考,内置已经打成库了,所以没有参考源代码 但是它的解释还是很清楚的,可以根据这个来写 Nonlinear filtering using lookup tables - MATLAB bwlookup - MathWorks 中国 A…

甘肃黄米粽子:香甜软糯的塞上美食

甘肃黄米粽子是甘肃地区具有特色的传统美食。黄米粽子选用优质的黄米作为主要原料,黄米相较于糯米,有着独特的谷物香气和口感。在制作过程中,将黄米浸泡一段时间,使其充分吸收水分,变得饱满。馅料方面,通常…

Vue 爬坑

都是基于最新的Vue3版本 "vue": "^3.4.29" 1 vue组建样式设置 <script setup lang"ts"> import HelloWorld from ./components/HelloWorld.vue </script><template><div><a href"https://vitejs.dev" tar…

鸿翼打造企业级AI Agent智能体平台,构建AI +ECM全业务场景

在数字化时代的浪潮中&#xff0c;人工智能技术正以前所未有的速度改变着世界。正如比尔盖茨预言&#xff0c;AI Agent将是人工智能的未来。在这个预言逐渐成为现实的当下&#xff0c;大模型驱动的智能体正在成为推动企业革新的核心动力。 在企业环境中&#xff0c;大语言模型的…

DEX: Scalable Range Indexing on Disaggregated Memory——论文泛读

arXiv Paper 论文阅读笔记整理 问题 内存优化索引[2&#xff0c;3&#xff0c;18&#xff0c;27&#xff0c;42]对于加速OLTP至关重要&#xff0c;但随着数据大小&#xff08;以及索引大小&#xff09;的增长&#xff0c;对内存容量的需求可能会超过单个服务器所能提供的容量…

华为手机改变休眠时间 不让手机动不动黑屏

在手机中找到设置 并打开 在里面找到显示与亮度 并点开 找到并点击休眠操作项 然后就会弹出 多久进入休眠 可以调久一点

机器学习基础概念

1.机器学习定义 2.机器学习工作流程 &#xff08;1&#xff09;数据集 ①一行数据&#xff1a;一个样本 ②一列数据&#xff1a;一个特征 ③目标值&#xff08;标签值&#xff09;&#xff1a;有些数据集有目标值&#xff0c;有些数据集没有。因此数据类型由特征值目标值构成或…

vmware虚拟机增加磁盘容量

概述 当初始分配给虚拟机的磁盘空间不够时&#xff0c;需要从外部的主系统增加配给。 具体操作分为两步&#xff1a;一&#xff1a;通过虚拟机界面添加分配的磁盘配给&#xff1b;二&#xff1a;将新分配的配给给使用起来。 操作 添加磁盘配给 在虚拟机内部添加新分配的配给…

Linux下QT程序启动失败问题排查方法

文章目录 0.问题背景1.程序启动失败常见原因2.排查依赖库问题2.1 依赖库缺失2.2 依赖库加载路径错误2.3 依赖库版本不匹配2.4 QT插件库缺失2.4.1 QT插件库缺失2.4.2 插件库自身的依赖库缺失 2.5 系统基础C库不匹配 3.资源问题3.1 缺少翻译文件3.2 缺少依赖的资源文件3.3 缺少依…

数据库安装

1.选择最下面自定义安装 2.选择x64 3.next 4.完成后next 5.next 6.选择如图&#xff0c;next 7.如图 8.输入密码 9.如图 10.如图 11.安装 12.完成 13.控制面板选择系统和安全 14.选择系统 15.高级系统设置 16.环境变量 17.双击打开path 18.新建 19.输入MySQLbin文件夹路径 20.管…

年互动量破亿,小红书流量新风口趋势研究

当今时代&#xff0c;一个人生活已经成为越来越常见的状态。千瓜数据显示&#xff0c;近一年小红书有关“一人生活”的种草笔记数超百万&#xff0c;预估互动量达亿级&#xff0c;“一人”市场大有可为。 本期&#xff0c;千瓜将探索“一人生活”的新变化&#xff0c;深入分析人…

Modbus RTU协议简介即CRC算法实现

目录 1 Modbus 介绍2 Modbus RTU协议传输方式2.1 地址码2.2 功能码2.3 数据码2.4 校验码 3 CRC算法实现2.1 代码3.2 运行结果 1 Modbus 介绍 Modbus是一种串行通信协议&#xff0c;是Modicon公司&#xff08;现在的施耐德电气 Schneider Electric&#xff09;于1979年为使用可编…

谷粒商城-个人笔记(集群部署篇一)

前言 ​学习视频&#xff1a;​Java项目《谷粒商城》架构师级Java项目实战&#xff0c;对标阿里P6-P7&#xff0c;全网最强​学习文档&#xff1a; 谷粒商城-个人笔记(基础篇一)谷粒商城-个人笔记(基础篇二)谷粒商城-个人笔记(基础篇三)谷粒商城-个人笔记(高级篇一)谷粒商城-个…

每日一题——力扣144. 二叉树的前序遍历(举一反三+思想解读+逐步优化)五千字好文

一个认为一切根源都是“自己不够强”的INTJ 个人主页&#xff1a;用哲学编程-CSDN博客专栏&#xff1a;每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 我的写法&#xff1a; 代码结构 时间复杂度 空间复杂度 总结 我要更强 代码说明 …

mysql 忘记 root 密码的解决办法(针对不同 mysql 版本)

文章目录 1.前提说明1.1 cmd 窗口打开方式1.2 mysql 服务相关命令知识补充1.3 三个 mysql 版本说明1.4 运行时可能发生的报错问题&#x1f340; 跳过密码授权命令报错&#x1f340; 修改密码时报错&#x1f340; ERROR 2003 (HY000): Cant connect to MySQL server on localhos…

安卓稳定性之crash详解

目录 前言一、Crash 的基本原理二、Crash 分析思路三、实例分析四、预防措施五、参考链接 前言 在开发和测试 Android 应用程序时&#xff0c;遇到应用程序崩溃是很常见的情况。 Android 崩溃指的是应用程序因为异常或错误而无法正常执行&#xff0c;并且导致应用强制关闭。 一…

RabbitMQ 进程内流控(Flow Control) 源码解析

1. 概述 1.1 为什么要流控&#xff1f; 流控主要是为了防止生产者生产消息速度过快&#xff0c;超过 Broker 可以处理的速度。这时需要暂时限制生产者的生产速度&#xff0c;让 Broker 的处理能够跟上生产速度。 Erlang进程之间不共享内存&#xff0c;每个进程都有自己的进程邮…

什么是眼球凹渲染?如何在Varjo Base中设置眼球追踪与凹渲染功能

当谈到Varjo耳机时&#xff0c;它们总是与超高分辨率显示器和有凹渲染联系在一起&#xff0c;从而能够高效地渲染到高像素的显示器上。 本篇博文的主题是分享一些可用于OpenXR应用程序的新设置&#xff0c;但在此之前&#xff0c;让我们先了解关于有凹渲染的一些背景。有凹渲染…