自然语言处理:第四十二章 RAG与LLM原先知识冲突时,大模型会如何处理?

news2024/9/24 17:15:16

文章链接:7B?13B?175B?解读大模型的参数 (qq.com)



写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

摘要

《ClashEval》这篇论文由斯坦福大学的研究者Kevin Wu、Eric Wu和James Zou撰写,研究关注的是在使用检索增强生成(RAG)技术的大规模语言模型(LLM)中,如何处理外部检索到的信息。RAG旨在减少幻觉并为模型提供最新知识,但当检索到的内容存在错误或有害信息时,模型如何应对这一问题?

研究者创建了一个包含1200多个问题的数据集,覆盖了六个不同领域,如药物剂量、奥运记录和地理位置,以及与每个问题相关的内容。并针对每个问题的答案进行了不同程度的错误注入。通过对六个顶级LLMs的基准测试,发现这些模型在面对错误检索内容时,有超过60%的概率会忽略自身正确的先验知识,采纳错误的检索召回的信息(这个错误的召回信息语句上不存在语法逻辑)。研究还发现,检索内容与真实情况偏离程度越大,模型采纳错误信息的可能性越小。此外,模型对其初始回答的置信度越低,采纳检索内容的可能性越大。文章还提出了基于令牌概率的简单方法来提高模型在冲突检索内容中的准确性,并将数据集和评估开源。



背景

随着RAG系统的广泛应用,模型在回答问题时不仅依赖于其训练数据,还会参考从网络或其他来源检索到的信息。然而,如果这些信息是错误的,模型应该能够识别并忽略它们,而不是盲目地重复错误。反之,当模型的初始响应不正确时,它应该能够利用正确的外部信息来纠正自己。这篇论文旨在探索这种内部先验知识与外部证据之间的紧张关系。

在这里插入图片描述



核心算法

大型语言模型(LLMs)在提供信息时容易出现幻觉和错误答案,尤其是在处理训练语料库之外的知识时。为了解决这一问题,RAG技术被广泛用于增强LLMs的检索能力,以提供最新和相关的信息。然而,由于检索到的文档可能包含错误或有害内容,这引发了LLMs如何处理检索信息的问题,即模型是否能够区分正确与错误的外部信息。

在这里插入图片描述

研究者提出了ClashEval,一种评估方法,用于量化LLM在面对冲突信息时的行为。通过向模型展示包含正确和错误信息的文档,研究者观察模型是否会优先考虑修改后的信息,还是坚持其原有的知识。上图是ClashEval包括的6个方面的数据集。这个数据集包含了超过1200个问题,这些问题覆盖了六个不同的知识领域,比如药物剂量、奥林匹克纪录和地理定位等。以下是构建该数据集的详细步骤:

  1. 主题选择与问题生成

    • 选择了六个多样化的主题领域,确保数据集覆盖广泛的知识范围。
    • 从网络上抽取了相关的网页内容作为信息源,这些内容涉及事实性的数据和信息。
    • 使用GPT-4o模型基于这些网页内容生成了问题及相应的正确答案。同时,保留了生成问题时所依据的文本段落,以便后续的修改和实验。
  2. 文档修改与扰动

    • 对于每个问题,原始答案在相关文档中被故意修改,引入不同程度的错误,从轻微的偏差到极端的不真实。
    • 这些修改旨在测试模型在面对从轻微到明显错误的外部信息时的反应,以及它们如何在自己的知识和外部提供的信息之间做出选择。
  3. 问题与答案的配对

    • 每个问题都与一个含有修改后答案的相关文档配对,形成了一个问答对。
    • 这样可以评估模型在不同情况下(即,当上下文正确时模型是否能修正自己的错误,或当上下文错误时模型是否能坚持自己的正确知识)的决策过程。
  4. 数据集的平衡设计

    • 数据集设计考虑到了两种情况:一是上下文正确但模型初始回答错误;二是上下文错误但模型的先验知识正确。
    • 这样的设计允许全面评估模型在处理内外部信息冲突时的能力,而不仅仅是检测模型拒绝错误信息的能力。

通过这种方式,ClashEval数据集不仅测试了模型能否识别和拒绝错误的外部信息,还考察了模型在面对正确外部信息时修正自身错误的能力。这种全面的评估有助于更深入地理解LLM在处理先验知识与新信息之间的冲突时的行为模式,以及它们在多大程度上依赖于外部检索到的信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

总结的来说,ClashEval的核心算法可以分为三步:

  • 数据集构建 :创建了一个包含1200个问题的多领域数据集,每个问题都伴随着一个相关文档,文档中的答案被系统地修改以包含不同程度的错误。
  • 错误注入 :对文档中的答案进行从微妙到明显的修改,以此来模拟检索到的错误信息。
  • 模型评估 :使用精确的扰动对六个顶级LLMs进行基准测试,观察它们在面对错误检索内容时的行为。



实验结果与结论

在这里插入图片描述

研究者使用ClashEval对六种顶级LLM进行了基准测试,包括GPT-4o。结果显示,虽然所有模型都表现出在不确定时倾向于参考外部证据的趋势,但它们在如何校准这种倾向上存在差异。研究还提出了一种简单的方法来改进模型在冲突检索内容下的表现。尽管这种方法仅适用于提供概率输出的模型,但它为提升模型准确性提供了基础。结果表明,LLM容易接受错误的检索内容,超过60%的情况下会覆盖其原本正确的知识。然而,当检索内容与事实偏差越大,模型采纳的可能性越低。此外,模型对初始回答的信心程度(通过衡量token概率)也影响着它是否采用检索到的信息。信心较低时,模型更可能采纳新信息。

在这里插入图片描述

作者在他们的研究中使用ClashEval数据集对六种顶级性能的大型语言模型(LLMs),包括GPT-4o,进行了评估。主要的实验结果可以总结如下:

  1. LLMs倾向于采纳错误的检索内容

    • 当给定的内容是错误的,LLMs超过60%的时间会采纳这些错误的内容,从而覆盖了他们自己原本正确的先验知识。
    • 然而,如果检索到的内容越不切实际(即,与真相的偏离越大),模型采纳它的可能性就越小。
  2. 模型的确定性影响信息采纳

    • 模型对其初始响应的信心程度(通过测量令牌概率)会影响它采纳检索内容的可能性。换句话说,模型越不确定,它就越可能采纳检索到的信息。
  3. 概率校正改善整体准确性和上下文偏见

    • 通过校准的令牌概率校正,所有模型的整体准确性提高了14%,上下文偏见降低了20%。
    • 这种方法同时引入了更多的先验偏见,从2%增加到8.5%,但仍然比随机替换最终响应的基准表现更好,后者在相同的偏见率下只有57.5%的准确性,而校正后的准确率为75.4%。
  4. 模型的上下文偏好率差异

    • 每个LLM在不同领域中对真实性有着不同的先验分布,这意味着相同级别的扰动对每个模型的影响是不同的。例如,对于给定的偏差幅度,Claude Opus比GPT-4o少30%的几率遵循不正确的上下文信息。
  5. 模型的规模与上下文偏见

    • 尽管GPT-4o在一般任务上的表现处于最前沿,但它表现出的上下文偏见比像Claude Sonnet这样的较小模型更高。这表明在知识基准测试上的表现不一定意味着模型最适合RAG(检索增强生成)环境。
  6. 模型的校准差异

    • LLMs被校准为在对特定查询不太确定时选择性地遵循外部证据,但每个模型在这方面的能力各不相同。

这些发现突出了LLMs在处理内部知识与外部信息冲突时面临的挑战,以及如何在不牺牲准确性的情况下解决这种冲突。ClashEval数据集和评估的开放源代码提供了一个平台,供未来的研究人员进一步探究和改进LLMs在面对矛盾的检索内容时的准确性和决策能力。




总结

ClashEval揭示了LLM在处理内外部知识时面临的挑战,特别是当外部信息与模型的先验知识相矛盾时。这项工作强调了在开发更安全、更值得信赖的语言模型道路上,解决参数化先验与检索信息之间张力的重要性。未来的研究应致力于提高RAG系统的鲁棒性和校准能力,以确保它们能够正确地评估和使用检索到的信息,避免误导用户。

这篇论文对于AI领域的研究者和从业者来说是一个重要的贡献,因为它不仅展示了当前LLM的局限性,还提供了改善模型性能的方向。随着RAG系统在各种应用中的普及,理解并解决模型在处理外部信息时的潜在问题变得日益紧迫。研究者希望他们的工作能够激发更多关于如何使语言模型更加稳健和准确的研究,最终实现更安全、更可靠的AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1920794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue 使用腾讯地图 标点 自定义瓦片 折线配置

vue 使用腾讯地图 标点 自定义瓦片 折线配置 申请腾讯地图秘钥 key 腾讯地图开发者 https://lbs.qq.com/dev/console/application/mine 腾讯地图开发文档 https://lbs.qq.com/webApi/javascriptGL/glGuide/glOverview 添加 key 代码中引入 // 入口文件 index.html // 填…

Ambari Hive 创建函数无权限

作者:櫰木 1、创建udf函数 参考文档:https://blog.csdn.net/helloxiaozhe/article/details/102498567 如果已经编写好,请使用自己的。如果没有请参考以上链接进行udf函数编写。 2、创建函数遇到的问题 由于集群开启了kerberos&#xff0…

UART编程

Q:为什么使用串口前要先在电脑上安装CH340驱动? 三种编程方式简介 也可以通过DMA方式减小CPU资源的消耗 直接把数据在SRAM内存和UART模块进行传输 ,流程: 把数据在DMA中配置好数据传输产生中断,CPU介入 编程方式改进 1、查询…

求职学习笔记day1

自己一直算是一个内耗拖延的人,内耗着考了研,内耗着拖着不找工作,一直拖到了毕业。研究生没考上,工作没有,也羡慕着别人成功的生活,最后毕业的也不太开心。 一、最近总结 游戏 高考结束以来和大学期间作息…

Proteus + Keil单片机仿真教程(六)多位LED数码管的动态显示

上一节我们通过锁存器和八个八位数码管实现了多个数码管的静态显示,这节主要讲解多位数码管的动态显示,所谓的动态显示就是对两个锁存器的控制。考虑一个问题,现在给WS位锁存器增加一个循环,让它从1111 1110到0111 1111会发生什么事情?话不多说,先上代码: #include<…

护(H)网(W)行动正当时:你对HW知多少,一文带你全面了解护网行动

引言&#xff1a;2016年我国发布了《网络安全法》&#xff08;于2017年6月1日正式生效&#xff09;&#xff0c;明确规定了关键信息基础设施的运营者必须制定网络安全事件应急预案&#xff0c;并定期进行演练&#xff0c;为HW行动的开展提供了法律依据&#xff0c;通过红蓝对抗…

加入鲲鹏原生开发训练营,共驭技术创新巨浪

随着生态的不断成熟&#xff0c;鲲鹏逐渐从迁移为主发展到原生开发阶段&#xff0c;与此同时&#xff0c;鲲鹏也面临着让开发者能够在变道后提档加速的新任务&#xff0c;从应用迁移走向原生开发。 开发者是计算技术创新的关键力量。为了让开发者全面了解鲲鹏原生开发理论知识…

html——常用标签

HTML标签 1. 结构说明 标签由<、>、/、英文单词或字母组成 标签<>中包裹起来的英文单词或字母称为标签名 2. 标签种类 常见标签由两部分组成&#xff0c;称之为双标签&#xff0c;前部分称为开始标签&#xff0c;后部分称为为 结束标签&#xff0c;两部分之间包…

全国排名第一的起名大师颜廷利:唯有量力而行,才能。。。

在探索成功与个人成长的旅程中&#xff0c;中国传统哲学提供了一个独特的视角&#xff1a;量力而行&#xff0c;以展现最靓丽的自我。这一理念不仅深植于中国丰富的文化传统之中&#xff0c;而且与现代社会的实用主义不谋而合。 中国最受欢迎的起名大师颜廷利教授&#xff0c;一…

Java小白入门到实战应用教程-开发环境搭建-JDK安装详细教程

Java小白入门到实战应用教程-JDK安装详细教程 writer:eleven 开发环境搭建 上节内容补充 在带领大家搭建开发环境前&#xff0c;先来了解一些java领域的名词。 Java根据应用领域区别可分为三个版本&#xff1a; JavaSE&#xff1a;是Java的标准版&#xff0c;提供了Java的…

Open3D Ransac算法分割点云平面

目录 一、概述 1.1算法原理 1.2应用场景 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 3.1原始点云 3.2分割后点云 前期试读&#xff0c;后续会将博客加入该专栏&#xff0c;欢迎订阅 Open3D与点云深度学习的应用_白葵新的博客-CSDN博客 一、概述 1.1算法原…

VSCode 远程反复输入密码不能链接问题解决

通过 vscode 远程连接服务器时出现了连接不上&#xff0c;而且一直要循环输入密码的问题&#xff0c;可能是因为上次异常退出导致。 主要解决思路是删除当前 vscode 远端服务后&#xff0c;重新建立连接。 解决方法一 在 vscode 端接口删除 vscode 服务。 View->Commond…

基于Java的校园交友网站系统

你好&#xff0c;我是专注于计算机技术研究的学姐码农小野。如果你对校园交友网站系统的构建或者相关技术感兴趣&#xff0c;欢迎私信交流。 开发语言 Java 数据库 MySQL 技术 Java语言、SpringBoot框架、B/S结构 工具 MyEclipse、Navicat、Maven 系统展示 首页 个人…

如何理解跨界营销?详解跨界营销的主要类型和方法!

跨界营销是一种创新的营销策略&#xff0c;它巧妙地捕捉不同行业、产品和消费者偏好之间的共通点和潜在联系。这种策略将看似不相关的元素相互融合&#xff0c;相互影响&#xff0c;创造出一种全新的生活方式和审美观念&#xff0c;以此吸引目标消费者群体的注意和青睐。 通过…

Efficient Estimation of Word Representations in Vector Space论文笔记解读

基本信息 作者TomasMikolovdoi10.48550发表时间2013期刊ICLR网址http://arxiv.org/abs/1301.3781 研究背景 1. What’s known 既往研究已证实 前馈神经网络语言模型(NNLM) 循环神经网络语言模型(RNNLM) 2. What’s new 创新点 Word2vec有两种模型&#xff1a;CBOW和Skip-gr…

怎么用【指令工程】调优大模型?

如今&#xff0c;大模型有很多&#xff0c;对于大模型的调优方式也有很多&#xff0c;你是否也在纠结&#xff1f;那么该怎么用【指令工程】调优大模型&#xff1f;本文总结了相关内容&#xff0c;一起来看看吧。 你是否曾在大模型的调优选择感到非常纠结&#xff0c;不知如何做…

Python实战Elasticsearch的核心技巧详解

概要 Elasticsearch 是一个分布式的搜索引擎,可以用于全文搜索、结构化搜索、分析等多种场景。它基于Lucene构建,提供了强大的搜索功能和数据分析能力。本文将详细介绍如何使用Python实现与Elasticsearch的交互,包括安装、配置、基本操作和实际应用示例。 安装和配置 安装…

【MybatisPlus】QueryWapper和LambdaQueryWrapper的区别

【MybatisPlus】QueryWapper和LambdaQueryWrapper的区别 &#xff08;一&#xff09;MyBatisPlus的条件查询构造器QueryWrapperLambdaQueryWrapper优缺点使用场景 &#xff08;二&#xff09;Lambda的概念&#xff08;三&#xff09;QueryWrapper如何进化成LambdaQueryWrapper的…

【排序算法】计数排序

目录 一.基本思想 二.缺陷及优化 三.代码实现 四.特性总结 1.可以排序负数 2.适合范围集中的整数 3.时间复杂度&#xff1a;O(Nrange) 4.空间复杂度&#xff1a;O(range) 5.稳定性&#xff1a;稳定 一.基本思想 根据待排序数组a创建一个新的数组count&#xff0c;该数组…

这个软件可无限制免费领取金币,领取后即可自由实现AI文生图,AI Chat及其AI文生PPT等AI功能

目前AI文生图工具浩如烟海&#xff0c;不过基本上都是限制使用&#xff0c;每天只能使用几次到十几次&#xff0c;如果还想继续使用&#xff0c;那么只能花钱购买&#xff0c;这对于绝大多数人来说确实是一个痛点&#xff0c;那么有没有一款软件可以实现使用自由呢&#xff1f;…