人工智能幻觉:记忆能找到答案吗?

news2024/9/21 14:25:38

          欢迎来到雲闪世界。探索记忆机制如何减轻大型语言模型中的幻觉。

如何解决 LLM 幻觉

幻觉是事实,不是错误;错误的是基于幻觉的判断。——伯特兰·罗素

        大型语言模型 (LLM)表现出色,但仍受到幻觉的困扰。特别是对于敏感应用来说,这不是一个小问题,因此已经研究了几种解决方案。尽管一些缓解策略有助于减少幻觉,但问题仍然存在。幻觉

幻觉产生的原因仍是一个悬而未决的问题,尽管有一些理论解释了幻觉产生的原因(在情境幻觉的情况下忽略情境等等)。最近的一篇文章提出了一个有趣的观点,即人类和模型对幻觉的定义是不同的。在人类中,它被定义为幻觉:

“当你听到、看到、闻到、尝到或感觉到看似真实但只存在于你脑海中的事物时” —  来源

因此,作者试图将法学硕士中出现的幻觉与心理学概念 [2] 联系起来。其想法是使用更合适的词汇来描述这些现象:

我们摆脱了对“幻觉”一词的传统使用,这不仅仅是一种语义练习;相反,这是一种刻意的手段,旨在增强我们对高级语言模型所面临的局限性和挑战的理解。 — — 来源

这些从心理学角度的定义显示出与记忆概念的联系,因此一些作者决定为 LLM 提供记忆。

最流行的方法之一是提供外部存储器的概念。检索增强生成(RAG) 是最流行的范例,其中在外部存储器中寻找适合查询的信息。然后使用检索到的上下文进行生成。

但是,存在具有读/写访问权限的内存的替代方案。事实上,LLM 继承了与转换器相同的局限性,包括无法更新 LLM 的知识。为了保持相关性,我们需要一个系统,允许我们在添加新信息的同时删除不需要的、不正确的或过时的事实。微调是一种昂贵的解决方案,但如果我们想经常更新模型的“内存”,它是不切实际的。

另一种方法是在保留原始冻结模型的同时进行编辑。最有趣的方法之一是用于持续编辑的通用检索适配器 (GRACE) [4]。您无需编辑模型的权重,而是编辑适配器的权重。这些适配器与模型的各层互连,并修改所选输入的层间转换。

相比之下,对于人类来说,既可以更新自己的知识,也可以用它来概括未知的数据。通常,这种能力是由海马体提供的,它对情景记忆很重要(海马体用于快速学习,大脑皮层用于慢速学习)。

受此想法的启发,他们在这篇论文中提出了 Larimar [3],这是一类由情景记忆控制的模型。换句话说,控制器学习情景记忆,而LLM(慢速记忆)学习输入分布的汇总统计数据。控制器充当事实更新和一代 LLM 条件的全局存储器。然后可以读取和重写此全局内存。该系统是一个编码器-解码器转换器,其中的输出用于写入内存或搜索内存中的信息以发送给解码器。

图片来源:

持续学习机制和模型重新校准可以让 LLM 根据不断变化的信息进行调整和自我纠正。

我们现在有了可以编辑自己记忆的模型,我们可以测试这是否会改善幻觉问题。在这项工作 [1] 中,他们使用幻觉基准数据集测试了这一假设。WikiBio 是使用GPT-3为 238 名受试者生成类似维基百科的传记而获得的。

这里作者测试了两个模型:

  • Larimar,由BERT大型编码器、记忆矩阵(已使用来自 wiki 文本的 7.6 M 条目进行训练)和GPT2-large解码器构建。
  • GRACE模型,GPT2-XL已经微调。

在任务中,作者使用幻觉条目,然后使用从维基百科获得的更正条目。通过这种方式,他们通知模型(在 Larimar 中更新矩阵或在 GRACE 中进行适配器编辑)。然后他们要求模型生成提示的输出,从而生成新的 WikiBio 条目。

从图片中可以看出,在 Larimar 中,模型可以重写内存、从内存中读取或直接生成。作者指出,你可以强制模型在管道的各个阶段对齐潜在表示。简而言之,就是将内存中的写入表示与读取表示对齐。这种对齐可以减少幻觉。

更好的幻觉分类法使我们能够更好地解释幻觉是如何产生的。例如,在最近发表在《自然》杂志上的一项研究中[5],他们重点研究了虚构症(幻觉的一种亚型,之前被定义为一种可信但具有误导性的输出)。

我们展示了如何通过开发一种定量测量方法来检测虚构,该测量方法可以衡量输入何时可能导致 LLM 生成任意且没有根据的答案。通过检测虚构,基于 LLM 构建的系统可以避免回答可能导致虚构的问题,让用户意识到问题答案的不可靠性,或者通过更有根据的搜索或检索来补充 LLM。 —  来源

这表明幻觉是一个异质性家族,很难找到一种针对所有类型的单一解决方案。

同时,从记忆的角度进行讨论可以开发出减少幻觉的方法。添加外部记忆不仅会影响持续学习,还可以减少幻觉。这些方法很有趣,并且表明人们对解决变压器限制的替代解决方案很感兴趣。

幻觉的困扰。特别是对于敏感应用来说,这不是一个小问题,因此已经研究了几种解决方案。尽管一些缓解策略有助于减少幻觉,但问题仍然存在。

感谢关注雲闪世界。(亚马逊aws和谷歌GCP服务协助解决云计算及产业相关解决方案)

 订阅频道(https://t.me/awsgoogvps_Host)
 TG交流群(t.me/awsgoogvpsHost)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974346.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文献阅读:细胞分辨率全脑图谱的交互式框架

文献介绍 文献题目: An interactive framework for whole-brain maps at cellular resolution 研究团队: Daniel Frth(瑞典卡罗林斯卡学院)、Konstantinos Meletis(瑞典卡罗林斯卡学院) 发表时间&#xff…

最准的期货指标源码 九稳量化系统 趋势指标公式源码 文华财经指标公式源码 标趋势跟踪 全网最火指标公式

8. “世界上没有任何系统或技术交易方法能永保胜利,将来也不会有。”——这句话提醒投资者不要迷信任何交易系统或方法,要保持灵活和适应市场变化的能力。 9. “巨额利润来源于长期的积少成多或者稳坐不动。”——这句话强调了长期稳健交易的重要性&…

最佳HR软件指南:11款高效管理工具

文章介绍了11款人力资源管理工具:Moka、友人才、北森HRSaaS、同鑫eHR、i人事、红海eHR、BambooHR、Skuad、Hibob、OrangeHRM、Verint。 在选择人力资源管理软件时,选错不仅浪费时间和金钱,还会影响团队的工作效率和员工满意度。本文总结了11款…

24年军队文职选岗报名保姆级流程!

24年技能岗已经开始陆陆续续报名了,不知道具体流程的宝子别着急,给大家总结了详细的报名步骤,直接照着选就行! ✅详细步骤: 1、在军 队人才网找到工作动态,把岗位表用Excel表格方式下载出来。 2、列出自身条…

不用再重装系统_手把手教你将系统迁移到新硬盘

最近有网友问我怎么将系统迁移到新加的硬盘上面,我们可以使用DiskGenius软件,可以方便地将系统从一个硬盘迁移到另外一个硬盘上,或者更常见的是将系统从硬盘迁移到SSD固态硬盘、U盘等。下面小编就教大家详细的步骤。 系统怎么迁移到新硬盘准备…

python学习之旅(基础篇看这篇足够了!!!)

目录 前言 1.输入输出 1.1 输入 1.2 输出 2. 变量与常量 2.1 变量 2.2 常量 2.3 赋值 2.4格式化输出 3. 数据类型 4. 四则运算 5.“真与假” 5.1 布尔数 5.2 比较运算和逻辑运算 5.3 布尔表达式 6.判断语句 6.1 基本的if语句 6.2 if-else语句 6.3 if-elif-el…

程序员保持健康的 10 个技巧

长时间坐在电脑前,整天甚至通宵编程、处理 bug 和面对 dealine 的压力。作为一名软件工程师绝对不是一个非常健康的职业。 我经常去欧洲和美国会见许多开发人员。我经常注意到的是:许多开发人员把自己当成机器。他们已经完全放弃了感受身体的感觉&#…

重生奇迹MU职业成长三步走

在重生奇迹MU游戏中,转职是最重要的玩法之一。每个职业在转职后都会发生巨大的变化,经过三次转职后,你才有资格成为该游戏中最强大的冒险者。 一转,一切才刚刚开始 玩家完成第一次转职任务后,标志着我们成功度过了游…

使用Spring Initializr创建Spring Boot项目没有JDK1.8的解决办法

很久没单独创建springboot项目,今天使用idea的Spring Initializr 创建 Spring Boot项目时,发现java版本里,无法选择jdk1.8,只有17、21、22,所以本文介绍了使用Spring Initializr创建Spring Boot项目没有JDK1.8的解决办法,需要的朋友可以参考下,本人自己做个笔记 解…

【源码分析】之 线程池工具类 Executors详解

​ 快捷导航 一、提供了什么功能?源码中的定义:此类支持以下几种方法: 二、源码中是怎么实现的?1、创建并返回一个配置了常用设置的ExecutorServicenewFixedThreadPool()newSingleThreadExecutor()newCachedThreadPool()newWorkS…

JAVA项目基于SSM的教师管理系统

目录 一、前言 二、技术介绍 三、项目实现流程 四、论文流程参考 五、核心代码截图 专注于大学生实战开发、讲解和毕业答疑等辅导,获取源码后台 一、前言 随着教育事业的蓬勃发展,教师作为教育工作的核心力量,其管理的高效性、科学性日…

十大人力资源SAAS软件:企业管理的革新者

本文将介绍以下10款工具:Moka、北森云计算、智能人事、蓝凌OA、人瑞人才、Rippling、Sage HR、Deel、Gusto、TriNet。 在管理人力资源时,选择正确的工具至关重要。市场上的众多SAAS软件选项可能会让你感到不知所措,特别是在试图找到能够提升团…

RMAN-06618不同版本之间RMAN无法连接

RMAN Active Duplicate Between Two Oracle Versions (Doc ID 2346507.1)​编辑To Bottom In this Document Goal Solution References APPLIES TO: Oracle Database Cloud Schema Service - Version N/A and later Oracle Database Exadata Cloud Machine - Version N/A and…

接口测试知识点1

接口测试 软件接口,是指软件不同模块之间交互的接口,我们通常所说的API(Application Programming Interface 应用程序接口),即是软件系统不同模块之间衔接的约定。 接口测试即是对软件各个模块的接口进行的测试。 接…

深入理解 HTTP 状态码

HTTP 状态码是服务器在收到客户端请求后返回的响应代码,用来表示请求的处理结果。这些状态码帮助用户理解请求是否成功以及服务器的响应状态。HTTP 状态码分为五大类,每一类都有特定的含义。下面,我们来详细解读这些状态码,帮助你…

前端的学习-CSS(弹性布局-flex)

一:什么是弹性布局-Flex flex 是 Flexible Box 的缩写,意为"弹性布局",用来为盒状模型提供最大的灵活性。 语法: .box{display: flex; } .box{display: inline-flex; } 注意,设为 Flex 布局以后&#xff0…

MySQL之delete 、truncate与drop区别

快速使用 drop:‌删除表及其所有数据【drop 表名】 truncate:‌仅删除表中的所有数据【truncate 表名】 delete:‌删除表中的特定行数据,‌可以指定条件删除 【delete from 表名】 1、功能差异 drop:‌删除表及其所有…

【Yolov8】实战三:手把手教你使用YOLOv8以及pyqt搭建中医耳穴辅助诊断项目原理及模型部署(下)

今天,学习RTMPose关键点检测实战。教大家如何安装安装MMDetection和MMPose。 实战项目以三角板关键点检测场景为例,结合OpenMMLab开源目标检测算法库MMDetection、开源关键点检测算法库MMPose、开源模型部署算法库MMDeploy,全面讲解项目全流程…

基于SpringBoot+Vue的校车调度管理系统(带1w+文档)

基于SpringBootVue的校车调度管理系统(带1w文档) 基于SpringBootVue的校车调度管理系统(带1w文档) 如今,因为无线网相关技术的快速,尤其是在网上进行资源的上传下载、搜索查询等技术,以及信息处理和语言开发技术的进步,同时编程语…

基于51单片机设计的温湿度采集检测系统仿真源码文档视频——文末资料下载

演示 基于51单片机设计的温湿度采集检测系统仿真&源码&文档视频——资料下载见简介 目录 1.系统功能 2.背景介绍 3.硬件电路设计 4.软件设计 4.1 主程序设计 4.2 温湿度采集模块程序设计 4.3 LCD显示屏程序设计 5.系统测试 6.结束语 源码、仿真、文档视频等资…