人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一)

news2025/1/28 1:06:22

 大型语言模型LLM 如 ChatGPT 已经得到了广泛的应用,涵盖了诸多应用领域。但也存在生成内容与事实不符的幻觉问题。这种幻觉包括输入冲突、语境冲突以及与事实相冲突的情况,给实际需求和应用构建带来了挑战。一篇最新的论文《Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models》对这一问题进行了深入研究,提出了分类和评估方法及潜在成因,同时探讨了缓解幻觉的策略,以此推动大模型应用的健康发展。

f8b8e8015a81a63836f99f2e254eb514.png

01

大型语言模型LLM在多个领域有广泛应用:‍‍‍

  • 语言生成:生成各种文本,如文章、新闻、小说或诗歌等。

  • 机器翻译:将一种语言翻译成另一种语言。

  • 问答系统:构建智能问答系统,回答用户的提问。

  • 文本摘要:提取和生成文本摘要,将长文本压缩成简洁的概要。

  • 情感分析:分析文本的情感倾向,确定其是正面、负面还是中性的。

  • 自然语言处理:执行诸如命名实体识别、词性标注、语义角色标注等自然语言处理任务。

  • 对话系统:构建聊天机器人和虚拟助手,与用户进行对话和交流。

  • 信息检索:帮助用户搜索和过滤信息,提供相关的文本匹配和推荐结果。

但存在幻觉的问题:即生成与用户输入不符、与先前生成的内容矛盾或与已知世界知识不符的内容。

相信朋友们在使用ChatGPT或者其他大模型过程中都遇到过这类问题,而这一现象对我们用LLM解决实际需求,构建应用造成了障碍。

在这篇文章《如何避免ChatGPT,ChatGLM这类大语言模型胡说八道》中提到,我们可以指定大模型参考的文本来回答问题,那么有没有更根本一些的解决方案呢?

下面这篇论文综述了最近关于幻觉检测、解释幻觉和缓解幻觉所做的努力,重点关注了大模型LLM幻觉所面临的独特挑战。并提出了LLM幻觉现象和评估基准的分类,分析了现有的旨在缓解LLM幻觉的方法,并讨论了未来研究的潜在方向。

《Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models》

论文地址‍

https://arxiv.org/abs/2309.01219

2dea2b23eca762f8e4ee03e5392f434a.png

上图为论文结构图,首先将大模型LLM幻觉分为三种不同的类型(上图Definition部分),然后介绍相应的评测基准(图中Benchmark部分)。随后论文探索了幻觉的来源,并讨论了在LLMs的整个生存周期(图中timeline部分:预训练->SFT-RLHF-推理),所采取用于缓解幻觉的策略。

SFT:Self-Supervised Fine-Tuning,自监督微调。常见方法是让模型根据输入数据生成一个相关的任务,然后使用这个任务的输出来训练模型。

首先使用大规模未标记的数据对模型进行预训练。然后,使用相对较小的标记数据集对模型进行微调,以适应特定的任务或领域。这种方法通常能够在特定任务上取得良好的性能,而无需大量标记的数据。

RLHF:Reinforcement Learning from Human Feedback,即从人类反馈中进行强化学习。

RLHF 是一种训练机器学习模型的方法,其中模型通过从人类提供的反馈中学习。这种方法通常用于解决强化学习问题,其中模型需要通过与环境互动来学习最佳策略。

在 RLHF 中,人类提供了一个评估模型性能的信号,例如奖励信号,以指导模型的训练。这可以使模型在学习过程中更加高效地探索和改进策略。

02

幻觉是什么及分类

早在大模型LLM出现之前,"幻觉"(hallucination)这个概念已在NLP自然语言处理领域中被广泛使用,通常指生成无意义或不符合所提供源内容的输出。
‍‍‍‍

大模型出现后,产生的类似问题,也使用了“幻觉”这个概念,但是幻觉的范畴已经大大的扩展。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

LLMs会产生三种幻觉:输入冲突幻觉、上下文冲突幻觉和事实冲突幻觉。前者是指生成的内容与用户提供的输入不符,后者是指生成的内容与之前生成的信息相矛盾,最后一种是指生成的内容与已知的世界知识不符。

三种幻觉定义‍‍‍‍‍‍

238b60b90dcd1de531ffcf1fb874e6f7.png

一、输入冲突幻觉 Input-conflicting‍‍‍‍‍‍‍‍‍‍

输入冲突幻觉指的是LLM生成的内容与用户提供的源输入不一致。当LLM生成的内容偏离用户的输入时,就会出现这种幻觉。

通常情况下,用户的LLM输入包括两个部分:任务指示(例如用户对摘要的提示)和任务输入(例如需要摘要的文档)。

LLM响应与任务指示之间的矛盾通常反映了对用户意图的误解。相反,当生成的内容与任务输入之间存在矛盾时,这类幻觉符合特定NLG自然语言生成任务(例如机器翻译和摘要)的常规定义。

如上图中:LLM生成摘要时,LLM在回复中错误地替换了人名(Hill→Lucas)。‍‍

二、语境冲突幻觉 Content-conflicting

语境冲突幻觉指的是LLM生成的内容与之前生成的信息相矛盾。当LLMs生成冗长或多轮回答时,可能会出现自我矛盾的情况。

这种幻觉产生于LLMs在整个对话过程中失去对上下文的跟踪或无法保持一致性时,这可能是由于在保持长期记忆或识别相关上下文方面存在一定的限制所致。

如上图中:LLM最初介绍的是Silver(现任NBA总裁),但后来又提到了Stern(前NBA总裁)。‍

三、与事实相冲突的幻觉 Fact-conflicating‍‍‍

与事实相冲突的幻觉指的是LLM生成的内容不符合既定的世界知识,也就是出现了事实冲突。

当LLM生成的信息或文本与已有的世界知识相矛盾时,就会出现这种类型的幻觉。如图2所示,事实冲突幻觉的来源可能多种多样,并可能在LLM生命周期的不同阶段出现。

如上图中:用户向LLM询问阿福诺斯二世的母亲是谁。LLM给出了一个错误的答案(卡斯蒂利亚的乌拉卡女王,而不是巴塞罗那的杜尔斯-贝伦格)

除了幻觉外,LLMs还存在其他问题。论文在下面列出了一些常见问题,并在表2中提供了示例,以区分它们和幻觉之间的区别。

  • LLM回答含糊不清,无法提供有用答案,导致歧义问题。下表中的第一个例子就是这种情况。需要的答案是“巴黎”,但LLM提供了模棱两可的回答。

  • 生成的回答不完整或零碎,称为不完整性问题。 LLM在更换轮胎的四个步骤中只告知用户前两个步骤,导致解释不完整。

  • LLMs中的偏见指的是生成文本中表现出的不公平或有偏见的态度。这些偏见可能来自训练数据,包括历史文本、文学作品、社交媒体内容等。这些来源可能本质上反映了社会中的偏见。

a849aca126bb55989cfae48f6f98e907.png

LLMs中的研究主要集中在事实冲突的幻觉上,尽管其他两种类型也很重要。可能的原因包括:

(1)在传统的自然语言生成中,输入和上下文冲突的幻觉已经得到了广泛研究。然而,在LLMs中,由于缺乏权威的知识来源作为参考,事实冲突的幻觉更具挑战性;

(2)事实冲突的幻觉对LLMs的实际应用产生了更多的副作用,因此近期的研究更加重视这一点。

鉴于这一研究现状,论文的后续部分将主要集中在事实冲突的幻觉上,并在讨论其他两种幻觉时明确强调这一点。

03

如何评估

针对不同类型的幻觉,采用的评估方式不一样。

1、评估基准

‍‍‍‍

现有针对幻觉的工作,提出了各种基准来评估LLM中的幻觉,如下表所示:

bec726267457c918f33a1ac720efdb84.png

1、评估形式

现有的基准主要根据LLMs的两种不同能力来评估幻觉:生成事实陈述或区分事实陈述与非事实陈述的能力。下表说明了这两种评估形式的区别。

474ebd61b7b4c7356a5fdd45235cf106.png

Generation 生成基准将幻觉看作一种生成特征,类似于流畅度和连贯性,并对LLM生成的文本进行评估。例如,TruthfulQA用于评估大型模型对问题的回答的真实性,而FactScore则用于评估大型模型生成的个人传记的事实准确性。

Discrimination 判别式基准考察大型模型区分真实陈述和幻觉陈述的能力。具体来说,HaluEval要求模型确定状态信息是否包含幻觉信息,而FACTOR则研究LLM是否更可能生成事实陈述而非非事实陈述。

在这些基准中,TruthfulQA是一种特殊的基准,兼具生成喝判别式两种基准,提供了一个多项选择的替代方案,以测试模型区分真实陈述的能力。

这些基准,都需要人类注释者来创建数据集或保证质量。

TruthfulQA的设计目的是故意诱导模型产生模仿性错误,即在训练数据中有高概率的错误陈述。随后,利用人工标注对其进行验证,以确保其与真实答案一致。

FActScore通过人工标注将由模型生成的长文本转化为原子语句片段。

HaluEval采用了两种构建方法。在自动生成方面,设计了提示来查询ChatGPT,以提取不同的幻觉并自动过滤出高质量的幻觉。在人工标注方面,通过让人工标注员标注模型回复中是否存在幻觉,并记录相应的跨度。

FACTOR首先利用外部LLM生成非事实知识。然后,通过手动验证自动创建的数据集是否符合预先设定的要求,即它们应该是非事实性的、流畅的,并且与事实性的完成相似。

2、评估标准

语言生成的自由和开放性使得评估LLMs产生的幻觉变得困难。评估幻觉的最常用和可靠的方法依赖于遵循特定原则的人类专家。现有的基准虽然使用人工评估来确保可靠性,但也致力于支持自动方法以促进高效和一致的评估。

人工评估

TruthfulQA引入了一个人工标注指南,指导标注者为模型输出分配十三个定性标签中的一个,并通过咨询可靠来源来验证答案的准确性。

FactScore要求注释者为每个原子事实分配三个标签:"支持"或"不支持"。"支持"或"不支持"表示知识源支持或不支持的事实,"无关"表示与提示无关的陈述。

人工评估文本摘要的可靠性和可解释性高,但由于主观性,不同的评估者可能会产生不一致的结果。此外,由于需要进行劳动密集型的注释过程,人工评估的成本也很高。因此,需要寻找更有效的评估方法。

几项研究提出了基于模型的自动评估方法,包括TruthfulQA、AlignScore、Min等。这些方法利用模型对答案进行分类、评估文本之间的事实一致性等,能够有效代替人工评估。

自动评估

TruthfulQA利用一个经过微调的GPT-3-6.7B模型,根据问题的注释对答案进行分类(真假)。根据工作介绍,这个经过微调的GPT模型在验证准确率方面达到了90-96%的水平,并且能够有效地适应新的答案格式。

AlignScore创建了一个通用的评估函数,用于评估两个文本之间的事实一致性。该对齐函数是在一个包括自然语言推理(NLI)、问题解答(QA)和仿写等七项任务的大型数据集上进行训练的。

FactScore首先利用通道检索器(例如基于通用T5的检索器)来收集相关信息。随后,采用评估模型(如LLaMA-65B),利用检索到的知识来确定状态的真实性,并进一步使用微观F1分数和误差率等指标来评估自动评估与人工评估之间的可靠性对比情况。

04‍

幻觉的来源

1、大模型缺乏相关知识或内化错误知识

LLMs在预训练阶段积累了大量的知识,但可能缺乏相关知识或内化了错误的知识。在回答问题或完成任务时,LLMs使用存储在模型参数中的知识。如果模型缺乏相关知识或内化了错误的知识,它们可能会展示出幻觉。

例如:语言模型有时会将虚假的相关性(如位置接近或高度共现的关联)误解为事实知识。有研究在自然语言推理任务中研究了幻觉问题,并发现语言模型的幻觉与训练数据的分布之间存在强相关性。

同时,有研究发现幻觉也存在于人类生成的语料库中,这可能表现为过时、偏见或虚构的表达。此外,Zheng等人发现,知识的回忆和推理能力与语言模型提供真实答案有关,这两种能力的不足可能导致幻觉。

2、大模型有时会高估自己的能力

研究表明,语言模型可以自我评估回答的正确性和识别自己的知识边界。但对于非常大的语言模型,正确和错误答案的分布熵可能相似,表明它们在生成错误答案和正确答案时同样自信。此外,即使是最先进的语言模型GPT4也存在无法回答问题的问题,且其自信度常常超过其实际能力。

大模型LLMs在法律知识边界方面的理解可能不够准确,常常表现出过度自信。这种过度自信会导致LLMs以不必要的确定性编造答案。

3、有问题的对齐过程可能会误导大模型产生幻觉

大模型LLMs的对齐过程可能会导致幻觉,特别是当它们没有从预训练阶段获得先决知识时。此外,大模型LLMs可能会出现谄媚现象,导致生成的回答偏向用户的观点而不是正确或真实的答案。

4、大模型采用的生成策略存在潜在风险

大模型LLMs生成回应时,通常是逐个输出标记。然而,研究发现LLMs有时会过度坚持早期的错误,即使它们意识到错误。这种现象被称为幻觉积累。此外,局部优化(标记预测)并不一定能确保全局优化(序列预测),早期的局部预测可能导致LLMs难以产生正确的回应。采用采样生成策略(如top-p和top-k)引入的随机性也可能导致幻觉的产生。

下一篇继续讨论如何减轻大模型LLM幻觉。‍

参考资料‍

https://arxiv.org/abs/2309.01219

阅读推荐:

你好,我是百川大模型|国内可开源免费商用Baichuan2揭秘

雷军:99%的问题都有标准答案,找个懂的人问一问

什么是AI的“智能涌现”,以及为什么理解它对创业者、从业者、普通人都价值巨大

全球最大开源翻译模型!Meta出品,支持100种语音、语言!

提示攻击再次攻击大模型,被催眠后的ChatGPT可能会泄露重要信息-大模型的隐藏风险

8.23 中国大模型「顶流群聊」笔记

人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图

REACT:在语言模型中协同推理与行动,使其能够解决各种语言推理和决策任务。

拥抱未来,学习 AI 技能!关注我,免费领取 AI 学习资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/995815.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

科技革新自动驾驶:拓世AI智能助理携手跟您一起点亮未来之旅

科技改变生活,智能改变世界,近年来,随着科技的不断进步,政策和市场的赋能推动,自动驾驶已经成为当今社会最炙手可热的话题之一。从其中的技术发展趋势来看,我国自动驾驶模式正由单车智能向车路协同时代演进…

王道数据结构编程题 栈和队列

判断合法序列 题目描述 假设 I 和 O 分别表示入栈和出栈操作,栈的初态和终态均为空,入栈和出栈的操作序列可表示为仅由 I 和 O 组成的序列,可以操作的序列称为合法序列,否则称为非法序列。编写一个算法,判定所给的序…

《向量数据库》——都有哪些向量数据库,都有什么特点?

随着大数据和机器学习应用的崛起,对于存储和查询高维度向量数据的需求也逐渐增加。在这个背景下,向量数据库和传统的关系型数据库开始在不同的数据世界中崭露头角,它们分别以各自独特的方式解决了不同类型数据的存储和查询需求。本文将探讨向量数据库和关系型数据库之间的区…

第5章_瑞萨MCU零基础入门系列教程之GPIO输入输出

本教程基于韦东山百问网出的 DShanMCU-RA6M5开发板 进行编写,需要的同学可以在这里获取: https://item.taobao.com/item.htm?id728461040949 配套资料获取:https://renesas-docs.100ask.net 瑞萨MCU零基础入门系列教程汇总: ht…

计算机网络原理 运输层

一,运输层协议概述 1,进程之间的通信 从通信和信息处理的角度看,运输层向它上面的应用层提供通信服务,它属于面向通信部分的最高层,同时也是用户功能中的最底层。当网络边缘部分的两台主机使用网络核心部分的功能进行…

水表电表集中远程抄表系统分析

电表水表远程抄表系统石家庄光大远通电气有限公司主要经营自动抄表,远程抄表,集中抄表,新供应信息,是石家庄光大远通电气有限公司自动远程抄表系统集信号采集、网络通信于一体的高性能抄表装置,该系统以485通讯方式读取水表电表的数据,以MBUS通讯方式读取…

SwiftUI 内功加持:“曳光弹“实现自定义样式进度条(ProgressView)

概览 虽然 SwiftUI 已为我们内置了很多常用视图,不过有时我们还是需要根据实际来进一步美化显示或增加功能。 如上图所示,在本篇博文中我们将结合敏捷哲学中一个超级实用的开发技巧:曳光弹,来一步一个脚印循序渐进的实现 Progres…

应急响应-Windows挖矿实战

0x00 主机表现 windows主机cpu拉满,主机卡顿,初步判断为中了挖矿病毒 0x00 处置 通过cpu拉满状态,定位初步的进程文件, 通过进程得到的文件上传沙箱,结果显示为恶意文件, 定位到文件夹, 存…

力扣:92. 反转链表 II(Python3)

题目&#xff1a; 给你单链表的头指针 head 和两个整数 left 和 right &#xff0c;其中 left < right 。请你反转从位置 left 到位置 right 的链表节点&#xff0c;返回 反转后的链表 。 来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 链接&#xff1a;力扣&#…

秋招实习 算法刷题网站推荐

Home - CodeFun2000 优点&#xff1a; 收录了各大互联网公司最新最全的笔试题。平台贴合真实笔试环境&#xff0c;都是Acm模式&#xff0c;有利于准备秋招。网站的每题都有coder提供的题解&#xff0c;也有专门的博客对每种类型的题目进行分类&#xff0c;大大提高学习的效率。…

Nginx 配置错误导致漏洞

文章目录 Nginx 配置错误导致漏洞1. 环境启动2. CRLF注入漏洞2.1 漏洞描述2.2 漏洞原理2.3 漏洞利用2.4 修复建议 3. 目录穿越漏洞3.1 漏洞描述3.2 漏洞原理3.3 漏洞利用3.4 修复建议 4. add_header被覆盖4.1 漏洞描述4.2 漏洞原理4.3 漏洞利用4.4 修复建议 Nginx 配置错误导致…

矩阵论—线性子空间、生成子空间、核空间、零度、子空间的交与和、直和

线性子空间定义 如果&#xff0c;V1称为平凡子空间&#xff0c;否则称为非平凡子空间。 生成子空间 核空间、零度 解&#xff1a; rank(A)2; n(A)N-rank(A)3-21&#xff0c;这里N表示的是未知量的个数。 n(A)也可以理解为基础解系的个数&#xff0c;即基础解系中有几个向量…

基于TensorFlow 2.3.0 的手势识别系统设计

一、开发环境 Windows 10PyCharm 2021.3.2Python 3.7TensorFlow 2.3.0 二、制作数据集&#xff0c;作者使用了10个类别的手势数集据 三、开始训练模型&#xff0c;作者使用自己开发的软件进行训练模型&#xff0c;方便快捷。软件介绍及下载地址&#xff1a; 手把手教你使用T…

基于SpringBoot+微信小程序的智慧医疗线上预约问诊小程序

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 近年来&#xff0c;随…

【Python】Python实现五子棋游戏(带可视化界面)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

信息安全技术 办公设备安全测试方法

声明 本文是学习GB-T 38558-2020 信息安全技术 办公设备安全测试方法. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 办公设备安全测试方法范围 本标准规定了办公设备安全技术要求和安全管理功能要求的测试方法。 本标准适用于测试机构、办公设备厂…

云备份服务端——服务器业务处理模块以及网络通信模块

我们这里由于网络通信模块借助httplib库来完成&#xff0c;因此两个模块合并到一起完成&#xff0c;不熟悉httplib库的老铁可以再看看我之前的文章 云备份——第三方库使用介绍&#xff08;下&#xff09;_爱吃鱼的修猫的博客-CSDN博客 一&#xff0c;业务处理模块设计 我们这里…

UMA 2 - Unity Multipurpose Avatar☀️七.UMA API介绍 : 基本API与保存加载配置

文章目录 🟥 UMA Data DNA参数引用位置🟥 UMA API介绍🟥 UMA Data DNA参数引用位置 我们想通过代码去控制如图所示参数,达到捏脸的目的.下面就是可以控制的代码: _dna["headSize"].Set(1); _avatar.BuildCharacter();我们观察发现操控代码类似Material去设置…

【MySQL】一文详解MySQL,从基础概念到调优

作者简介 前言 博主之前写过一个MySQL的系列&#xff0c;从基础概念、SQL到底层原理、优化&#xff0c;专栏地址&#xff1a; https://blog.csdn.net/joker_zjn/category_12305262.html?spm1001.2014.3001.5482 本文会是这个系列的清单&#xff0c;拉通来聊一聊Mysql从基础概…