人工智能海洋中的塞壬之歌：大型语言模型LLM中的幻觉研究综述（一）

“ 大型语言模型LLM 如 ChatGPT 已经得到了广泛的应用，涵盖了诸多应用领域。但也存在生成内容与事实不符的幻觉问题。这种幻觉包括输入冲突、语境冲突以及与事实相冲突的情况，给实际需求和应用构建带来了挑战。一篇最新的论文《Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models》对这一问题进行了深入研究，提出了分类和评估方法及潜在成因，同时探讨了缓解幻觉的策略，以此推动大模型应用的健康发展。”

—

大型语言模型LLM在多个领域有广泛应用：‍‍‍

语言生成：生成各种文本，如文章、新闻、小说或诗歌等。
机器翻译：将一种语言翻译成另一种语言。
问答系统：构建智能问答系统，回答用户的提问。
文本摘要：提取和生成文本摘要，将长文本压缩成简洁的概要。
情感分析：分析文本的情感倾向，确定其是正面、负面还是中性的。
自然语言处理：执行诸如命名实体识别、词性标注、语义角色标注等自然语言处理任务。
对话系统：构建聊天机器人和虚拟助手，与用户进行对话和交流。
信息检索：帮助用户搜索和过滤信息，提供相关的文本匹配和推荐结果。

但存在幻觉的问题：即生成与用户输入不符、与先前生成的内容矛盾或与已知世界知识不符的内容。

相信朋友们在使用ChatGPT或者其他大模型过程中都遇到过这类问题，而这一现象对我们用LLM解决实际需求，构建应用造成了障碍。

在这篇文章《如何避免ChatGPT，ChatGLM这类大语言模型胡说八道》中提到，我们可以指定大模型参考的文本来回答问题，那么有没有更根本一些的解决方案呢？

下面这篇论文综述了最近关于幻觉检测、解释幻觉和缓解幻觉所做的努力，重点关注了大模型LLM幻觉所面临的独特挑战。并提出了LLM幻觉现象和评估基准的分类，分析了现有的旨在缓解LLM幻觉的方法，并讨论了未来研究的潜在方向。

《Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models》

论文地址‍

https://arxiv.org/abs/2309.01219

上图为论文结构图，首先将大模型LLM幻觉分为三种不同的类型（上图Definition部分），然后介绍相应的评测基准（图中Benchmark部分）。随后论文探索了幻觉的来源，并讨论了在LLMs的整个生存周期(图中timeline部分：预训练->SFT-RLHF-推理)，所采取用于缓解幻觉的策略。

SFT：Self-Supervised Fine-Tuning，自监督微调。常见方法是让模型根据输入数据生成一个相关的任务，然后使用这个任务的输出来训练模型。

首先使用大规模未标记的数据对模型进行预训练。然后，使用相对较小的标记数据集对模型进行微调，以适应特定的任务或领域。这种方法通常能够在特定任务上取得良好的性能，而无需大量标记的数据。

RLHF：Reinforcement Learning from Human Feedback，即从人类反馈中进行强化学习。

RLHF 是一种训练机器学习模型的方法，其中模型通过从人类提供的反馈中学习。这种方法通常用于解决强化学习问题，其中模型需要通过与环境互动来学习最佳策略。

在 RLHF 中，人类提供了一个评估模型性能的信号，例如奖励信号，以指导模型的训练。这可以使模型在学习过程中更加高效地探索和改进策略。

—

幻觉是什么及分类

早在大模型LLM出现之前，"幻觉"（hallucination）这个概念已在NLP自然语言处理领域中被广泛使用，通常指生成无意义或不符合所提供源内容的输出。
‍‍‍‍

大模型出现后，产生的类似问题，也使用了“幻觉”这个概念，但是幻觉的范畴已经大大的扩展。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

LLMs会产生三种幻觉：输入冲突幻觉、上下文冲突幻觉和事实冲突幻觉。前者是指生成的内容与用户提供的输入不符，后者是指生成的内容与之前生成的信息相矛盾，最后一种是指生成的内容与已知的世界知识不符。

三种幻觉定义‍‍‍‍‍‍

一、输入冲突幻觉 Input-conflicting‍‍‍‍‍‍‍‍‍‍

输入冲突幻觉指的是LLM生成的内容与用户提供的源输入不一致。当LLM生成的内容偏离用户的输入时，就会出现这种幻觉。

通常情况下，用户的LLM输入包括两个部分：任务指示（例如用户对摘要的提示）和任务输入（例如需要摘要的文档）。

LLM响应与任务指示之间的矛盾通常反映了对用户意图的误解。相反，当生成的内容与任务输入之间存在矛盾时，这类幻觉符合特定NLG自然语言生成任务（例如机器翻译和摘要）的常规定义。

如上图中：LLM生成摘要时，LLM在回复中错误地替换了人名（Hill→Lucas）。‍‍

二、语境冲突幻觉 Content-conflicting

语境冲突幻觉指的是LLM生成的内容与之前生成的信息相矛盾。当LLMs生成冗长或多轮回答时，可能会出现自我矛盾的情况。

这种幻觉产生于LLMs在整个对话过程中失去对上下文的跟踪或无法保持一致性时，这可能是由于在保持长期记忆或识别相关上下文方面存在一定的限制所致。

如上图中：LLM最初介绍的是Silver（现任NBA总裁），但后来又提到了Stern（前NBA总裁）。‍

三、与事实相冲突的幻觉 Fact-conflicating‍‍‍

与事实相冲突的幻觉指的是LLM生成的内容不符合既定的世界知识，也就是出现了事实冲突。

当LLM生成的信息或文本与已有的世界知识相矛盾时，就会出现这种类型的幻觉。如图2所示，事实冲突幻觉的来源可能多种多样，并可能在LLM生命周期的不同阶段出现。

如上图中：用户向LLM询问阿福诺斯二世的母亲是谁。LLM给出了一个错误的答案（卡斯蒂利亚的乌拉卡女王，而不是巴塞罗那的杜尔斯-贝伦格）

除了幻觉外，LLMs还存在其他问题。论文在下面列出了一些常见问题，并在表2中提供了示例，以区分它们和幻觉之间的区别。

LLM回答含糊不清，无法提供有用答案，导致歧义问题。下表中的第一个例子就是这种情况。需要的答案是“巴黎”，但LLM提供了模棱两可的回答。
生成的回答不完整或零碎，称为不完整性问题。 LLM在更换轮胎的四个步骤中只告知用户前两个步骤，导致解释不完整。
LLMs中的偏见指的是生成文本中表现出的不公平或有偏见的态度。这些偏见可能来自训练数据，包括历史文本、文学作品、社交媒体内容等。这些来源可能本质上反映了社会中的偏见。

LLMs中的研究主要集中在事实冲突的幻觉上，尽管其他两种类型也很重要。可能的原因包括：

（1）在传统的自然语言生成中，输入和上下文冲突的幻觉已经得到了广泛研究。然而，在LLMs中，由于缺乏权威的知识来源作为参考，事实冲突的幻觉更具挑战性；

（2）事实冲突的幻觉对LLMs的实际应用产生了更多的副作用，因此近期的研究更加重视这一点。

鉴于这一研究现状，论文的后续部分将主要集中在事实冲突的幻觉上，并在讨论其他两种幻觉时明确强调这一点。

—

如何评估

针对不同类型的幻觉，采用的评估方式不一样。

1、评估基准

‍‍‍‍

现有针对幻觉的工作，提出了各种基准来评估LLM中的幻觉，如下表所示：

1、评估形式

现有的基准主要根据LLMs的两种不同能力来评估幻觉：生成事实陈述或区分事实陈述与非事实陈述的能力。下表说明了这两种评估形式的区别。

Generation 生成基准将幻觉看作一种生成特征，类似于流畅度和连贯性，并对LLM生成的文本进行评估。例如，TruthfulQA用于评估大型模型对问题的回答的真实性，而FactScore则用于评估大型模型生成的个人传记的事实准确性。

Discrimination 判别式基准考察大型模型区分真实陈述和幻觉陈述的能力。具体来说，HaluEval要求模型确定状态信息是否包含幻觉信息，而FACTOR则研究LLM是否更可能生成事实陈述而非非事实陈述。

在这些基准中，TruthfulQA是一种特殊的基准，兼具生成喝判别式两种基准，提供了一个多项选择的替代方案，以测试模型区分真实陈述的能力。

这些基准，都需要人类注释者来创建数据集或保证质量。

TruthfulQA的设计目的是故意诱导模型产生模仿性错误，即在训练数据中有高概率的错误陈述。随后，利用人工标注对其进行验证，以确保其与真实答案一致。

FActScore通过人工标注将由模型生成的长文本转化为原子语句片段。

HaluEval采用了两种构建方法。在自动生成方面，设计了提示来查询ChatGPT，以提取不同的幻觉并自动过滤出高质量的幻觉。在人工标注方面，通过让人工标注员标注模型回复中是否存在幻觉，并记录相应的跨度。

FACTOR首先利用外部LLM生成非事实知识。然后，通过手动验证自动创建的数据集是否符合预先设定的要求，即它们应该是非事实性的、流畅的，并且与事实性的完成相似。

2、评估标准

语言生成的自由和开放性使得评估LLMs产生的幻觉变得困难。评估幻觉的最常用和可靠的方法依赖于遵循特定原则的人类专家。现有的基准虽然使用人工评估来确保可靠性，但也致力于支持自动方法以促进高效和一致的评估。

人工评估

TruthfulQA引入了一个人工标注指南，指导标注者为模型输出分配十三个定性标签中的一个，并通过咨询可靠来源来验证答案的准确性。

FactScore要求注释者为每个原子事实分配三个标签："支持"或"不支持"。"支持"或"不支持"表示知识源支持或不支持的事实，"无关"表示与提示无关的陈述。

人工评估文本摘要的可靠性和可解释性高，但由于主观性，不同的评估者可能会产生不一致的结果。此外，由于需要进行劳动密集型的注释过程，人工评估的成本也很高。因此，需要寻找更有效的评估方法。

几项研究提出了基于模型的自动评估方法，包括TruthfulQA、AlignScore、Min等。这些方法利用模型对答案进行分类、评估文本之间的事实一致性等，能够有效代替人工评估。

自动评估‍

TruthfulQA利用一个经过微调的GPT-3-6.7B模型，根据问题的注释对答案进行分类（真假）。根据工作介绍，这个经过微调的GPT模型在验证准确率方面达到了90-96%的水平，并且能够有效地适应新的答案格式。

AlignScore创建了一个通用的评估函数，用于评估两个文本之间的事实一致性。该对齐函数是在一个包括自然语言推理（NLI）、问题解答（QA）和仿写等七项任务的大型数据集上进行训练的。

FactScore首先利用通道检索器（例如基于通用T5的检索器）来收集相关信息。随后，采用评估模型（如LLaMA-65B），利用检索到的知识来确定状态的真实性，并进一步使用微观F1分数和误差率等指标来评估自动评估与人工评估之间的可靠性对比情况。

04‍

—

幻觉的来源

1、大模型缺乏相关知识或内化错误知识

LLMs在预训练阶段积累了大量的知识，但可能缺乏相关知识或内化了错误的知识。在回答问题或完成任务时，LLMs使用存储在模型参数中的知识。如果模型缺乏相关知识或内化了错误的知识，它们可能会展示出幻觉。

例如：语言模型有时会将虚假的相关性（如位置接近或高度共现的关联）误解为事实知识。有研究在自然语言推理任务中研究了幻觉问题，并发现语言模型的幻觉与训练数据的分布之间存在强相关性。

同时，有研究发现幻觉也存在于人类生成的语料库中，这可能表现为过时、偏见或虚构的表达。此外，Zheng等人发现，知识的回忆和推理能力与语言模型提供真实答案有关，这两种能力的不足可能导致幻觉。

2、大模型有时会高估自己的能力

研究表明，语言模型可以自我评估回答的正确性和识别自己的知识边界。但对于非常大的语言模型，正确和错误答案的分布熵可能相似，表明它们在生成错误答案和正确答案时同样自信。此外，即使是最先进的语言模型GPT4也存在无法回答问题的问题，且其自信度常常超过其实际能力。

大模型LLMs在法律知识边界方面的理解可能不够准确，常常表现出过度自信。这种过度自信会导致LLMs以不必要的确定性编造答案。

3、有问题的对齐过程可能会误导大模型产生幻觉

大模型LLMs的对齐过程可能会导致幻觉，特别是当它们没有从预训练阶段获得先决知识时。此外，大模型LLMs可能会出现谄媚现象，导致生成的回答偏向用户的观点而不是正确或真实的答案。

4、大模型采用的生成策略存在潜在风险

大模型LLMs生成回应时，通常是逐个输出标记。然而，研究发现LLMs有时会过度坚持早期的错误，即使它们意识到错误。这种现象被称为幻觉积累。此外，局部优化（标记预测）并不一定能确保全局优化（序列预测），早期的局部预测可能导致LLMs难以产生正确的回应。采用采样生成策略（如top-p和top-k）引入的随机性也可能导致幻觉的产生。

下一篇继续讨论如何减轻大模型LLM幻觉。‍

参考资料‍

https://arxiv.org/abs/2309.01219

阅读推荐：

你好，我是百川大模型｜国内可开源免费商用Baichuan2揭秘

雷军：99%的问题都有标准答案，找个懂的人问一问

什么是AI的“智能涌现”，以及为什么理解它对创业者、从业者、普通人都价值巨大

全球最大开源翻译模型！Meta出品，支持100种语音、语言！

提示攻击再次攻击大模型，被催眠后的ChatGPT可能会泄露重要信息-大模型的隐藏风险

8.23 中国大模型「顶流群聊」笔记

人工智能安全吗？OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图

REACT：在语言模型中协同推理与行动，使其能够解决各种语言推理和决策任务。