“大型”基础模型中幻觉的调查

Abstract

基础模型 (FM) 中的幻觉是指生成偏离事实或包含捏造信息的内容。这篇调查论文广泛概述了近期旨在识别、阐明和解决幻觉问题的努力，特别关注“大型”基础模型（LFM）。该论文对LFM特有的各种类型的幻觉现象进行了分类，并建立了评估幻觉程度的评估标准。它还研究了减轻 LFM 幻觉的现有策略，并讨论了该领域未来研究的潜在方向。本质上，本文对 LFM 中幻觉相关的挑战和解决方案进行了全面的研究。

Introduction

以 GPT-3（Brown 等人，2020）和稳定扩散（Rombach 等人，2022）为代表的基础模型（FM）标志着机器学习和生成人工智能领域新时代的开始。研究人员引入了“基础模型”一词来描述机器学习模型，这些模型是在广泛、多样且未标记的数据上进行训练的，使它们能够熟练地处理各种一般任务。这些任务包括语言理解、文本和图像生成以及自然语言对话。

1.1 什么是基础模型

基础模型是指在大量未标记数据上训练的大规模人工智能模型，通常通过自我监督学习。这种训练方法产生的多功能模型能够在各种任务中表现出色，包括图像分类、自然语言处理和问答，从而达到显着的准确性水平。

这些模型擅长涉及生成能力和人类互动的任务，例如生成营销内容或根据最少的提示制作复杂的艺术品。然而，为企业应用程序调整和实施这些模型可能会遇到一定的困难（Bommasani 等人，2021）。

1.2 什么是基础模型中的幻觉？

基础模型上下文中的幻觉是指模型生成的内容并非基于事实或准确信息的情况。当模型生成的文本包含虚构、误导性或完全捏造的细节、事实或主张，而不是提供可靠和真实的信息时，就会出现幻觉。

出现此问题的原因是该模型能够根据从训练数据中学到的模式生成听起来合理的文本，即使生成的内容与现实不符。幻觉可能是无意的，可能是由多种因素造成的，包括训练数据的偏差、模型无法访问实时或最新信息，或者模型在理解和生成上下文准确响应方面的固有局限性。

解决基础模型和大语言模型中的幻觉至关重要，尤其是在事实准确性至关重要的应用中，例如新闻、医疗保健和法律背景。研究人员和开发人员正在积极研究减轻幻觉并提高这些模型的可靠性和可信度的技术。随着最近图 2 中这个问题的出现，解决这些问题变得更加重要。

2023年3月至2023年9月大型基础模型（LFM）“幻觉”论文的演变

1.3 为什么进行这项调查？

近年来，学术界和工业界对 LFM 的兴趣显着增加。此外，他们的主要挑战之一是幻觉。 (Ji et al., 2023) 中的调查描述了自然语言生成中的幻觉。在大模型时代，（Zhang et al., 2023c）做了另一项伟大的及时调查，研究大语言模型的幻觉。然而，除了LLM之外，图像、视频、音频等其他基础模型也存在幻觉问题。因此，在本文中，我们对基础模型所有主要模式的幻觉进行了首次全面调查。

1.3.1 我们的贡献

我们对 LFM 幻觉领域的现有工作进行了简洁的分类，如图 1 所示。
我们在第 2 至 5 节中对大型基础模型 (LFM) 进行了广泛的检查。
我们涵盖了所有重要方面，例如一检测，二．减轻，三.任务，四。数据集和 v. 评估指标，如表 1 所示。
我们最后还提供了我们在该领域的观点和未来可能的方向。我们将定期更新相关的开源资源，可访问 https://github.com/vr25/hallucination-foundation-model-survey

1.3.2 幻觉的分类

如图1所示，我们将LFM大致分为以下四种类型：文本，二。图像，三。视频，以及 iv.声音的。

本文遵循以下结构。基于上述分类，我们描述了所有四种模式的幻觉和缓解技术：文本（第 2 节），ii。图像（第 3 节），iii。视频（第 4 节），以及 iv。音频（第 5 节）。在第 6 节中，我们简要讨论幻觉并不总是坏事，因此，在创意领域，它们非常适合制作艺术品。最后，我们给出了解决这个问题的一些未来可能的方向以及第 7 节中的结论。

2 Hallucination in Large Language Models
----
2 大语言模型中的幻觉

如图 4 所示，当大语言模型做出捏造的回答时，就会出现幻觉。

2.1 LLMs

SELFCHECKGPT（Manakul et al., 2023）是一种在生成大语言模型中进行零资源黑盒幻觉检测的方法。该技术侧重于识别这些模型生成不准确或未经验证的信息的实例，而不依赖于额外的资源或标记数据。它旨在通过提供一种无需外部指导或数据集即可检测和解决幻觉的机制来增强大语言模型的可信度和可靠性。 (Mündler et al., 2023) 探讨了大语言模型中自相矛盾的幻觉。并通过评估、检测和缓解技术解决这些问题。它指的是大语言模型生成自相矛盾的文本的情况，导致不可靠或无意义的输出。这项工作提出了评估此类幻觉发生的方法，在大语言模型生成的文本中检测它们，并减轻其影响，以提高大语言模型生成的内容的整体质量和可信度。

PURR（Chen et al., 2023）是一种旨在有效编辑和纠正语言模型中的幻觉的方法。 PURR 利用去噪语言模型损坏来有效识别和纠正这些幻觉。这种方法旨在通过减少幻觉内容的流行来提高语言模型输出的质量和准确性。

幻觉数据集：幻觉通常与语言模型 (LM) 中的知识差距有关。然而，（Zhang et al., 2023a）提出了一个假设，即在某些情况下，当语言模型试图合理化先前产生的幻觉时，它们可能会产生可以独立识别为不准确的错误陈述。因此，他们创建了三个问答数据集，其中 ChatGPT 和 GPT-4 经常提供不正确的答案，并附有至少包含一个错误断言的解释。

HaluEval（Li et al., 2023b）是一个综合基准，旨在评估大语言模型的幻觉。它可以作为一种工具，系统地评估大语言模型在不同领域和语言的幻觉方面的表现，帮助研究人员和开发人员衡量和提高这些模型的可靠性。

使用外部知识缓解幻觉：使用交互式问题知识对齐（Zhang et al., 2023b）提出了一种减轻语言模型幻觉的方法。他们提出的方法侧重于将生成的文本与相关事实知识对齐，使用户能够交互式地指导模型的响应产生更准确、更可靠的信息。该技术旨在通过让用户参与对齐过程来提高语言模型输出的质量和真实性。 LLMAUGMENTER（Peng 等人，2023）利用外部知识和自动反馈改进大语言模型。它强调需要解决大语言模型生成内容中的局限性和潜在的事实错误。该方法涉及结合外部知识源和自动反馈机制，以提高LLMs输出的准确性和可靠性。通过这样做，本文旨在减少事实错误并提高LLMs生成文本的整体质量。同样，（Li et al., 2023d）引入了一个名为“知识链”的框架，为LLMs奠定结构化知识库的基础。接地是指将LLMs生成的文本与结构化知识连接起来以提高事实准确性和可靠性的过程。该框架采用分层方法，将多个知识源链接在一起，以提供背景并增强对LLMs的理解。这种方法旨在提高LLMs生成的内容与结构化知识的一致性，降低生成不准确或幻觉信息的风险。

与较大的同行相比，参数较少的小型开源LLMs通常会遇到严重的幻觉问题（Elaraby 等人，2023）。这项工作的重点是评估和减轻 BLOOM 7B 中的幻觉，它代表了研究和商业应用中使用的较弱的开源LLMs。他们推出了 HALOCHECK，这是一个轻量级的无知识框架，旨在评估LLMs的幻觉程度。此外，它还探索了知识注入和师生方法等方法来减少低参数LLMS的幻觉问题。

此外，与法学硕士相关的风险可以通过与网络系统进行比较来减轻（Huang 和 Chang，2023）。它强调了LLMs中缺乏关键要素“引用”，而“引用”可以提高内容透明度和可验证性，并解决知识产权和道德问题。

使用提示技术减轻幻觉：“消除幻觉”是指减少LLM产生不准确或幻觉信息。 (Jha et al., 2023) 中提出了使用迭代提示引导的正式方法来消除 LLM 的幻觉。他们采用形式化方法通过迭代提示来指导生成过程，旨在提高LLM输出的准确性和可靠性。该方法旨在减轻幻觉问题并增强LLM生成内容的可信度。

2.2 多语言LLMs

大规模多语言机器翻译系统在多种语言之间直接翻译方面表现出了令人印象深刻的能力，这使得它们对现实世界的应用程序具有吸引力。然而，这些模型可能会生成幻觉翻译，这在部署时会带来信任和安全问题。现有的幻觉研究主要集中在高资源语言的小型双语模型上，在跨不同翻译场景的大规模多语言模型中理解幻觉方面存在差距。

为了解决这一差距，（Pfeiffer et al., 2023）对传统神经机器翻译模型的 M2M 系列和可提示翻译的多功能 LLM ChatGPT 进行了全面分析。该调查涵盖了广泛的条件，包括 100 多个翻译方向、各种资源水平以及以英语为中心的对以外的语言。

2.3 特定领域的LLMs

医学、银行、金融、法律和临床环境等关键任务领域的幻觉是指生成或感知到虚假或不准确信息的情况，可能导致严重后果。在这些领域，可靠性和准确性至关重要，任何形式的幻觉，无论是数据、分析还是决策，都可能对结果和运营产生重大和有害的影响。因此，强有力的措施和系统对于最大限度地减少和预防这些高风险领域的幻觉至关重要。

医学：LLMs的幻觉问题，特别是在医学领域，产生看似合理但不准确的信息可能是有害的。为了解决这个问题，（Umapathi 等人，2023）引入了一个新的基准和数据集，称为 Med-HALT（医学领域幻觉测试）。它专门用于评估和减轻LLMs的幻觉。它包含来自不同国家医疗检查的多样化跨国数据集，并包括创新的测试方法。 Med-HALT 包括两类测试：推理测试和基于记忆的幻觉测试，旨在评估LLMs在医学背景下解决问题和信息检索的能力。

法律：ChatLaw（Cui 等人，2023）是专门针对法律领域的开源LLMs。为了确保高质量的数据，作者创建了精心设计的法律领域微调数据集。针对法律数据筛选过程中的模型幻觉问题，他们提出了一种向量库检索与关键词检索相结合的方法。这种方法有效地减少了在法律背景下仅依靠矢量数据库检索进行参考数据检索时可能出现的不准确性。

3 大图像模型中的幻觉Hallucination in Large Image Models

采用Siamese结构的对比学习模型（Wu et al., 2023）在自我监督学习中表现出了令人印象深刻的表现。它们的成功取决于两个关键条件：存在足够数量的正对，以及它们之间存在充足的差异。如果不满足这些条件，这些框架可能缺乏有意义的语义区别，并且容易过度拟合。为了应对这些挑战，我们引入了幻觉器，它可以有效地生成额外的正样本以增强对比度。 Hallucinator 是可微分的，在特征空间中运行，使其能够在预训练任务中进行直接优化，并产生最小的计算开销。

受LLMs的启发，为复杂的多模态任务增强 LVLM 的努力面临着一个重大挑战：物体幻觉，其中 LVLM 在描述中生成不一致的物体。这项研究（Li et al., 2023e）系统地研究了 LVLM 中的物体幻觉，并发现这是一个常见问题。视觉指令，尤其是频繁出现或同时出现的物体，会影响这个问题。现有的评估方法也受到输入指令和 LVLM 生成方式的影响。为了解决这个问题，该研究引入了一种称为 POPE 的改进评估方法，为 LVLM 中的物体幻觉提供更稳定和灵活的评估。

指令调整的大视觉语言模型 (LVLM) 在处理各种多模式任务（包括视觉问答 (VQA)）方面取得了重大进展。然而，生成详细且视觉上准确的响应仍然是这些模型的挑战。即使像 InstructBLIP 这样最先进的 LVLM 也表现出很高的幻觉文本率，包括 30% 的不存在对象、不准确的描述和错误的关系。为了解决这个问题，该研究（Gunjal et al., 2023）引入了 MHalDetect1，这是一个多模态幻觉检测数据集，旨在训练和评估旨在检测和预防幻觉的模型。 MHalDetect 包含 VQA 示例的 16,000 个详细注释，使其成为第一个用于检测详细图像描述中的幻觉的综合数据集。