如何减轻大语言模型中的幻觉？

news2026/2/14 22:52:13

ChatGPT、LLaMA 和 Mistral 等大型语言模型 (LLMs) 是强大的自然语言处理 (NLP) 工具，能够为各种应用生成流畅且连贯的文本。然而，他们也有一个主要缺点：他们倾向于产生幻觉，而这些事实或细节不受输入或现实世界的支持。这可能会导致虚假或误导性信息，从而给用户和社会带来严重后果。

在本文中，我们将探讨导致幻觉的原因以及如何使用各种技术减轻幻觉。我们还将讨论这些技术的挑战和局限性，并为未来的研究提出一些方向。

LLMs 中的幻觉是什么？

LLMs 中的幻觉是模型生成看似合理但实际上不正确的文本的实例。例如，LLM 可能会生成错误的问题答案、摘要中的错误声明或故事中的错误细节。

产生幻觉的原因有多种，例如：

模型没有足够的数据或有噪音的数据可供学习。
模型对任务或领域的理解很差。
模型对某些单词或短语有偏见或偏好。
模型缺乏外部知识或常识。
模型在流畅性和准确性之间进行权衡。

根据错误的来源、严重程度和影响，幻觉可以分为不同的类型。例如，某些幻觉可能是无害的或有趣的，而另一些幻觉可能是有害的或恶意的。有些幻觉可能很容易被发现和纠正，而另一些幻觉可能很微妙且具有欺骗性。

如何减轻LLMs中的幻觉？

人们提出了许多技术来减轻LLMs中的幻觉，从反馈机制和外部信息检索到生成后的改进。在论文“A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models”中，作者根据以下分类法将 32 种最新的幻觉缓解技术分为 2 个粗粒度组和 7 个细粒度组（可以进一步划分）。
请添加图片描述

提示工程（Prompt Engineering）

根据上述分类法，第一类主要方法是提示工程。它被定义为“尝试各种指令以从人工智能文本生成模型获得最佳输出的过程”（the process of experimenting with various instructions to get the best output possible from an AI text generation model）。在缓解幻觉方面，这个过程可以提供特定的背景和预期的结果”。它分为以下3个子类别：

检索增强生成 (RAG)：RAG 方法（而不是仅仅依赖可能过时的训练数据或模型自身的记忆）使用外部的、值得信赖的知识来源来使 LLMs 的输出更好。换句话说，RAG 通过提供清晰准确的上下文来增强 LLMs 的可靠性。属于此类别的一些值得注意的方法是 LLM-Augmenter、FreshPrompt、D&Q、EVER 和 RARR，它们在输出生成之前、期间或之后是否使用信息检索系统方面有所不同。
通过反馈和推理进行自我完善：LLM 提供特定提示的输出后，有关输出的适当的自我或人工反馈可以使 LLM 提供更好、更准确的输出在其连续迭代中。此类别中的关键策略是 ChatProtect、MixAlign、CoVe和 CoNLI。例如，Cove 采用以下 4 个步骤进行工作：
i) 起草初步答复，
ii) 计划验证问题以对草案进行事实核查，
iii) 独立回答这些问题以获得公正的答案，
iv) 生成最终经过验证的答复。
提示调优（Prompt Tuning）：它被定义为“在微调阶段调整提供给预训练LLM的指令以使模型在特定任务上更有效的技术”。这里，LLM不使用固定提示，而是通过模型本身在微调过程中调整权重来学习它们。重要的方法是 UPRISE 和 SynTra。

部署模型

正如论文作者所定义的，第二类主要方法被称为“部署模型（Developing Models）”。这是一个活跃的研究领域，其目标是实现设计用于本质上解决幻觉的新模型架构，而不是调整模型输出或微调现有模型。根据上述分类，它有以下4种变体：

引入新的解码策略：解码策略涉及专门针对模型生成阶段的技术的开发。当应用于 LLMs 时，这些技术可以“通过引导生成阶段走向真实或特定于上下文的生成”(“by guiding the generation phase towards authentic or context-specific generation”)来防止生成的输出中出现幻觉。相关方法有 CAD 和 DoLa。
利用知识图谱（Knowledge Graphs）：像Wikidata这样的知识图谱是包含有关现实世界实体（例如人物、地点、组织或产品）以及它们的特征和与图中其他实体的连接的信息的组织化数据集合。因此，它们构成了在大语言模型（LLMs）上下文中进行扎实推理、数据分析和信息检索的可靠知识来源。依赖知识图谱的重要技术包括RHO和FLEEK。
引入基于忠实度的损失函数：这种方法的目的是设计新的度量标准，在训练过程中进一步强制模型匹配真实数据。在此背景下，忠实度被定义为“模型能够忠实且正确地反映输入数据，而不添加错误、遗漏或扭曲”（Information-Theoretic Text Hallucination Reduction for Video-grounded Dialogue - ACL Anthology)和损失加权方法。
监督微调 (Supervised Fine-Tuning)：SFT 是一种成熟的技术，用于使用标记数据对齐 LLMs，从而强制模型遵循人类命令来执行特定任务，并最终提高其可信度。流行的方法是 Halo、HAR 和 TWEAK。

这些方法的挑战和局限性是什么？

虽然这些方法可以减少LLMs中幻觉的发生和影响，但它们也面临一些挑战和限制，例如：

数据和知识源的可用性和质量，尤其是资源匮乏的语言。
检索和集成过程的可扩展性和效率。
流畅性、准确性和多样性之间的权衡和平衡。

此外，幻觉现象仍然难以评估和测量，幻觉的伦理和社会影响仍未得到充分研究。
因此，该领域仍有很大的改进和创新空间，需要更多的研究来解决这些问题并开发更有效和可靠的方法。

结论

LLMs 中的幻觉是一个严重的问题，可能会影响生成文本的质量和可信度。为了缓解这个问题，基于数据、模型、知识和输出，人们提出了各种技术。然而，这些技术也存在一些挑战和局限性，需要更多的研究来克服它们。更详细的内容请参考论文“A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models”。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1846469.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！