ChatGPT、LLaMA 和 Mistral 等大型语言模型 (LLMs) 是强大的自然语言处理 (NLP) 工具,能够为各种应用生成流畅且连贯的文本。然而,他们也有一个主要缺点:他们倾向于产生幻觉,而这些事实或细节不受输入或现实世界的支持。这可能会导致虚假或误导性信息,从而给用户和社会带来严重后果。
在本文中,我们将探讨导致幻觉的原因以及如何使用各种技术减轻幻觉。我们还将讨论这些技术的挑战和局限性,并为未来的研究提出一些方向。
LLMs 中的幻觉是什么?
LLMs 中的幻觉是模型生成看似合理但实际上不正确的文本的实例。例如,LLM 可能会生成错误的问题答案、摘要中的错误声明或故事中的错误细节。
产生幻觉的原因有多种,例如:
- 模型没有足够的数据或有噪音的数据可供学习。
- 模型对任务或领域的理解很差。
- 模型对某些单词或短语有偏见或偏好。
- 模型缺乏外部知识或常识。
- 模型在流畅性和准确性之间进行权衡。
根据错误的来源、严重程度和影响,幻觉可以分为不同的类型。例如,某些幻觉可能是无害的或有趣的,而另一些幻觉可能是有害的或恶意的。有些幻觉可能很容易被发现和纠正,而另一些幻觉可能很微妙且具有欺骗性。
如何减轻LLMs中的幻觉?
人们提出了许多技术来减轻LLMs中的幻觉,从反馈机制和外部信息检索到生成后的改进。在论文“A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models”中,作者根据以下分类法将 32 种最新的幻觉缓解技术分为 2 个粗粒度组和 7 个细粒度组(可以进一步划分)。
提示工程(Prompt Engineering)
根据上述分类法,第一类主要方法是提示工程。它被定义为“尝试各种指令以从人工智能文本生成模型获得最佳输出的过程”(the process of experimenting with various instructions to get the best output possible from an AI text generation model)。在缓解幻觉方面,这个过程可以提供特定的背景和预期的结果”。它分为以下3个子类别:
-
检索增强生成 (RAG):RAG 方法(而不是仅仅依赖可能过时的训练数据或模型自身的记忆)使用外部的、值得信赖的知识来源来使 LLMs 的输出更好。换句话说,RAG 通过提供清晰准确的上下文来增强 LLMs 的可靠性。属于此类别的一些值得注意的方法是 LLM-Augmenter、FreshPrompt、D&Q、EVER 和 RARR,它们在输出生成之前、期间或之后是否使用信息检索系统方面有所不同。
-
通过反馈和推理进行自我完善:LLM 提供特定提示的输出后,有关输出的适当的自我或人工反馈可以使 LLM 提供更好、更准确的输出在其连续迭代中。此类别中的关键策略是 ChatProtect、MixAlign、CoVe和 CoNLI。例如,Cove 采用以下 4 个步骤进行工作:
i)
起草初步答复,
ii)
计划验证问题以对草案进行事实核查,
iii)
独立回答这些问题以获得公正的答案,
iv)
生成最终经过验证的答复。 -
提示调优(Prompt Tuning):它被定义为“在微调阶段调整提供给预训练LLM的指令以使模型在特定任务上更有效的技术”。这里,LLM不使用固定提示,而是通过模型本身在微调过程中调整权重来学习它们。重要的方法是 UPRISE 和 SynTra。
部署模型
正如论文作者所定义的,第二类主要方法被称为“部署模型(Developing Models)”。这是一个活跃的研究领域,其目标是实现设计用于本质上解决幻觉的新模型架构,而不是调整模型输出或微调现有模型。根据上述分类,它有以下4种变体:
-
引入新的解码策略:解码策略涉及专门针对模型生成阶段的技术的开发。当应用于 LLMs 时,这些技术可以“通过引导生成阶段走向真实或特定于上下文的生成”(“by guiding the generation phase towards authentic or context-specific generation”)来防止生成的输出中出现幻觉。相关方法有 CAD 和 DoLa。
-
利用知识图谱(Knowledge Graphs):像Wikidata这样的知识图谱是包含有关现实世界实体(例如人物、地点、组织或产品)以及它们的特征和与图中其他实体的连接的信息的组织化数据集合。因此,它们构成了在大语言模型(LLMs)上下文中进行扎实推理、数据分析和信息检索的可靠知识来源。依赖知识图谱的重要技术包括RHO和FLEEK。
-
引入基于忠实度的损失函数:这种方法的目的是设计新的度量标准,在训练过程中进一步强制模型匹配真实数据。在此背景下,忠实度被定义为“模型能够忠实且正确地反映输入数据,而不添加错误、遗漏或扭曲”(Information-Theoretic Text Hallucination Reduction for Video-grounded Dialogue - ACL Anthology)和 损失加权方法。
-
监督微调 (Supervised Fine-Tuning):SFT 是一种成熟的技术,用于使用标记数据对齐 LLMs,从而强制模型遵循人类命令来执行特定任务,并最终提高其可信度。流行的方法是 Halo、HAR 和 TWEAK。
这些方法的挑战和局限性是什么?
虽然这些方法可以减少LLMs中幻觉的发生和影响,但它们也面临一些挑战和限制,例如:
- 数据和知识源的可用性和质量,尤其是资源匮乏的语言。
- 检索和集成过程的可扩展性和效率。
- 流畅性、准确性和多样性之间的权衡和平衡。
此外,幻觉现象仍然难以评估和测量,幻觉的伦理和社会影响仍未得到充分研究。
因此,该领域仍有很大的改进和创新空间,需要更多的研究来解决这些问题并开发更有效和可靠的方法。
结论
LLMs 中的幻觉是一个严重的问题,可能会影响生成文本的质量和可信度。为了缓解这个问题,基于数据、模型、知识和输出,人们提出了各种技术。然而,这些技术也存在一些挑战和局限性,需要更多的研究来克服它们。更详细的内容请参考论文“A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models”。