有待挖掘的金矿：大模型的幻觉之境

news2025/4/13 15:21:25

人工智能正在迅速变得无处不在，在科学和学术研究中，自回归的大型语言模型（LLM）走在了前列。自从LLM的概念被整合到自然语言处理（NLP）的讨论中以来，LLM中的幻觉现象一直被广泛视为一个显著的社会危害和一个关键的瓶颈，阻碍了LLM在现实世界中的应用。无论是在流行且全面的学术调查中，还是在面向公众的技术报告中，都将幻觉问题定位为LLM的主要伦理和安全陷阱之一，应该与其他问题（如偏见和毒性）一起得到严重缓解。因此，将幻觉减少到可以忽略不计的水平的承诺，不仅被视为一个技术挑战，也是更广泛使命的关键组成部分，以减轻与LLM的广泛部署和广泛采用相关的社会污名和系统风险。

然而，一小部分工作提出了一种观点，即幻觉并非本质上有害。这种探索性的观点强调了幻觉的潜在价值和合理必要性。最近的研究表明，幻觉是统计上的必然，并且由于创造性、生成性和信息准确性之间的权衡，从LLM中消除幻觉是不可能的。此外，在许多特定领域的应用中，实现创造性和事实性之间的优化平衡，比仅仅试图消除幻觉更能有效地最大化LLM的效用。幻觉可能特别有价值的LLM用例包括发现新型蛋白质、为创意写作提供灵感以及制定创新的法律类比。

在本文中，我们试图扩大幻觉的概念，并认为幻觉更接近于“虚构”这一概念，这一术语已经在关于AI的公共话语中获得了流行，但尚未在学术文献中广泛传播。

1 “虚构”（confabulation）VS“幻觉”（hallucination）

"Confabulation" 和 "hallucination" 都是从精神病学借用过来的人化类比，但"confabulation"因避免了暗示LLMs具有感官体验或意识的棘手含义，且更中性，因此在AI公共话语中被视为"hallucination"的首选替代词。

1.1 现有定义的局限性

现有的定义主要关注伪造与事实不符的特征，忽略了其在人类交流中的社会和认知效益。

这些定义没有充分考虑人类在填补知识空白时，倾向于使用叙事作为认知资源的倾向。

1.2 新的定义

伪造是一种叙事冲动，即生成更具实质性、更连贯的输出的倾向。这种冲动体现了人类利用叙事进行理解和交流的倾向。

伪造可以产生虚构但可信的信息，帮助人们填补知识空白，并构建连贯的语义意义。

2 数据、方法和结果

2.1 基准数据集

FaithDial：一个无幻觉的对话基准，介于寻求信息的用户和聊天机器人之间，改编自“维基百科巫师”。Mechanical Turk注释器将WoW的人类生成响应标记为“幻觉”或真实响应。真实响应被细分为三个类别：“蕴含”（Entailment）、“不合作”（Uncooperative）和“通用”（Generic），并对21445个原始响应进行了忠实且基于知识的编辑。

BEGIN：是对FaithDial进行的初步研究，旨在选择一个现有的基准进行后续的大规模注释和编辑。作为一个较小的专家策划集，它包括信息寻求查询以及人类编写和模型生成（GPT-2、DoHA和CRTL）的响应，每种响应都使用与FaithDial略有不同的幻觉分类法进行标记（增加了“部分幻觉”作为标签），由专家注释器完成。我们采用BEGIN作为对我们在HaluEval上发现的叙事模式的模型和数据集的一致性和鲁棒性的验证，以确认不同数据集和模型之间叙事模式的一致性和鲁棒性。

HaluEval：是一个全面的数据集，展示了合理但幻觉的ChatGPT生成与其真相对应物。与FaithDial和BEGIN更细粒度的幻觉标签不同，HaluEval只区分幻觉和真相响应。我们只使用HaluEval的对话部分，包含10000个样本，以保持与其他基准的领域一致性。

对于FaithDial和BEGIN数据集，我们将所有不包含“幻觉”标签的输出视为“真相”，并将所有包含“幻觉”标签以及一个额外真实标签的输出视为“部分”幻觉/真相。这种聚合允许跨数据集进行更直接的比较。如下表所示：虚构文本表现出更高水平的叙事性，因此可以被视为一种叙事丰富的行为。