NEWS|关于人工智能大型语言模型能否理解的争论

科学家调查了当前人工智能（AI）研究界的一场激烈的争论，即大型预先训练的语言模型是否可以说可以理解语言——以及任何类人意义上的语言编码的物理和社会情境。他们提供了支持和反对这种理解的论点，以及根据这些论点而出现的更广泛的智能科学的关键问题。他们认为，会有一种扩展的智能科学出现，涉及到不同的理解模式、它们的优势和局限性，以及整合不同认知形式的挑战。

理解某件事意味着什么？这个问题长期以来一直涉及到哲学家、认知科学家和教育工作者。然而，随着最近大规模人工智能系统的兴起——尤其是所谓的大型语言模型——人工智能社区出现了一场激烈的争论，即机器现在是否可以理解自然语言，从而理解语言可以描述的物理和社会情况。这场辩论不仅仅是学术性的；机器对我们世界的理解的程度和方式，与我们有多信任它们开车、诊断疾病、照顾老人、教育儿童，以及在影响人类的任务中采取稳健和透明的行动有关。此外，目前的争论表明，在如何思考智能系统的理解方面存在一个迷人的分歧，特别是依赖于统计相关性的心理模型和依赖于因果机制的心理模型之间的对比。

直到最近，人工智能研究界对机器理解的普遍认同：虽然人工智能系统在许多特定任务中表现出看似智能的行为，但它们并不理解像人类那样处理的数据。面部识别软件不理解面孔是身体的一部分，面部表情在社会互动中的作用，“面对”一个不愉快的情况意味着什么，或者人类概念化面孔的任何其他不可数的方式。同样，语音到文本和机器翻译程序也不理解它们所处理的语言，自动驾驶系统也不理解司机和行人为避免事故而使用的微妙的眼神接触或肢体语言的含义。事实上，这些人工智能系统具有经常被注意到的脆弱性——它们不可预测的错误和缺乏强大的泛化能力——是它们缺乏理解能力的关键指标。然而，在过去的几年里，一种新型的人工智能系统在研究界的受欢迎程度和影响力已经飙升，这已经改变了一些人对能够理解语言的机器的前景的看法。这些系统被称为大型语言模型（LLM）、大型预训练模型或基础模型，是深度神经网络，具有数十亿到数万亿的参数（权重），这些参数在巨大的自然语言语料库上“预训练”，包括大量的网络、在线书籍集合和其他TB大小的数据集合。在训练过程中，这些网络的任务是预测输入句子的隐藏部分——一种被称为“自监督学习”的方法。由此产生的网络是一个复杂的统计模型，可以说明其训练数据中的单词和短语如何关联。这些模型可以用于生成自然语言，针对特定的语言任务进行微调，或者经过进一步的训练以更好地匹配“用户意图”。如OpenAI著名的GPT-3 和最近的ChatGPT 和谷歌的PaLM可以产生惊人的类人的文本、对话，在某些情况下，似乎是人类的推理能力，尽管模型没有明确训练到推理。对于外行人和科学家来说，这些壮举仍然是个谜。这些网络的内部运作在很大程度上是不透明的；即使是建立它们的研究人员，对这种规模的系统的理解也很有限。神经学家特伦斯·塞杰诺夫斯基以这样的方式描述LLM的出现：“达到了一个门槛，就好像一个太空外星人突然出现，可以以一种可怕的人类方式与我们交流。只有一件事是明确的——LLM不是人类。它们行为的某些方面看起来是聪明的，但如果不是人类的智慧，LLM智慧的本质是什么？”

尽管这些工作非常令人印象深刻，最先进的LLM仍然非常脆弱，会受到非人道错误的影响。然而，这种网络随着其参数的数量和训练语料库的大小的扩大而显著进步，这使得该领域的一些研究者声称，LLM——也许是多模态版本——拥有足够大的网络和训练数据的时候将获得人类水平的智慧和理解。

这些声明象征着人工智能研究界关于如何看待LLM的激烈辩论的一面。其中一个派系认为，这些网络真正理解语言，并可以以一般的方式进行推理（尽管“还没有”在人类的层面上）。例如，谷歌的LaMDA系统，预先训练文本，然后微调对话，是足够令人信服的对话者，它说服一个人工智能研究者，这样的系统“在一个非常真实的意义上理解广泛的概念”，甚至“走向意识”。另一位机器语言专家将LLM视为一般人类级人工智能的金丝雀：“人们有一种乐观的感觉：我们开始看到充满知识的系统具有一定程度的一般智能的出现”。另一组研究认为，LLM“可能捕捉到意义的重要方面，而且以一种接近人类认知的有力解释的方式工作，在这种解释中，意义来自于概念角色”。那些拒绝这种说法的人因宣扬“人工智能否认主义”而受到批评。

这场辩论的另一方的人认为，大型的预训练模型，如GPT-3或lamda—无论它们的语言输出多么流畅—无法学会理解，因为他们没有世界的经验或心理模型；他们在大量文本中预测单词的训练教会了他们语言的形式，但没有教会他们意义。最近的一篇观点这样说：“系统训练语言本身不会近似人类智慧，即使训练从现在直到宇宙的热死亡，”和“很明显，这些系统注定要浅理解，永远不会近似的进行人类的全面思考”。另一位学者认为，智能、机构，以及理解是谈论这些系统的“错误类别”；相反，LLM是人类知识的压缩存储库，更类似于图书馆或百科全书，而不是智能代理。例如，人类知道“痒”让我们笑，因为我们有身体。LLM可以使用“挠痒痒”这个词，但它显然从来没有有过这种感觉。理解痒是把一个词映射到感觉，而不是另一个词。

那些觉得“LLM不具有理解”的人认为，虽然大型语言模型的流畅性令人惊讶，但我们的惊讶反映了我们对在这些模型的尺度上可以产生什么统计相关性缺乏理解。任何将理解或意识归因于LLM的人都是伊丽莎效应的受害者—它是以20世纪约瑟夫·魏森鲍姆创造的60年代的聊天机器人命名的，这个机器人虽然简单，但仍然欺骗人们相信它理解他们。更一般地说，伊丽莎效应指的是我们人类倾向于将理解和代理归因于机器，哪怕是最微弱的类似人类的语言或行为的暗示。

2022年对自然语言处理领域的积极研究人员进行的一项调查显示，在这场讨论中存在明显的分歧。一项调查项目询问被调查者是否同意以下关于LLM在原则上是否能够理解语言的陈述：一些生成模型[即语言模型]只在文本上训练，只要有足够的数据和计算资源，就可以在某种重要的意义上理解自然语言。”在480人的回答中，基本上有一半（51%）同意，另一半（49%）不同意。

那些认为理解当前或不久的LLM的人，他们的观点在于模型的几个性能，包括主观判断模型生成的文本的质量响应提示（尽管这样的判断可能容易受到伊丽莎效应），和更客观的性能基准数据集旨在评估语言理解和推理。例如，评估LLM的两个标准基准是通用语言理解评估（GLUE）和它的后继者（SuperGLUE），其中包括大规模数据集的任务，如“文本隐含”（给定两句，可以推断第二句的意思），“上下文中的单词”（一个给定的单词在两个不同的句子中有没有相同的意思），并且回答是/不是问题，等等。OpenAI的GPT-3有1750亿个参数，在这些任务上表现得惊人，而谷歌的PaLM有5400亿个参数，表现得更好，在同一任务上通常等同于或超过人类。

这些结果如何说明了LLM的理解程度？为这些基准评估命名的研究人员所使用的术语——“一般语言理解”、“自然语言推理”、“阅读理解”、“常识推理”等等——揭示了一个假设，即类人理解是完成这些任务所必需的。但是这些任务真的需要这样的理解吗？不一定。例如，考虑一个这样的基准测试，参数推理理解任务。在每个任务示例中，都给出了一个自然语言的“参数”和两个语句；任务是确定哪个语句与参数一致。下面是来自该数据集的一个示例项：

论点：重罪犯应该被允许投票。一个在17岁偷车的人不应该被禁止终身成为一个正式的公民。

语句A：侠盗猎车手是重罪。

语B：侠盗猎车手不是重罪。

一个名为BERT的LLM在这个基准测试上获得了接近人类的性能。可以得出结论，BERT像人类一样理解自然语言的论证。然而，一个研究小组发现，在陈述中存在的某些词（例如，“不是”）可以帮助预测正确的答案。当研究人员改变数据集以防止这些简单的相关性时，BERT的表现下降到了本质上的随机猜测。这其实是“快捷学习”的一个简单例子—在机器学习中经常被引用的现象，即学习系统依赖于数据中的虚假相关性，而不是类人的理解，以便在特定的基准上表现良好。通常情况下，这种相关性对于执行相同任务的人类来说并不明显。而在用于评估的几个标准基准测试中已经发现了快捷方式。语言理解和其他人工智能任务，以及其他许多尚未被发现的微妙的捷径可能存在。谷歌的LaMDA或PaLM模型规模的预先训练的语言模型——有数千亿参数，在数十亿或数万亿单词的文本上训练——具有编码这种相关性的难以想象的能力。因此，适合用于衡量人类理解的基准或评估可能不适合用于评估这类机器。在这些LLM（或它们近期可能的继任者）的规模上，任何这样的评估都可能包含复杂的统计相关性，从而在没有类人理解的情况下实现近乎完美的表现。

虽然“类人理解”没有一个严格的定义，但它似乎不是基于今天LLM学习的那种庞大的统计模型；相反，它基于概念——外部类别、情况和事件的内部心理模型，以及自己的内部状态和“自我”的内部心理模型。在人类中，理解语言（以及非语言信息）需要拥有语言（或其他信息）所描述的概念，而不是语言符号的统计属性。事实上，认知科学的长期研究历史大多是为了理解概念的本质，以及理解是如何从包括潜在的因果知识的概念之间的层次关系中产生的。这些模型使人们能够抽象出他们的知识和经验，以便做出稳健的预测、概括和类比；以组合和反事实的方式进行推理；积极干预世界以检验假设；并向他人解释一个人的理解。事实上，这些正是当前人工智能系统所缺乏的能力，包括最先进的LLM。尽管越来越大的LLM在这些一般能力上表现出了有限的火花。有人认为，对这种情况的理解可能会使纯粹的统计模型成为不可能具备这样的能力。虽然LLM表现出非凡的正式语言能力——产生语法流利的类人语言的能力——它们仍然缺乏类人功能语言能力所需的概念理解——在现实世界中稳健理解和使用语言的能力。在这种功能理解和物理理论中应用的正式数学技术的成功之间可以有一个有趣的类比。例如，长期以来对量子力学的批评是，它提供了一种有效的计算方法，而没有提供概念上的理解。

人类概念的详细性质多年来一直是个被积极争论的论题。研究人员对于概念在多大程度上是特定领域的和先天通用领域的这一认识存在分歧，概念的程度通过体现隐喻和表示在大脑通过动态、基于情况的模拟，和概念的条件由语言），通过社会学习和文化。尽管这些持续的争论，概念，如上所述的因果心理模型的形式，长期被认为是人类认知的单位。事实上，人类理解的轨迹——无论是个人的还是集体的——是高度压缩的、基于因果的世界模型的发展，类似于从托勒密的周期到开普勒的椭圆轨道，再到牛顿对重力方面行星运动的简明和因果解释的发展。与机器不同，人类似乎在科学和日常生活中都对这种理解形式有强烈的先天驱动力。我们可以把这种理解的形式描述为需要很少的数据，最小的或简约的模型，清晰的因果依赖关系，以及强大的机制直觉。

关于LLM理解的争论的关键问题如下：1)在这种系统中谈论的理解仅仅是一个类别错误，将语言代币之间的关联误认为代币与身体、社会或心理体验之间的关联？简而言之，这些模型是否不是，也永远不会是，那种能够理解的东西？或者相反，2)这些系统（或者它们近期的继任者），即使在没有物理经验的情况下，也真的创造出了类似于丰富的基于概念的心理模型的东西，这对人类的理解至关重要，如果是的话，缩放这些模型是否会创造出更好的概念？或者，3)如果这些系统没有创造出这样的概念，它们的大型统计相关性系统能否产生在功能上等同于人类理解的能力？或者，这使人类无法访问的更高阶逻辑的新形式成为可能.在这一点上，称这种相关性称为“虚假”或由此产生的解决方案为“捷径”还有意义吗？如果不把系统的行为看作是“没有理解的能力”，而是一种新的、非人类的理解形式，这是否有意义吗？这些问题不再是在抽象的哲学讨论的领域，而是涉及到对人工智能系统的能力、健壮性、安全性和伦理学的非常真实的关注，这些问题在人类的日常生活中扮演着越来越多的角色。

然而“LLM能够理解”理论的支持者都强烈支持他们的观点，但目前可用的基于认知科学的洞察理解的方法不足以回答关于LLM的问题。事实上，一些研究人员已经将心理测试应用于评估人类的理解和推理机制——他们发现，在某些情况下，LLM在心理理论测试中表现出类似人的反应），在推理评估中存在类人能力和偏见。虽然这类测试被认为是评估人类更一般能力的可靠代理，但对人工智能系统来说可能并非如此。正如我们上面所描述的，LLM具有难以想象的能力来学习其训练数据和输入中的令牌之间的相关性，并且可以使用这种相关性来解决这些问题，相比之下，人类似乎应用了反映他们现实世界经验的压缩概念。当将为人类设计的测试应用于LLM时，解释结果可以依赖于对人类认知的假设，而这些模型可能完全不正确。要想取得进展，科学家们将需要取得进展。开发新的基准和探索方法，可以洞察不同类型的智慧和理解的机制，包括我们创造的“奇异的、类似思想的实体”的新形式。

随着越来越大、似乎更有能力的系统的发展，关于LLM能否理解的争论，强调了扩展我们的智能科学的必要性，以便对人类和机器理解更广泛的理解概念。正如神经学家特伦斯·塞杰诺夫斯基所指出的那样，“专家们对LLM的智慧的不同意见表明，我们基于自然智慧的旧想法是不够的”。如果LLM和相关模型通过在迄今为止不可想象的尺度上利用统计相关性而取得成功，也许这可以被认为是一种新的“理解”形式。它能实现非凡的、超人的预测能力，例如在DeepMind的 AlphaZero和AlphaFold，一个可以进行围棋一个可以进行蛋白质折叠。

因此可以认为，近年来，人工智能领域创造了机器与新的理解模式，最有可能的新物种在一个更大的动物园的相关概念，将继续丰富随着我们取得进展的追求难以捉摸的智慧的本质。正如不同的物种能够更好地适应不同的环境一样，我们的智能系统也将能够更好地适应不同的问题。那些需要大量历史编码知识的问题，而性能具有溢价的问题将继续有利于像LLM这样的大规模统计模型，而那些我们知识有限和强大的因果机制的问题将有利于人类智能。未来面临的挑战是开发新的科学方法，能够揭示对不同形式的智慧理解的详细机制，识别它们的优势和局限性，并学习如何整合这种真正多样化的认知模式。

信息来源：PNAS 2023 Vol. 120 No. 13 e2215907120