大模型的推理和搜索能力

摘要：

推理和搜索问题，如定理证明和程序合成，一直是人工智能领域的长期挑战。组合搜索空间使得传统的基于搜索的方法难以处理。然而，即使在最数学化的领域中，人类也可以直观地操作，而AlphaGo等现有工作已经表明，深度神经网络可以有效地引导搜索空间。但人类也会在不同的任务之间传递知识，从而促进更有效的适应能力和更抽象的推理能力。基础模型提供了缩小这一差距的可能性：它们的多用途性质沿着其强大的生成和多模式能力，为控制搜索固有的组合爆炸提供了新的杠杆作用。

推理和搜索一直是贯穿人工智能历史的中心主题。经典的智力测试，从战略游戏到抽象的数学发现，都是鼓舞人心的目标，通过设计更聪明的方法来寻找获胜的解决方案，推动了“机器智能”的极限。在早期，符号方法是推理的主要方法，但涉及的工程工作和形式化算法以解决棘手的搜索空间的需要很快被证明是繁琐的。最近，使用神经网络的数据驱动方法已经显示出令人鼓舞的结果-例如，在围棋中击败最优秀的人类，这是一种比经典国际象棋挑战更大的行动空间的棋盘游戏-通过利用统计结构和学习有用的算法。本文概述了现有的推理任务，这些任务需要扩展到更大的搜索空间并广泛地理解世界。然后，我们论证，基础模型应该在一般推理中发挥核心作用，作为捕获无界搜索空间的统计信息的工具（生成性），允许跨任务和场景的正迁移（普遍性），并利用多模态环境中的知识基础（接地）。

1. 当前的任务是什么？

许多推理问题提出了无限的搜索空间，系统必须处理各种开放式的选择。试着证明等腰三角形的角和角相等。一个系统可以在推理的每一步执行任意数量的动作。例如，系统可以添加具有任意构造的新辅助点，例如垂直线、平行线或相切圆，并且搜索空间只会随着图变得更复杂而变得更大。证明这个定理的一种方法是画一条线，它是的角平分线，并使用两个三角形△和△的全等表示，但是系统如何在没有广泛搜索的情况下找到它呢？

图多模态可以允许基础模型不仅使用正式的符号语言进行推理，还可以利用问题的视觉方面，例如等价性，对称性和欧几里得几何，来修剪无限的搜索空间并找到有希望的解决方案，模仿人类对几何问题的推理方式。

更一般地说，数学家并不局限于在图结构和欧几里得定理中搜索：数学家可以应用数学各个分支的大量定理，进行高层次的推理，形式化新的数学概念，或者找到反例。这与更结构化的人工智能挑战形成对比，例如围棋，其搜索空间被认为要小得多。

除了定理证明，许多现实世界的问题都涉及无界搜索空间，例如程序合成，药物发现，化学合成，计算机辅助设计，组合优化等。这些推理问题往往表现出类似的结构，就像药物发现中的逆合成和命题逻辑中的定理证明之间的双射，如图所示：在这两个问题中，一个是建立一个合成树，其节点在一边是化学产品，另一边是命题，叶节点是一边的产品，另一边是结束公理。在这些问题中，通常提供一个模拟环境，这允许求解器运行多个搜索线程来构建解决方案树。模拟器经常提供中间反馈，比如说，在证明被认为完成之前，通知求解器剩余的命题。求解器又需要选择最有希望的搜索线程，并根据中间反馈继续进行。

图左侧：基于机器学习的药物逆合成计划器AiZynthalide预测的1，6-庚-3，5-二酮的反应途径。右：命题逻辑中的一个示例证明树，其中绿色概述的公式表示公理。虽然它们来自不同的领域，但两棵树在结构上是相同的。

最近，人们对应用基于学习的方法来解决推理问题产生了浓厚的兴趣。为了克服无界搜索空间的挑战，研究人员首先从约束搜索空间开始，使问题易于处理。但是这种方法受到求解器可以发出的有限类型的动作的影响。例如，求解器只能应用已知数据库中的定理来证明目标定理，而不是合成新的定理和引理。由于大型语言模型提供了一种将输出空间建模为序列的通用方法，因此它们很快成为更有利的选择，允许生成任意类型的动作。研究人员已经将这些基于语言模型的方法应用于各种应用，例如预测蛋白质结构，证明形式定理，证明定理，从自然语言合成程序，修复，生成和理解代码。研究还表明，缩放模型大小可以显着提高推理能力，此外，语言建模的标准技术，如预训练，也可以大大提高这些任务的性能。

2. 基础模型的作用是什么？

2.1 创造力

我们相信基础模型的生成能力对于有效的推理是必不可少的。由于搜索空间的无限性，枚举所有可能性变得非常困难。相反，使用基础模型，可以对最佳决策的分布进行建模，并生成合适的候选项以进行下一步。特别是，由于基础模型提供了一种将输出空间建模为序列的通用方法，因此下一个决策生成是完全不受约束的，因此是通用的。这种灵活性对于我们讨论过的许多推理挑战都是必不可少的，可以在数学建模和合成新程序等领域进行创造性生成。随着基础模型的扩展，捕获此类统计结构的能力也会大大增加。

2.2 普遍性

正如我们在上一节中提到的，许多推理问题表现出类似的潜在结构。我们相信，由基础模型强加的统一框架可以在任务之间传递和共享重要的知识，从概括适用于一个任务的低级技术到新场景，再到直接找到适用于多种问题的元技术。此外，由于基础模型是在许多领域中训练的，因此它可以在任务和领域中积极地传递编码在基础模型权重中的元知识。基础模型训练和适应框架鼓励关注点的分离，其中基础模型训练学习元知识，例如药物逆合成和命题逻辑证明之间的共享搜索树结构，并且适应阶段可以专注于学习任务特定词汇。因此，基础模型可以降低自适应阶段学习问题的复杂性，提高样本复杂性和泛化能力。

2.3 基础

推理问题通常很容易用符号语言表达（例如，mathe-matics、代码、分子的SMILE表示）。然而，这些符号有着深刻的潜在语义-说“等腰三角形”描绘了一个生动的形象在人类的脑海中。基础模型可以实现深层的基础和语义。第一，以其他形式（如视觉或物理）为基础的表征对于在推理任务中抓住抽象概念并赋予它们具体意义至关重要。由于模型可以在多个模态上训练，因此基础模型可以帮助理解一系列数据源（例如，图像、文本）。因此，在几何示例情况下，通过理解在自然图像中学习的几何形状，基础模型可以有效地利用问题的图形表示。然而，在推理中对齐的多模态数据是稀缺的，并且基础模型是否可以以无监督的方式发现不同模态之间的连接（例如，交换图的发现及其相应的代数方程）。此外，即使在符号领域内，符号也可以有不同层次的解释。例如，高级编程语言可以被翻译成低级汇编代码。基础模型可以学习包含这些不同视图的共享表示。过去的工作表明，自我监督任务允许模型理解高级代码脚本背后的内部工作，并进一步协助下游任务。

3. 未来的推理挑战

由于这些问题的内在困难，与原始图像和文本相比，高质量的标记数据是稀缺的，更难收集。为缓解这一问题，已经进行了几次尝试。在数学中，研究人员提出生成合成定理，希望推广到现实定理。另一种方法是设计自监督任务来增强数据集，或者更好的预训练目标。然而，我们仍然缺乏设计自我监督任务的一般原则方法，因为大多数现有的工作都是针对特定的问题设置而量身定制的。建立一个基础模型将鼓励建立一个统一的框架，构建一套可应用于所有推理问题的自我监督任务。此外，互动性可以在足够的可扩展性下，通过将人类引入循环以最小限度地指导学习课程或数据增强过程来缓解数据稀缺问题，例如，在选择要添加的公理或要探索的公理时，而交互式工具本身是对推理基础模型的激励使用在帮助人们处理认知上最苛刻或最费力的方面。解释友好的交互式工具可以在教育中找到进一步的应用，帮助人类在高能力的基础模型的帮助下学习。

提高高级推理能力是现有基础模型的核心挑战。人类在处理困难的问题解决任务时会进行抽象推理和高级规划。例如，当构建一个软件工具或证明一个定理时，我们通常从一个高层次的草图开始，然后再深入到低层次的细节。现有的基础模型没有经过训练来生成这样的高级计划。相反，他们通常只关注预测接下来的低水平步骤。不幸的是，为了训练基础模型来模仿人类的推理，我们再次面临数据收集的挑战。虽然这样的数据确实存在于有限的设置中，但一般来说，用于高级推理的数据是稀缺的，难以收集。一条研究路线是让抽象和模块化的层次结构在学习过程中自行浮现，但如何将这些方法扩展到更普遍和现实的环境中仍然是一个悬而未决的问题。

除了这些挑战之外，还有许多未决问题，这些问题对其他章节讨论的主题也至关重要。什么是可靠推理的好架构？我们如何从理论上理解和解释这些模型？我们能否训练出可以推广到域外问题的鲁棒推理模型？我们相信，对这些前沿的基础模型的研究可以极大地扩大它们对推理领域的影响。