揭开OpenAI草莓模型神秘面纱——重塑大语言模型的逻辑能力

OpenAI即将发布“草莓”模型来源：medium

据报道，OpenAI计划在未来两周内发布其新的AI模型Strawberry（草莓）。据 Seeking Alpha周二（9 月 10 日）援引The Information 的一篇付费文章报道，新模型可以解决从未遇到过的数学问题，并且可以在回答之前「思考」问题。

让模型具备「思考」能力一直是一个潜在的瓶颈，据悉草莓模型的诞生是为了应对现有人工智能技术的局限性，并推动大语言模型的理解力和问题解决能力迈上新的台阶。那么在豪言壮志之外，草莓模型究竟运用了哪些核心技术？有可能会展现出哪些前所未有的能力？

本文对草莓模型的来龙去脉和技术内核进行了梳理，以飨读者。

编辑：李梦佳

草莓模型的项目背景源于OpenAI对现有大语言模型不足之处的深刻认识。在过去，尽管大语言模型在许多场景中表现出色，但在处理复杂且具有挑战性的问题时，效果却往往不尽人意。为了突破这一瓶颈，OpenAI决定开发一款新模型，以提升人工智能的自我训练和进化能力，使其能够应对前所未见的问题，并不断提升自身的智能水平。

这一切始于几年前，OpenAI的一群顶尖科学家和工程师们聚在一起，探讨如何让大语言模型在复杂任务中的表现更上一层楼。经过无数次的讨论和实验，他们意识到仅靠传统的大数据训练无法解决所有问题。于是，草莓项目应运而生。

按照十几位人工智能研究人员的说法，草莓项目的目标是实现目前大语言模型尚未具备的功能。这也是为什么OpenAI在现阶段并不打算公开关于「草莓」的详细资料的原因之一。当被问及「草莓」的细节时，OpenAI的一位发言人只是绕了个弯表示：“我们希望AI大模型能像人类那样看待和理解这个世界。不断研究新的AI能力是业界的普遍做法，毕竟我们都相信AI的推理能力会随着时间的推移而不断提高。”

尽管如此，草莓项目的工作原理在OpenAI内部依然是严格保密的，外界对于草莓模型的具体发布时间也仍然一无所知。然而，这份神秘感反而增加了人们对Orion和草莓项目的期待。不过目前普遍的共识认为，草莓模型的核心技术之一是自学推理器（STaR）技术，这使得该项目具备了独特的自我训练和进化能力。通过这种技术，草莓项目不仅仅是为了提高人工智能的性能，更是为了让人工智能在各个领域展现出更强大和独特的能力，从而推动整个人工智能领域迈向新的境界。

缓解「幻觉」的两条路径：外部检索和内部增强

现有的大语言模型（如GPT-4）是通过大量文本数据训练而成的，能够生成高度逼真的自然语言文本。然而，这些模型有时会产生一种被称为「幻觉」的现象，即生成的内容虽然语法正确、逻辑连贯，但实际上是不准确或完全虚构的。幻觉的产生源于模型的工作原理：大语言模型通过预测下一个词来生成文本，而不是基于对事实的理解或知识的验证。

因此，它们可能会在缺乏足够背景信息或训练数据的情况下，生成看似合理但实际上错误的信息。幻觉不仅限于事实错误，还可能包括虚构的引文、错误的历史事件或不正确的科学数据。这种现象在实际应用中可能带来风险，例如在医学、法律或新闻领域，错误的信息可能导致严重的后果。因此，理解和识别大语言模型的幻觉现象，并采取措施加以预防和纠正，是确保这些模型安全有效使用的重要方面。

图2：大语言模型幻觉示例

近年来，各大公司和研究机构都在缓解大语言模型幻觉方面做出了很多的努力，主要包含两条研究主线：即从增强外部检索能力和内部推理能力两个角度入手。具体来说，许多以外部搜索能力赋能大模型的公司均本身具有较强的搜索引擎研究和应用基础。

例如微软将Bing搜索引擎与OpenAI的语言模型集成，使其能够实时访问互联网信息，这种集成允许模型在回答问题之前进行实时搜索，从而确保生成的信息是最新和准确的。这减少了模型产生幻觉的风险，特别是在涉及最新事件或需要精确数据的情况下。谷歌则是通过实时访问Google搜索的数据，使其大语言模型能够在生成回答之前进行搜索验证。而Amazon在其Alexa语音助手中集成了广泛的知识库和文档，使其能够在生成回答时进行参考和验证。这种集成使Alexa在回答用户问题时能够基于权威数据源，减少因信息不准确而产生的幻觉。

外部的检索功能只能补齐大语言模型知识上的缺失，但大语言模型是否能使用好这些知识，甚至完成一些复杂的推理，这取决于大模型的内部能力。现在的大模型之所以经常出现「幻觉」，正是因为它就好像一个读过了很多本书，但智力不到10岁的孩子，因此增强大语言模型本身的逻辑能力、推理能力，是让大模型真正能够帮助我们解决更多问题，让我们能够在各类工作生活中把任务交给大模型的重要途径。ChatGPT的横空出世，正是因为OpenAI使用强化学习与人类反馈（RLHF）来训练其模型，包括在回答中加入人类的反馈意见。

通过这种方法，模型能够不断改进其生成内容的准确性和逻辑性，减少幻觉现象。在此之前，Google在其语言模型中引入多任务学习和逻辑推理训练，训练模型处理多种任务，如问答、翻译和摘要。这种方法使模型能够更好地理解和处理复杂的逻辑关系和因果关系，从而减少幻觉的产生。例如，Google的BERT和T5模型在多任务训练中表现出更强的推理能力。IBM Watson在医疗、法律等专业领域中，结合领域知识库和专家系统，进行专门的推理训练。通过这种方法，Watson能够在生成回答时基于专业知识进行推理和验证，减少幻觉现象。例如，在医疗领域，Watson会参考大量的医学文献和案例，确保诊断建议的准确性。

然而，当前大语言模型的逻辑能力和推理能力仍然远远无法满足实际应用的要求，以至于大语言模型只能作为大家工作的一种简单的辅助方式，作为一种参考，而无法直接代替人类进行工作。例如，在法律领域，律师需要仔细分析案件，运用法律条款和过去的判例进行复杂的推理和辩论。这些任务需要高度的专业知识和逻辑推理能力，而大语言模型目前还无法胜任此类工作。

此外，在医学领域，医生需要根据病人的症状、病史以及各种诊断结果，综合判断病情并制定治疗方案。这不仅需要深厚的医学知识，还需要敏锐的洞察力和丰富的临床经验。目前的大语言模型只能提供一些基础的医学信息和建议，无法替代医生做出关键的临床决策。在科研领域，科学家们需要设计实验、分析数据、提出假设并进行推理，所有这些都需要高度的创造力和逻辑思维能力。大语言模型可以帮助查找文献、提供信息，但在真正的科研过程中，它们的作用还是非常有限的。

因此在这个领域的从业者来说，仍然有很长的路要走。而草莓模型正是在这样的背景下应运而生，它大幅度提升了模型的逻辑推理能力。与传统的人工智能模型相比，草莓模型不仅能够更准确地理解复杂的问题，还可以通过自身的学习和进化，不断优化其解决问题的策略。接下来我们就来聊聊草莓模型是如何实现逻辑能力的跃升的。

Quiet-STaR：草莓模型提升逻辑推理能力的钥匙

尽管OpenAI从未正式公开过草莓模型的技术细节，但普遍认为该模型的开发主要依赖于斯坦福大学提出的一种自学推理方法（Self-Taught Reasoner，简称STaR）。最近，斯坦福团队在STaR的基础上又提出了一种新的推理方式，名为Quiet-STaR（安静的自学推理者）。这个名称准确地反映了这项技术的核心思想：使AI能够在不显式表达的情况下进行自主推理。

Quiet-STaR的运行分为三个主要步骤：

1.并行生成推理：在输入序列中，并行处理所有的输入token，从而生成多个推理候选。插入学习到的<|startofthought|>和<|endofthought|>token来token每个推理的开始和结束。

2.基础和推理后预测相结合：从每个推理后的隐藏状态输出中，训练一个“混合头”——一个浅层的多层感知器，产生一个权重来决定推理后下一个token预测的逻辑值在多大程度上应该被纳入与基础语言模型预测的逻辑值相比。由于引入了推理，这种方法减轻了微调早期的分布偏移。

3.优化推理生成：优化推理生成参数（开始/结束token和语言模型权重），以增加使未来文本更可能的推理的概率，使用REINFORCE算法为推理提供学习信号，基于其对未来token预测的影响来调整推理。为了减少方差，应用教师强制技巧，将预测不仅是思考后的token而且是后续token的概率包含在损失中。

图3：Quiet-STaR工作流程

具体来说，并行生成推理过程如下：在Quiet-STaR中，一个关键挑战是如何在输入序列的每个token位置高效地生成推理。简单地说，这需要对每个token进行单独的前向传递，这对于长序列来说在计算上是不可行的。

作者通过以下观察实现高度并行生成：语言模型的推理传递会为所有输入token生成下一个token的概率分布。自然地，这使得模型从每个输入token中采样一个下一个token。如果从每个token生成了一个后继token，则无法简单地继续原始序列。因为模型预测的每个后继token本身对于前缀序列来说是合理的下一个token，但这些token的列表是这些前缀的「反事实」续集。Quiet-STaR认为可以利用这些续集为每个观察到的token生成隐藏的思考。为了高效实现这一点，Quiet-STaR缓存每次前向传递，并将对角注意力掩码连接到之前的注意力掩码：每个生成的token现在关注所有用于生成它的token。

图4：并行生成推理过程图解

而针对基础和推理后预测相结合，在使用预训练模型的初始阶段，思考会偏离分布，因此会影响语言建模的性能。为了平滑过渡到思考模式，作者引入了一个在有无思考的语言模型预测之间的学习插值。具体来说，Quiet-STaR使用一个三层的MLP，并采用ReLU激活函数。该MLP接收一个两倍于语言模型隐藏状态大小的向量，并输出一个标量。这个标量用于对有思考和无思考的语言模型头部的逻辑值进行加权，从而对给定的token进行预测。

在优化过程中，<|startofthought|>和<|endofthought|>token作为学习到的元token，用于控制模型的推理生成。优化这些token的表示，尤其是<|startofthought|>token的表示，是至关重要但具有挑战性的，因为推理token的离散性。Quiet-STaR将开始和结束token的嵌入初始化为对应于破折号的嵌入，这在文本数据中经常出现，用于表示停顿或思考。这利用了语言模型的现有知识。此外，为了使这些嵌入能够更快地优化，Quiet-STaR在更新步骤中对这些嵌入的梯度应用一个超参数权重。从直观上看，开始思考token可以理解为将模型置于「思考模式」，而结束思考token可以理解为告诉模型何时完成思考。

因为Quiet-STaR不期望思考对预测每个token都有效，所以希望模型的奖励更少依赖于思考之后的确切下一个词，而更多依赖于随后的语义内容。这里有两个主要挑战。

首先，与典型的基于变压器的语言建模不同，只有与给定的下一个token预测对应的思考会从该预测中接收梯度——这是Quiet-STaR并行采样策略的结果。大模型可以通过在之前采样的token中添加未来token的损失项来解决这个问题。然而，这会导致语言建模的熵大幅增加，并生成质量较低的文本，因为它会训练语言模型部分忽视其前面的token。

相反，Quiet-STaR使用并行注意力掩码来计算真实下一个token的对数概率，通过假设模型选择了正确的下一个真实token来应用教师强制。这里每个未来token的损失还依赖于一个混合权重，该权重是由思考结束token和之前观察到的token计算得出的。损失中包含的未来token数量是一个超参数。Quiet-STaR应用相同的教师强制技术来插入开始和结束token。

总的来说，草莓模型背后的技术Quiet-STaR通过引入思考模式控制逻辑推理过程，优化元标记表示，并使用混合预测策略来增强大语言模型的逻辑推理能力。它采用并行采样与教师强制的方法，确保训练的有效性和生成文本的高质量，同时通过未来token的损失计算，提升模型对未来语义一致性的关注。这些措施综合提升了模型在处理复杂逻辑推理任务时的表现。

从聊天机器人到推理者：草莓模型的重要一步

在当前人工智能发展的浪潮中，OpenAI提出了一套五个等级的评估体系，用以追踪其在开发超越人类能力的人工智能软件方面的进展。这五个等级涵盖了从目前可用的、能够用对话语言与人互动的人工智能（第1级）到可以完成复杂组织工作的人工智能（第5级）。

具体来说，第一级是聊天机器人，具备对话语言功能的人工智能；第二级是推理者，具备人类水平问题解决能力；第三级是代理者，能够采取行动的系统；第四级是创新者，能够协助发明的人工智能；第五级是组织者，能够完成组织工作的人工智能。其中，草莓项目的核心目标是帮助OpenAI实现第二级AI，即从简单的聊天机器人发展到具备深度推理能力的推理者。

第一级的聊天机器人已经在我们的日常生活中广泛应用。这些系统可以进行基本的对话，回答用户的问题，提供信息，甚至在一定程度上模拟人类的交流行为。它们的工作原理主要依赖于大量的预设规则和模板匹配，通过识别用户输入的关键词和句型结构，给予相应的回应。这种方法虽然在某些场景下表现得相当出色，但它们的局限性也十分明显：缺乏真正的理解能力和逻辑推理能力，无法处理超出预设范围的复杂问题或进行深度的对话互动。

草莓模型通过引入STaR技术，旨在突破这些局限，使AI从简单的对话能力发展到具备人类水平的推理能力。STaR技术的核心在于让模型在每个输入token之后插入一个思考步骤，促使模型生成内部推理。这个过程不仅使模型能够在面对复杂问题时做出合理的推理和判断，还大大提高了模型的自主学习能力。

草莓模型这一突破不仅是技术层面的进步，更预示着AI在实际应用中的广泛拓展和深化。在医疗健康领域，具备推理能力的AI可以显著提高诊断和治疗的效率与准确性。传统的医疗AI系统主要用于辅助诊断，如图像识别中的病灶检测等。然而，具备深度推理能力的AI可以参与到更加复杂的诊断和治疗决策中。例如，它们可以分析患者的全面病史、基因信息、以及最新的医学研究成果，提出个性化的治疗方案。这不仅有助于提高诊疗效果，还能减轻医务人员的工作负担，提升整体医疗服务质量。

在金融服务领域，推理能力的提升将带来更加精准和智能的金融分析与决策支持。金融市场的复杂性和动态性要求分析师和投资者具备高水平的推理能力。具备深度推理能力的AI可以实时分析海量金融数据，识别潜在风险和机会，提供有价值的投资建议。

此外，AI还可以在反欺诈、信用评估、风险管理等方面发挥重要作用，通过复杂数据分析和推理，提前识别和预防金融风险，保护金融体系的稳定性。在法律与合规领域，推理能力的AI可以成为法律从业者的重要助手。传统的法律AI系统主要用于文档管理和法律检索等简单任务，而推理能力的AI可以参与到法律分析和决策过程中。例如，它们可以帮助律师分析复杂的案例，找出类似的法律判例，甚至提出可能的法律策略和解决方案。这不仅提高了法律服务的效率，也增强了法律决策的准确性和公正性。

科学研究与创新领域也将从AI推理能力的提升中受益。具备推理能力的AI可以在科学实验和研究过程中，提出新的假设和实验设计，分析实验数据，甚至协助发现新的科学规律和技术突破。这种AI不仅可以加速科学研究的进程，还能推动跨学科的协作和创新，解决人类面临的重大科学问题。

草莓模型是否能真的达成从聊天机器人到推理者的华丽转变，仍然需要时间来检验，但是放在几年前，聊天机器人也只存在于学术论文的讨论中，而ChatGPT的出现直接改变了大家的认知。如今，ChatGPT不仅能够进行流畅自然的对话，还能在一定程度上理解上下文、回答复杂问题，甚至在创意写作和专业咨询等领域展现出令人印象深刻的能力。

这种从理论到实际应用的飞跃，给了我们足够的信心去相信，草莓模型也有可能实现类似的突破。随着技术的不断发展和优化，草莓模型将逐步克服现有的技术瓶颈，展现出更强大的推理和决策能力。而这种能力的提升，不仅有助于解决更加复杂的问题，也将推动人工智能在更多实际应用场景中的普及。

结语

总的来说，草莓模型通过引入自学推理器（STaR）技术，显著提升了人工智能的逻辑推理能力，使AI从简单的对话能力发展到具备人类水平的推理能力。这一技术进步，不仅为OpenAI实现第二级AI的目标奠定了坚实基础，也为人工智能在各个领域中的应用和发展提供了广阔的前景。

展望未来，尽管草莓模型尚未问世，但是大语言模型的日新月异的发展，我们有理由期待，人工智能将在更多复杂任务中展现出超越人类的智慧和能力。人工智能将不仅是人类的工具，更将成为人类的重要伙伴，共同解决全球面临的各种挑战。

无论是应对气候变化、探索宇宙奥秘，还是推动社会进步、提升人类福祉，人工智能都将发挥不可替代的作用。草莓模型的进步，也为我们描绘了一幅智能化未来的美好蓝图，激励着我们不断探索和创新，推动人工智能技术向更高层次发展。

- 推荐阅读 -

‍‍