深入理解推理语言模型（RLM）

大语言模型从通用走向推理，万字长文解析推理语言模型，建议收藏后食用。

本文基于苏黎世联邦理工学院的论文《Reasoning Language Models: A Blueprint》进行整理，你将会了解到：

1、RLM的演进与基础：RLM融合LLM的知识广度、RL的探索深度和高性能计算（HPC）的支持，实现从直觉式预测到系统化问题解决的跃迁。

2、RLM的基本流程：RLM架构由推理、训练和数据生成三大流程构成，其中推理过程通过树状结构和蒙特卡洛树搜索（MCTS）系统化探索解决方案。

3、RLM的推理模型组件：RLM的推理模型设计包括了推理方案、算子、模型、训练范式、训练数据范围和管线等组件。

4、如何设计RLM模型：构建RLM，需定义推理方案（结构与策略）、选择算子并确定模型训练细节，以适配特定任务需求。

5、有效的RLM构建经验：基于当前的实践，构建RLM的有效经验包括基于过程的评估、两阶段训练（SFT+RL）、高质量训练数据的使用，以及谨慎运用LLM自我批判。

一、推理语言模型（RLM）的演进与基础

1、推理模型的基础

推理语言模型（RLM）的进展主要是融合了三大技术进步：

(1)诸如GPT-4等LLM的进步；

(2)诸如AlphaZero等强化学习（RL）设计；

(3)高性能计算（HPC）资源。

这些要素共同塑造了一种能够高效执行“系统2思维”的模型，融合了显式推理和新颖问题解决能力，这与“系统1思维”那种直觉式、快速且自动化的启发式形成鲜明对比。

接下来我们将简要解释下这三个要素的基本概念。

a. 大型语言模型（LLMs）

例如GPT-4o，是基于海量文本数据训练的人工智能系统。这种训练赋予了它们丰富的世界知识，并使它们能够流畅地理解和生成自然语言，使其在处理各类语言相关任务时表现出色。

然而，大型语言模型的推理能力更倾向于直觉式的关联预测，这与人类大脑的“系统1思维”模式相似。

它们主要依赖统计模式来预测序列中下一个可能的词语，而非通过严谨的逻辑推演来解决问题。因此，在需要深度分析和复杂推理的场景中，大型语言模型的能力就显得有所欠缺。

b. 强化学习（RL）

作为一种通过试错学习最优策略的框架，在某些领域展现出卓越的能力，例如AlphaZero在棋类游戏中就表现出了超越人类的水平。它能够从零开始，通过自我对弈逐步掌握高超的策略，甚至发现人类专家未曾预料到的创新解法。

然而，强化学习的不足之处在于，它通常缺乏广泛的现实世界知识，因此在直接处理那些需要丰富背景信息才能理解的多维度任务时，会显得力不从心。

c. 高性能计算（HPC）

支撑大型语言模型和强化学习发展的关键基石。随着传统摩尔定律的增长逐渐放缓，高性能计算通过并行计算、异构架构（如GPU和TPU）以及数据并行、模型并行等技术，突破了算力瓶颈，使得训练和部署大规模模型成为现实。

因此，如果能够结合大型语言模型的知识广度和强化学习的探索深度，并依托高性能计算提供的强大算力支持，我们就有望构建出兼具广博知识和卓越推理能力的AI系统，从而更有效地解决复杂的现实问题。

这种融合将使人工智能系统从依赖内插法、生成与训练数据相似回复的传统大型语言模型（LLM），进化为能够通过外推法探索未知领域、主动解决问题的推理语言模型（RLM），实现从模式补全到主动问题解决的飞跃。

2、隐式推理与显式推理

为了更深入地理解推理语言模型（RLM）的工作机制，我们可以根据其推理过程的实现方式，将其进一步划分为隐式推理语言模型和显式推理语言模型两大类别。这两种模型在推理的透明度、灵活性以及问题解决能力等方面存在显著差异。

a. 隐式推理模型

这类模型的一个核心特点，就是将推理结构完全融入到了模型自身的权重之中。我们可以将这类模型想象成一个“黑盒子”，例如QwQ模型就是其中一个代表。它们的推理过程是内嵌于模型内部的，对于外部观察者而言，其运作机制是不可见的，也难以人为控制。

尽管如此，隐式推理模型相比于普通的LLM，通常展现出更强的推理能力。

然而，值得注意的是，它们的推理过程缺乏透明度，并且很大程度上依赖于训练阶段所学习到的数据模式，这在一定程度上限制了其灵活性和可解释性。

b. 显式推理模型

与隐式推理模型截然不同的是显式推理模型。这类模型采取了一种更为开放和可控的策略：它们引入了独立于模型核心权重的显式推理机制。

在众多显式推理模型中，LLaMA-Berry、Marco-o1以及OpenAI的o3（可能包括）等模型是典型的代表。

这些模型的一个共同特征是，它们巧妙地融合了例如显式蒙特卡洛树搜索（MCTS）与强化学习等机制来进行决策。

这种显式的结构赋予了模型独特的优势：它能够迭代地进行模拟、评估和优化潜在的解决方案，从而有效地促进创新性的问题解决和更强大的外推能力。

更重要的是，通过将推理过程从那些编码在权重中的静态知识中解耦出来，显式推理模型在执行推理任务时，展现出更高的灵活性和可解释性，这为我们理解和改进模型行为提供了可能。

最后，还需要补充说明一点，虽然显式推理赋予了模型诸多优势，但有趣的是，显式推理过程本身可以通过训练被模型逐渐内化，并最终转化为隐式推理，这暗示着两种推理方式之间可能存在着某种潜在的联系与转化。

了解了推理语言模型的基础概念与推理机制后，接下来我们将深入探讨其基本架构、核心流程与关键概念，从而更全面地认识RLM的运作方式。我们将从“是什么”转向“如何做”，揭示RLM实现推理能力的系统性设计。

二、RLM的基本架构、流程和概念

下图从三个层级展示了RLM架构的细节。总体而言（左上部分），完整的RLM架构由三大主要流程构成：推理(Inference)、训练(Training)和数据生成(DataGeneration)。

推理流程负责响应用户的请求，并利用训练流程所提供的模型（例如，价值模型或策略模型）进行工作。数据生成流程在内部设计上与推理流程互为镜像；其主要区别在于，数据生成流程独立于用户请求而运行，其目的是生成数据，用于模型的持续再训练。

因此，训练流程与来自不同领域的数据生成流程相结合，赋予了RLM自学习的能力，这与AlphaZero的自对弈设置有异曲同工之妙。

1、推理

推理过程从用户提供的输入提示词开始，这一提示词通常描述了RLM需要解决的具体问题或待回答的疑问。输入提示作为推理过程的根节点，由此展开推理结构的构建。

这一结构旨在有序地组织和引导RLM的推理过程，并通常呈现为树状形式。树的根节点对应用户的初始输入，后续生成的节点则用于探索搜索空间，即所有可能的推理路径或潜在解决方案的领域。推理结构的核心目标在于系统性地寻找潜在解决方案，通过逐步完善和拓展推理路径，最终得出最优或令人满意的答案。

在搜索空间中，每一个独立点在推理结构中表现为一个节点，对应一个推理步骤。推理步骤是一个连贯且自洽的思想单元，由一系列词元（tokens）组成。

它通过探索问题的新分支或深化已有进展，推动解决方案的演进。这些推理步骤是构成整个推理过程的基本组成部分。

推理结构的扩展由蒙特卡洛树搜索（MCTS）主导，其设计灵感源自AlphaZero，旨在高效且有针对性地探索有前景的路径。

MCTS依赖策略模型和价值模型的辅助。策略模型在每个节点生成新的推理步骤，预测最有可能的下一步，以扩展推理过程；价值模型则评估从某节点出发的推理路径的质量，引导系统优先探索最有希望的方向。此外，在某些情况下，奖励模型会被用来评估单个节点及其推理步骤的优劣。

搜索和推理过程将持续迭代，直至达到终止步骤。终止步骤标志着一条推理链的结束，这条推理链形成了针对用户问题的最终答案。在推理树中，它作为叶节点，宣告特定推理路径的终结。

这一架构提供了一个统一的框架，能够灵活适应各种推理任务。无论是细粒度的推理步骤（例如单个词元序列），还是粗粒度的推理步骤（例如将完整推理链视为单一节点），该架构均可无缝适配。

通过明确构建搜索空间，并利用策略模型和价值模型引导探索方向，RLM最终实现了在直觉式模式识别与审慎问题解决之间架起桥梁的推理能力。

2、训练

训练的具体细节取决于所训练的模型类型，例如价值模型、策略模型或奖励模型等。

一般来说，我们通常采用微调的方式来训练诸如Llama这样的预训练模型。具体做法是，首先利用监督数据进行训练，这些数据往往来源于已有的数据集，比如PRM800K。这些数据集为监督训练流程提供了必要的数据支持，用于训练蓝图中所涉及的部分或全部模型。

在RLM（强化学习模型）的整体训练框架中，除了监督训练之外，另一个重要组成部分是无监督（自学习）训练流程。在这一流程中，训练数据是持续生成的，并被用于模型的迭代优化。这些数据可以通过以下两种方式获取：

从推理流程中收集：前提是实施了严格的质量控制，以确保数据可靠性。
从专门设计的合成数据生成流程中获取：这种流程在设计上与推理流程相互镜像，具有对称性。

为了收集这些数据，我们需要针对特定的输入任务运行相应的RLM流程，并记录其结果。根据数据收集的精细程度，所得数据可能包含不同的标签类型，例如：

基于结果的标签：仅记录任务的最终输出。
基于过程的标签：记录任务解决过程中的关键步骤。
基于轨迹的标签：这是我们蓝图中提出的一种变体，它是对基于过程的标签的扩展，进一步包含了任务解决过程中所使用的算子（即操作或方法）信息。

有收集到的数据都会被存储到回放缓冲区中，并在无监督训练方案中加以利用。这些数据不仅支持当前的模型训练，还可能为未来的隐式RLM模型提供基础。

3、其他RLM架构

上述描述的训练设计方案适用于许多RLM架构。然而，RLM领域仍存在多种其他的架构变体，其中一些与我们提出的框架并不完全一致。

例如，在某些RLM设计中，蒙特卡洛树搜索（MCTS）中的单个节点可以代表一个完整的推理结构，比如一条完整的推理步骤链。而其他一些架构则引入了更为创新的范式，其中一种被称为“旅程学习”（JourneyLearning）。

这种范式通过引入转换步骤增加了复杂性。这些转换步骤能够“重塑”搜索或推理结构，将树中的多条路径进行整合，并将其合成为一种全新的形式，作为后续推理迭代的输入。

接下来我们将看到，RLM蓝图如何将之前讨论的推理方案、算子、模型以及训练方法等要素系统地组织起来，为设计和实现各种功能强大的RLM提供理论支撑和实践指导。

三、RLM的组件工具箱

RLM（推理语言模型）的蓝图旨在提供一个组件工具箱，利用这些组件可以构建各种类型的推理语言模型。构成RLM蓝图的核心要素可以归纳为以下几点：

推理方案(ReasoningScheme):这是RLM的骨架，它明确定义了模型进行推理时的结构和策略。
推理结构:例如，可以采用树状结构来组织推理过程。
推理策略:例如，可以使用蒙特卡洛树搜索（MCTS）等策略来指导推理结构的演进。推理策略的作用是指导推理结构如何发展，以便有效地解决给定的任务。

算子(Operators):这是一组可以应用于推理结构的工具，由推理策略来指导使用，目的是逐步演化推理结构，使其在解决任务的过程中不断进步。
模型(Models):这是指算子实现功能时所依赖的各种神经网络模型，以及这些模型的训练方法。例如，前文提到的“策略模型”以及其相应的训练范式都属于此类组件。
管线(Pipelines):管线是操作的详细规范，它协调推理方案与算子之间的互动，以实现特定的目标。这些目标可以是多种多样的，例如模型训练、推理预测或数据生成等。

总的来说，一个完整的RLM可以被定义为以下几个部分有机结合的整体：推理方案、一组算子及相关模型，以及一组管线。它们相互协作，共同构成了一个功能完善的推理语言模型。

1、推理方案

推理方案详细规定了推理步骤的细节及其连接方式，确保模型能够逐步完成问题求解。它不仅描述了如何将推理步骤组织成链状、树状或更为复杂的结构，也阐明了这些结构在求解输入任务时如何动态演化。

a. 推理步骤

推理步骤是推理结构的基本单位，由一系列tokens组成，驱动RLM向解决方案推进。每个步骤的长度可从单个token到完整文本不等，粒度可根据设计需求灵活调节。

在现有方案中，推理步骤通常被视为“连贯且自成一体的思想单元”，例如在数学证明中，一个步骤常对应于一个独立的逻辑论证或演绎。

更粗粒度的推理步骤（如完整的逻辑论证）有助于简化数据准备并提高可解释性；而更细粒度的步骤（如single-token）则能显式纳入模型的不确定性，并整合诸如推测解码或对比解码等高级解码方案。

不过，当需要与搜索算法（如MCTS）结合时，细粒度的推理步骤通常会带来更高的计算需求。

b. 推理结构

推理结构规定了各个步骤如何连接与组织，典型形式包括链状、树状和图状。

链状结构以线性的方式推进，每个步骤都建立在前一个步骤的基础上。这在基于思维链(CoT)的模型中十分常见。
树状结构则在每个节点产生分支，形成决策树，常用于基于MCTS的框架，可通过同时探索多个潜在路径来寻找最佳解，但复杂度与成本也相应增加。
图状结构允许推理步骤间存在任意依赖关系，支持基于图的推理，例如思维图(GoT)。进一步的推广形式包括嵌套结构，例如在LlaMa-Berry中，一个树状结构节点本身可包含一个CoT链，用于多步骤任务的分层组织。研究者也可能采用超图或模体(motif)等更高阶结构，以适应更复杂的推理场景。

c. 推理策略

推理策略决定了推理结构如何演变，以及如何将新的推理步骤整合进已有结构。常见示例包括：

MCTS：通过在搜索树中模拟多条路径并依靠评分函数选择最佳分支，平衡探索与利用。
束搜索(BeamSearch)：在每个步骤保留固定数量的排名靠前候选，用于生成token序列，也可扩展到推理步骤的选择上。
集成方法(EnsembleMethods)：聚合多个独立的推理策略以提高鲁棒性和准确性，例如Best-of-N生成多条推理路径后选取最佳解，或树集成（森林，Forest）在多棵不连通的树之间并行搜索并最终汇聚。

需要注意的是，应将推理策略与解码策略区分开来。解码策略（如贪婪搜索）负责在单个推理步骤内生成具体tokens，而推理策略则着眼于在较高层次上如何衔接和扩展这些步骤。

2、算子

在明确了推理策略的整体框架后，需要一系列算子来对推理结构进行操作，以推进或优化推理过程。本文给出的算子主要分为以下几类：结构算子、遍历算子、更新算子和评估算子。

a. 结构算子

结构算子通过对推理结构进行修改来添加或精炼推理步骤，常见类型如下：

生成(Generate)：向推理结构中添加新的或多个推理步骤。在MCTS中，“生成”算子通常由策略模型实现；在其他策略（如CoT或束搜索）中则可能进行线性或并行的步骤追加。
精炼(Refine)：对现有步骤进行改进，如消除歧义、纠正错误或增强清晰度，并生成改进后的版本。可借助自我批判、摘要、改述等机制来提高步骤的准确性与连贯性。
聚合(Aggregate)：将多个推理步骤、路径或结构合并为单个后续步骤，整合信息或加强连贯性。常见于集成方法和思维图中。
剪枝(Prune)：移除推理结构中被判定为次优或不相关的节点，以降低token成本并提升效率。
重构(Restructure)：对推理结构进行更灵活的变换，例如将树状结构重新组织为线性链，以便在统一上下文下整合来自不同分支的洞见。

在应用结构算子时，生成结果的多样性尤为关键，可通过策略模型温度、多样束搜索等途径引导更多样化的输出。在MCTS中，“探索”和“利用”同样可以通过树置信上限(UCT)等公式调整，影响生成的新分支数量。

b. 遍历算子

遍历算子决定了在已有推理结构中如何进行导航：

选择(Select)：基于启发式评分或搜索策略（如PUCT、UCT）选出最具潜力的候选步骤进行进一步探索或精炼。
回溯(Backtrack)：显式返回到先前的推理步骤并沿其他路径继续推理，用于错误纠正、假设修订或发散思考。

c. 更新算子

更新算子在不改变推理结构整体形状的情况下，沿现有的步骤或节点进行信息回传或内容增强。例如，MCTS中的反向传播会沿着展开的分支回传评分，思维图则可能对节点内容进行多次增强，以迭代升级推理质量。

d. 评估算子

评估算子会对推理结构的部分内容输出一个数值或指标，而不修改结构本身。典型场景包括：

在具备明确答案的任务中，对终止状态进行正确性或完整性评估。

针对非终止步骤进行启发式或基于价值模型的评估，以估计某一步骤对最终正确解的潜在贡献。
使用价值估计器或奖励模型，从正确性和对整体解的进展程度两方面衡量推理步骤价值。

3、Test-TimeCompute

近年来，大模型研究逐渐由一味增大模型规模转向在推理阶段灵活增加计算量（Test-TimeCompute,TTC），类似于人类在遇到更困难的问题时会投入更多思考。研究表明，与盲目扩展模型尺寸相比，基于问题复杂度自适应分配推理资源可显著提高效率，甚至让较小规模的模型在某些场景下超过大模型。

与此同时，增加测试时计算量也带来了新的挑战，包括：

资源分配：如何确定最佳的计算预算以平衡成本与性能。
动态伸缩：在推理过程中实时评估问题难度并决定投入的计算量。
硬件影响：需要针对更灵活的推理策略在硬件层面进行适配。

在此蓝图框架下，实现测试时计算量可通过构建以下算子实现：

生成(Generate)算子：在面对更复杂的问题时，动态生成更多候选推理步骤以扩大搜索空间。
精炼(Refine)算子：对困难问题可多次迭代地提升已有步骤质量；简单问题则只需少量精炼。
遍历算子(Traversal)：如“选择”算子可并行保留多个潜在优质路径，以在复杂任务中扩大搜索树的范围与深度。
聚合(Aggregate)算子：针对扩展后的路径集合进行评价与整合，最终保留最优分支，从而兼顾准确性和效率。

4、模型

在RLM中，模型主要执行价值评估（价值模型）与推理步骤生成（策略模型）等功能。每种模型都需要相应的训练范式来进行优化，例如明确损失函数、数据标注方式及其他关键的训练细节。

为满足复杂推理需求，研究者从AlphaZero等早期成果出发，陆续探索了多样化的训练方案。常见做法包括：

监督式微调(SFT)：利用标注了q值的推理序列进行训练。
拒绝抽样：按照质量标准过滤模型生成结果。
强化学习(RL)及其变体：如PPO、DPO、RPO等，以交互式方式优化推理策略。
自学习机制：模型通过生成并评估自身推理序列来不断迭代，模拟对抗或协作推理场景。

5、训练数据范围

针对RLM的训练数据，可根据对推理结构的捕捉程度分为基于结果的监督（OBS）与基于过程的监督（PBS）。

OBS（Outcome-BasedSupervision）只提供输入与相应的最终输出（正确或不正确），适合大规模数据收集，但对中间推理步骤的学习支持较弱。
PBS（Process-BasedSupervision）则会在训练样本中包含完整的中间推理步骤及其质量标签，能帮助模型学到更细致的推理模式，但数据生成或标注难度相对更高。

在此基础上，基于轨迹的监督（Trace-BasedSupervision,TBS）进一步记录了算子应用序列（包括遍历与更新操作），提供更为详尽的推理过程信息。这有助于模型内化对推理结构操作的细节，从而在隐式RLM中更好地重现和利用显式推理。

6、管线

管线是对推理方案与算子、模型等组件如何交互的详细规范，用于实现特定的推理或训练目标。

一般而言，一个RLM通常包含一条执行推理的管线，以及一条用于训练各类模型的管线；在某些情况下，可能还存在专门用于合成数据生成的管线，或用于训练隐式RLM的管线。通过妥善设计与协调各条管线，便能在推理和训练任务中最大程度发挥系统整体的性能与效率。

接下来的部分，我们将深入探讨“如何使用蓝图”，详细阐述构建RLM的具体步骤和关键决策。

四、如何构建推理语言模型

要有效使用RLM蓝图构建推理语言模型，关键步骤包括：

细致定义推理方案，明确推理结构、粒度、策略及细节，为定制化的RLM奠定基石；
精心设计算子集合，在核心算子基础上灵活扩展，并细化算子实现方式，确保推理过程的有效性和灵活性；
周密规划模型训练细节，涵盖应用领域、模型架构、数据准备和训练范式等关键要素，最终训练出高性能的RLM模型。

1、定义推理方案

使用蓝图的第一步是定义推理方案，它如同为你构建的RLM奠定结构与策略的基石。

首先，你需要选择合适的推理结构。链式结构在所有结构中，就token成本而言通常是最经济的，尤其在上下文学习(ICL)方面表现突出。

树状结构尽管成本较高，但其丰富的分支能有效增强探索性推理的能力。

图状结构虽然成本略低于树状结构，但在实现上会引入额外的复杂性。然而，由于其高度的灵活性，图状结构有可能显著提升推理的准确性。选择推理结构之后，你需要确定推理步骤的粒度。

粗粒度步骤，例如以“想法”或“句子”为单位的步骤，因其简洁性和易于扩展的特点而被广泛采用。

然而，基于令牌的粒度则在更细致的令牌级别上运行，这为实现更高的精度和潜在的准确性提升提供了可能。尽管这种方法前景广阔，但它对计算资源的需求也更高，并且需要更精细的设计。

这一步关于粒度的选择，实际上定义了你的行动空间(可执行的操作)和状态空间(推理结构的配置状态)。

接下来，还需要确定推理策略，用以指导推理结构的演进方向。

蒙特卡洛树搜索(MCTS)算法，结合了策略模型与价值模型的变体，因其在探索与利用之间能取得较好的平衡，仍然是目前应用最为广泛的策略。

然而，诸如推理结构集成等尚未被充分研究的替代策略，可能蕴含着尚未被发掘的潜力。

因此，在策略选择上，可以考虑MCTS，也可以探索其他前沿方法。

最后，也是至关重要的一点，是明确你所选策略的具体细节。这包括诸如探索系数、解码策略、评分函数和步骤评估方法等关键参数。这些参数的选择将显著影响模型的推理动态、可扩展性以及最终的有效性。

总而言之，定义推理方案的每个环节，都是为了根据你的特定应用需求，量身定制RLM，打下坚实的基础。

2、定义算子

在定义了推理方案之后，下一步是指定算子的集合，这些算子将直接控制推理过程的运作。

对于基于MCTS的设计而言，最直接有效的方法是实现以下核心算子：生成(在MCTS中通常称为“扩展”)、选择和反向传播。这些基本算子足以应对许多应用场景，为构建推理过程提供了清晰而直接的框架。

除了这些基础算子之外，你还可以考虑是否需要引入一些非常规但可能非常有用的算子，例如回溯(Backtrack)算子。显式地包含回溯算子，能够帮助你更清晰地追踪搜索树内的推理进展，从而有可能更方便地回溯并改进早期的推理步骤。

此外，这种方法还通过生成更丰富和结构化的数据，为诸如基于轨迹的监督学习等高级训练方案创造了有利条件。因此，在你的工具箱中加入回溯算子以及其他可能的算子是值得认真考虑的。

此外，你还需要明确每个算子的具体实现细节。例如，你需要决定哪些算子将通过神经模型来实现(例如，使用策略模型来指导“选择”算子，或使用价值模型来进行“反向传播”算子)，哪些算子将依赖于非神经方法来实现。

这种选择会直接影响到整个系统的计算复杂度和灵活性。因此，务必将这些关于算子实现的决策，与你之前确定的推理方案和性能目标对齐，确保整体设计的一致性和高效性。

3、确定训练细节

在完成了推理方案和算子的定义之后，接下来的阶段是详细规划模型的训练细节。

对于基于MCTS的设计，一种典型的做法是采用策略模型来实现“生成(扩展)”，并使用价值模型来进行模拟过程。如有必要，为了提高奖励信号的精度，你还可以训练一个单独的模型来更精确地计算单个节点的奖励值。

首先，需要明确应用或训练领域，以便解决模型的泛化能力问题。这一步骤至关重要，它确保你的模型在具有代表性的数据上进行训练，从而能够更好地应对你期望模型处理的各种任务。

接下来，你需要定义模型，这包括模型的具体架构以及合适的基模型的选择。

在模型设计时，你需要仔细考虑模型的架构如何与你的推理结构和总体目标相匹配。

数据准备是训练的关键环节。你需要为策略模型和价值模型收集训练数据。

对于策略模型，可以考虑使用数据生成管道来自动生成数据，或者采用诸如CoT(Chain-of-Thought,思维链)提示等方案，并在数据中包含特殊的“步骤结束”令牌，以确保清晰的数据分割。

对于价值模型，则可以通过MCTS的完整模拟过程来生成数据。这种方法能够提供关于推理路径和结果的丰富、结构化信息，为价值模型的训练提供有力的支持。

在模型训练的初始阶段，可以根据需要对模型进行微调(Fine-tuning)。

如果你采用了粗粒度的推理步骤，可以对策略模型执行监督式微调(SFT)，以教会模型如何逐步进行推理。类似地，可以对价值模型应用SFT，将其初始化为一个相对可靠的评估器。

为了进一步提升模型性能，你可以使用初始化后的模型运行MCTS，收集更多高质量的数据。

为了提升训练效率，你可以对收集到的数据进行筛选，例如，只保留高质量的推理路径(即，最终到达终端状态的路径)或者强信号数据(即，具有高绝对优势的数据)用于后续的训练。

最后，通过额外的SFT轮次，或者使用强化学习方法(例如，近端策略优化(PPO)算法)，对策略模型和价值模型进行最终的训练。这样做能够确保模型不仅针对准确性进行了优化，还能在复杂推理任务中实现所需的效率和鲁棒性。

通过精细地确定训练细节，你可以最大限度地发挥RLM的潜力，使其在目标应用中表现出色。

五、有效的RLM构建经验

文章认为，在构建有效的RLM时，有几点经验很关键。

1、评估方法

研究表明，基于过程的评估（Process-BasedEvaluation）——也就是逐一检查推理步骤及其相互关系——比单纯依赖结果的奖励模型（Outcome-BasedRewardModels,ORMs）更可靠。

这种评估能提供更丰富的反馈信号，帮助模型优化推理路径，提升整体准确性。每个中间步骤都被确保对最终结果有积极贡献，所以推理更稳健，模型也能更好地适应不同任务。

2、训练策略

两阶段训练是个很有效的办法：先通过监督式微调（SupervisedFine-Tuning,SFT）建立推理基础，再用强化学习（ReinforcementLearning,RL）进一步精进。这种分阶段训练还能降低不稳定性，并使得每个阶段都能专注特定目标。

3、更高质量的训练数据分布

PRIME研究显示，在精心设计的token序列（比如eois令牌方法）上训练，能避免性能下滑。在rStar-Math这样的任务中，高质量数据训练的模型收敛更快，推理输出也更优质。也就是说，好的数据能让模型先把基础推理模式学扎实，再应对更复杂的挑战。

4、谨慎使用提示（Prompting）让大语言模型自我批判和评估

研究指出，仅靠提示驱动模型改进推理，缺乏外部指导时，往往不稳定，自我纠正的效果也不可靠。