25年2月来自香港科技大学广州分校的论文“Bag of Tricks for Inference-time Computation of LLM Reasoning”。
随着大语言模型 (LLM) 的进步,解决复杂的推理任务越来越受到关注。推理-时间计算方法(例如 Best-of-N、波束搜索等)特别有价值,因为它们可以在不修改模型参数或不需要额外训练的情况下提高推理性能。然而,这些技术面临着实施挑战,大多数现有方法仍处于概念验证阶段,由于其计算复杂性和不同任务中的不同有效性,实际采用有限。
本文研究并评估不同复杂度推理任务中的各种推理-时间计算策略。由于大多数当前方法依赖于提议者-验证者流水线,该流水线首先生成候选解决方案(例如推理解决方案),然后根据奖励信号(例如 RLHF 奖励、过程奖励)选择最佳解决方案,本文研究重点是优化候选解决方案的生成(例如指令提示、温度和 top-p 等超参)和奖励机制(例如自我评估、奖励类型)。通过对各种规模的各种模型(例如 Llama、Qwen 和 Mistral 系列)进行大量实验(超过 20,000 个 A100-80G GPU 小时,超过 1,000 次实验),消融研究表明,以前被忽视的策略可以显著提高性能(例如,调整温度可以将推理任务性能提高高达 5%)。此外,系统地评估八个推理任务中的六种代表性方法,为推理-时间计算建立标准化基准。这些发现为未来的研究奠定更坚实的基础。
大语言模型 (LLM) 已展示出卓越的推理能力,使其能够处理科学、数学和编码等领域日益复杂的任务 (Zhang et al., 2024a; Chen et al., 2021)。虽然规模化模型大小和高质量训练数据集极大地推动这些进步,但研究人员正在积极探索互补方法以进一步提高模型性能。受人类解决问题行为的启发——个人通常会花更多时间思考复杂问题以改善他们的决策——人们越来越有兴趣 (Snell et al., 2024) 利用推理-时间计算(例如,在测试期间利用额外的计算来提高推理任务的性能)来增强 LLM 的推理能力。
虽然推理-时间计算对提高 LLM 的推理性能具有巨大潜力 (Wang et al., 2022),但现有研究显示推理-时间计算的结果好坏参半(例如,有限的自我纠正能力 (Huang et al., 2023))。它在更广泛的推理任务(例如,逻辑推理、代码生成、问答和事实验证)上的有效性仍然有限,大多数研究仅集中在数学问题等领域。此外,推理-时间方法对超参数很敏感,例如温度和 top-p 采样,其中微小的调整可能会导致显着的性能差异(例如,通过调整温度,解决数学问题的能力提高 5%)。这些挑战强调推理-时间技术(例如,指令提示、采样策略、奖励模型)的关键作用,如表所示。尽管最近取得进展,但这些差距表明该领域仍处于起步阶段,许多挑战尚待解决。
使用 LLM 进行推理。LLM 在代码生成、数学问题解决和研究构思等复杂任务中表现出强大的推理能力 (Zhou et al., 2022)。现有增强 LLM 推理能力的方法包括:1) 提示工程 - 激活潜在的多步骤推理能力。例如,思维链 (CoT) (Wei et al., 2022) 指导一步步解决问题,但在很大程度上依赖于高质量的演示进行类比学习。2) 后训练技术 (Chen et al., 2024a;b) - 迭代地丰富训练数据集,提高模型性能。自训练方法 (Chen et al., 2024a) 整理新的高质量示例以增强推理能力,但这些方法需要大量的计算资源。 3)基于搜索的方法(Browne,2012;Feng,2023a;Liu,2023)——使用搜索算法在推理-时优化推理路径。例如,思维树(Yao,2024)采用广度优先搜索(BFS)来优化解决方案。这项工作侧重于测试-时间计算,利用推理-时间优化来增强 LLM 推理,而无需额外的训练开销。
LLM 推理的推理-时间计算。事实证明,规模化推理-时间计算比仅仅增加模型参数更有效(Snell,2024)。最近,研究重点是优化推理过程中的推理效率,而不是仅仅规模化训练-时间计算。 Best-of-N(Cobbe,2021a)通过抽样 N 个候选解决方案、使用学习的验证器或奖励模型对其进行评估并选择得分最高的解决方案来增强 LLM 推理能力。同样,MCTS(Tian,2024)通过主动规划和选择更高质量的响应来改进推理。这些进步凸显推理-时间优化对于增强 LLM 推理能力(超越规模化训练计算)至关重要。
LLM 推理基准。LLM 在以零样本方式解决复杂任务方面取得显著进展(Hendrycks,2021;Press,2022;Liu,2024a),将其定位为迈向通用人工智能的关键里程碑。因此,对它们的推理能力进行基准测试已成为一项核心挑战。最近的研究评估各个领域的 LLM 推理,包括数学推理(Hendrycks,2021 年)、代码生成(Chen,2021)和事实问答(Thorne,2018)等等(Liu,2024c;b)。虽然这些基准增强对 LLM 推理的理解,但大多数研究都集中在任务性能而不是推理-时间计算上,因此关键的优化技术尚未得到充分探索。
本文研究重点是候选解决方案生成的策略(例如,指令提示、温度和 top-p 等超参)和奖励机制(例如,自我评估、奖励类型),涵盖更广泛的推理任务,包括逻辑推理、代码生成、事实验证、复杂数学和算术。
给定一个输入上下文 x(例如,数学问题、常识问答等),LLM 旨在自回归地预测下一个 token(Dubey,2024)。
π_θ(·) 是 θ 参数化 LLM,y = (y_1, y_2, · · · , y_n) 是输出序列。对于词汇的数量 M,预测第 t 个 token 的概率由所有 token logit 分数 z 温度为 τ 的 softmax 决定,并结合 top-p(核采样)来控制采样过程的随机性和多样性。
思维链 (CoT) (Wei,2022) 是一种促使 LLM 生成一系列可得出最终答案的推理步骤方法。这些中间步骤表示为 y_1, …, y_n−1,将输入 x 连接到输出 y(为简单起见省略 n),其中 n 表示步骤总数。例如,给定指令 I(例如,“让我们一步一步解决这个问题”)以及演示示例和输入问题 x,最终答案是 y。每个中间思维 y_i 都是得出最终答案推理过程的一部分。
这些想法是从分布 y_i ∼ π_θ (· | I, x, y_<i−1 ) 中依次生成的,最终的输出是从以下样本中采样的:y ∼ π_θ(· | I,x, y_<n−1)。
LLM 的温度 (Hinton, 2015) τ 控制生成输出的随机性水平,从而影响其多样性。不是直接计算 softmax,而是根据温度值对 logits 缩放。
Top-p(Holtzman,2019)通过增加词汇的数量 M 来控制 LLM 输出,因为只有累积概率大于 Top-p 值的 token 才会被考虑。在选择了 token 之后,将会使用减少的词汇量重新计算它们的 softmax。
推理-时间计算方法(Ott,2018)通常遵循包含两个主要步骤的流程:生成候选解决方案(例如,思维链推理候选方案)并根据特定奖励信号(例如,数值奖励、自洽性、过程奖励或二元反馈,如“是”或“否”)选择最佳解决方案。正式地,给定一个问题 x,推理-时间计算方法会抽取 K 个候选解决方案:y^(k) ∼ π_θ(y | I, x, y_<n),其中 k = 1, 2, …, K,其中 y(k) 表示第 k 个候选解决方案。抽样后,使用奖励模型评估每个候选方案以产生奖励信号:r(k) = reward(I, x, y_<n−1, y^(k)),其中奖励模型可以采用多种形式。例如,它可能是一个使用指令 I 评估解决方案的通用 LLM(例如,“让我们验证一步步推理。答案是否正确(是/否)?”)。或者,奖励模型可以经过专门训练以输出 0 到 1 之间的标量值,值越高表示解决方案越好。然后根据奖励信号选择最终解决方案 yˆ。对于数值奖励,选择奖励最高的解决方案:yˆ= argmax/y_k (r_k)。
生成候选解决方案
生成候选解决方案,是 LLM 推理中推理-时间计算的关键步骤,但此过程中固有的随机性,会显著影响多样性。温度和 top-p 等超参以及指令提示等策略在塑造和引导解决方案轨迹方面发挥着至关重要的作用。例如,温度作为 token 生成中的采样策略,在更高值时会增加多样性。因此,本研究重点关注候选解决方案的生成过程,包括指令提示类型、温度和 top-p 采样。
选择最佳解决方案
选择最佳解决方案,也是 LLM 推理的推理-时间计算中的关键步骤。此过程通常涉及推理模型本身的选择(例如,投票或基于提示的选择)或使用外部奖励模型(例如,RLHF、证明关键或过程奖励模型)。一个关键问题是 LLM 能否有效地评估自己的解决方案。然而,自我评估方法往往不够完善,因为 LLM 很难在没有外部指导的情况下纠正错误。此外,奖励模型经常无法区分真正正确的答案和表面上正确的答案,导致绩效评估过高。这一挑战强调对更可靠评估机制的需求。为了解决这些差距,研究选择过程,重点关注自我评估、奖励类型,并研究改进的奖励模型的泛化。
如图所示 LLM 推理的推理-时间计算解码概述。(A)指令提示:包括 IO、思维链 (CoT) 和基于反射的 CoT 提示。(B)推理任务:在八个数据集上评估模型:算术 (GSM8K、GSM-Hard)、复杂数学 (MATH)、逻辑 (PrOntoQA)、代码生成 (HumanEval)、问答 (Bamboogle)、事实验证 (FEVER) 和常识 (HotpotQA)。(C)推理模型:分析不同大小和架构的 LLM(LLaMA、Qwen、Mistral),并通过温度和 top-p 超参评估性能。(D)奖励模型:探索奖励类型,如 RLHF、批评模型和基于过程的模型,以提高推理性能。 (E) 推理-时间计算:研究N-中-最佳采样、步骤-级 N-中-最佳、自洽、蒙特卡洛树搜索 (MCTS) 和自我细化等方法以优化推理。
推理模型。在实验中,评估几种广泛研究的不同大小和配置的 LLM:
1)LLaMA 3.3(Dubey,2024):Meta AI 在 LLaMA 系列中的最新版本,提供 8B 和 70B 参数。它以开源可访问性和强大的基准性能而闻名。
2)Qwen 2.5(Yang,2024):该模型由阿里云开发,提供 7B 和 72B 参数配置,展示多样化的 LLM 架构和训练方法。
3)Mistral 7B Instruct v0.3(Jiang,2023):Mistral AI 的 7B 参数模型,因其效率和性能可与更大的模型相媲美而受到认可。
这些模型表现出不同的推理优势,深入了解不同架构和训练方法的影响。
奖励模型。采用四种类型的奖励模型:
(1)过程奖励(Zheng,2024):逐步评估每个推理步骤。
(2)结果奖励:仅评估最终答案的正确性。
(3)RLHF 奖励(Cai,2024):来自偏好样本(包括人工注释和 AI 生成的)。
(4)证明-紧要奖励:应用于多个基准的正式数学证明。
研究重点关注以下推理任务:
1)算术推理:在 GSM8K(Cobbe,2021b)和 GSM-Hard(Gao,2022)数据集上评估模型,测试他们的算术计算技能。
2)复杂数学推理:使用 MATH(Hendrycks,2021)评估解决高级数学问题的能力。
3)逻辑推理:使用 ProntoQA(Saparov & He,2023)数据集,测量逻辑推理和推理能力。
4)代码生成:在 HumanEval(Chen,2021)数据集上测试代码生成技能。
5)问答:使用 Bamboogle(Press,2022)评估回答不同问题的表现。
6)事实验证:使用 FEVER(Thorne et al.,2018)数据集评估事实验证。
7)常识推理:使用 HotpotQA(Yang et al.,2018)数据集测试对常识知识和推理的理解。
本研究考察常见的推理-时间计算方法:
1)N-中-最佳(Cobbe,2021a):为给定输入生成多个输出(N 个样本),并根据奖励模型选择最佳输出。
2)分步级 N 中最佳采样(Cobbe,2021a):在每个生成步中应用 N-中-最佳采样,选择最有希望的想法。
3)自洽(Wang,2022):产生多个推理路径或答案,并选择最一致的一个。
4)集束搜索(Ott,2018):逐级探索输出,在继续下一个之前扩展当前深度的所有节点。
5)蒙特卡洛树搜索(MCTS)(Feng,2023b):使用随机抽样构建搜索树并识别最有希望的输出。
6)自我改进(Madaan,2024):允许 LLM 在推理过程中迭代改进输出。
目标是研究以前被忽视的技巧如何严重影响推理-时间计算方法的性能,该方法通常包括两个主要步骤:生成候选解决方案(例如,提示类型、温度和 top-p 等)并根据特定奖励信号(例如,自我评估、奖励类型、奖励过程)选择最佳解决方案。在默认设置中,主要采用 Best-of-N 推理-时间计算,其中候选数量 N = 32、温度 τ = 0.7 和 top-p 设置为 0.9。此外,指令提示类型设置为思维链 (CoT)。在没有进一步修改的情况下,进行消融研究,仅改变正在研究的特定技巧。主要关注复杂的推理任务,包括数学问题和代码生成任务等。
注:实证观察和结论可能不适用于所有数据集和模型。然而,本文强调使用一致实现细节的必要性,以确保在不同的推理-时间计算方法之间进行公平的比较。
下表所示推理-时间计算下固定 token 预算的 LLM 推理性能: 其中 Llama-3.1-8B 和 Qwen-2.5-7B 模型在各种推理任务中的准确性和 token 消耗。