LLM 推理中推理-时间计算技巧

news2025/2/21 9:45:33

25年2月来自香港科技大学广州分校的论文“Bag of Tricks for Inference-time Computation of LLM Reasoning”。

随着大语言模型 (LLM) 的进步,解决复杂的推理任务越来越受到关注。推理-时间计算方法(例如 Best-of-N、波束搜索等)特别有价值,因为它们可以在不修改模型参数或不需要额外训练的情况下提高推理性能。然而,这些技术面临着实施挑战,大多数现有方法仍处于概念验证阶段,由于其计算复杂性和不同任务中的不同有效性,实际采用有限。

本文研究并评估不同复杂度推理任务中的各种推理-时间计算策略。由于大多数当前方法依赖于提议者-验证者流水线,该流水线首先生成候选解决方案(例如推理解决方案),然后根据奖励信号(例如 RLHF 奖励、过程奖励)选择最佳解决方案,本文研究重点是优化候选解决方案的生成(例如指令提示、温度和 top-p 等超参)和奖励机制(例如自我评估、奖励类型)。通过对各种规模的各种模型(例如 Llama、Qwen 和 Mistral 系列)进行大量实验(超过 20,000 个 A100-80G GPU 小时,超过 1,000 次实验),消融研究表明,以前被忽视的策略可以显著提高性能(例如,调整温度可以将推理任务性能提高高达 5%)。此外,系统地评估八个推理任务中的六种代表性方法,为推理-时间计算建立标准化基准。这些发现为未来的研究奠定更坚实的基础。

大语言模型 (LLM) 已展示出卓越的推理能力,使其能够处理科学、数学和编码等领域日益复杂的任务 (Zhang et al., 2024a; Chen et al., 2021)。虽然规模化模型大小和高质量训练数据集极大地推动这些进步,但研究人员正在积极探索互补方法以进一步提高模型性能。受人类解决问题行为的启发——个人通常会花更多时间思考复杂问题以改善他们的决策——人们越来越有兴趣 (Snell et al., 2024) 利用推理-时间计算(例如,在测试期间利用额外的计算来提高推理任务的性能)来增强 LLM 的推理能力。

虽然推理-时间计算对提高 LLM 的推理性能具有巨大潜力 (Wang et al., 2022),但现有研究显示推理-时间计算的结果好坏参半(例如,有限的自我纠正能力 (Huang et al., 2023))。它在更广泛的推理任务(例如,逻辑推理、代码生成、问答和事实验证)上的有效性仍然有限,大多数研究仅集中在数学问题等领域。此外,推理-时间方法对超参数很敏感,例如温度和 top-p 采样,其中微小的调整可能会导致显着的性能差异(例如,通过调整温度,解决数学问题的能力提高 5%)。这些挑战强调推理-时间技术(例如,指令提示、采样策略、奖励模型)的关键作用,如表所示。尽管最近取得进展,但这些差距表明该领域仍处于起步阶段,许多挑战尚待解决。

请添加图片描述

使用 LLM 进行推理。LLM 在代码生成、数学问题解决和研究构思等复杂任务中表现出强大的推理能力 (Zhou et al., 2022)。现有增强 LLM 推理能力的方法包括:1) 提示工程 - 激活潜在的多步骤推理能力。例如,思维链 (CoT) (Wei et al., 2022) 指导一步步解决问题,但在很大程度上依赖于高质量的演示进行类比学习。2) 后训练技术 (Chen et al., 2024a;b) - 迭代地丰富训练数据集,提高模型性能。自训练方法 (Chen et al., 2024a) 整理新的高质量示例以增强推理能力,但这些方法需要大量的计算资源。 3)基于搜索的方法(Browne,2012;Feng,2023a;Liu,2023)——使用搜索算法在推理-时优化推理路径。例如,思维树(Yao,2024)采用广度优先搜索(BFS)来优化解决方案。这项工作侧重于测试-时间计算,利用推理-时间优化来增强 LLM 推理,而无需额外的训练开销。

LLM 推理的推理-时间计算。事实证明,规模化推理-时间计算比仅仅增加模型参数更有效(Snell,2024)。最近,研究重点是优化推理过程中的推理效率,而不是仅仅规模化训练-时间计算。 Best-of-N(Cobbe,2021a)通过抽样 N 个候选解决方案、使用学习的验证器或奖励模型对其进行评估并选择得分最高的解决方案来增强 LLM 推理能力。同样,MCTS(Tian,2024)通过主动规划和选择更高质量的响应来改进推理。这些进步凸显推理-时间优化对于增强 LLM 推理能力(超越规模化训练计算)至关重要。

LLM 推理基准。LLM 在以零样本方式解决复杂任务方面取得显著进展(Hendrycks,2021;Press,2022;Liu,2024a),将其定位为迈向通用人工智能的关键里程碑。因此,对它们的推理能力进行基准测试已成为一项核心挑战。最近的研究评估各个领域的 LLM 推理,包括数学推理(Hendrycks,2021 年)、代码生成(Chen,2021)和事实问答(Thorne,2018)等等(Liu,2024c;b)。虽然这些基准增强对 LLM 推理的理解,但大多数研究都集中在任务性能而不是推理-时间计算上,因此关键的优化技术尚未得到充分探索。

本文研究重点是候选解决方案生成的策略(例如,指令提示、温度和 top-p 等超参)和奖励机制(例如,自我评估、奖励类型),涵盖更广泛的推理任务,包括逻辑推理、代码生成、事实验证、复杂数学和算术。

给定一个输入上下文 x(例如,数学问题、常识问答等),LLM 旨在自回归地预测下一个 token(Dubey,2024)。

π_θ(·) 是 θ 参数化 LLM,y = (y_1, y_2, · · · , y_n) 是输出序列。对于词汇的数量 M,预测第 t 个 token 的概率由所有 token logit 分数 z 温度为 τ 的 softmax 决定,并结合 top-p(核采样)来控制采样过程的随机性和多样性。

思维链 (CoT) (Wei,2022) 是一种促使 LLM 生成一系列可得出最终答案的推理步骤方法。这些中间步骤表示为 y_1, …, y_n−1,将输入 x 连接到输出 y(为简单起见省略 n),其中 n 表示步骤总数。例如,给定指令 I(例如,“让我们一步一步解决这个问题”)以及演示示例和输入问题 x,最终答案是 y。每个中间思维 y_i 都是得出最终答案推理过程的一部分。

这些想法是从分布 y_i ∼ π_θ (· | I, x, y_<i−1 ) 中依次生成的,最终的输出是从以下样本中采样的:y ∼ π_θ(· | I,x, y_<n−1)。

LLM 的温度 (Hinton, 2015) τ 控制生成输出的随机性水平,从而影响其多样性。不是直接计算 softmax,而是根据温度值对 logits 缩放。
Top-p(Holtzman,2019)通过增加词汇的数量 M 来控制 LLM 输出,因为只有累积概率大于 Top-p 值的 token 才会被考虑。在选择了 token 之后,将会使用减少的词汇量重新计算它们的 softmax。

推理-时间计算方法(Ott,2018)通常遵循包含两个主要步骤的流程:生成候选解决方案(例如,思维链推理候选方案)并根据特定奖励信号(例如,数值奖励、自洽性、过程奖励或二元反馈,如“是”或“否”)选择最佳解决方案。正式地,给定一个问题 x,推理-时间计算方法会抽取 K 个候选解决方案:y^(k) ∼ π_θ(y | I, x, y_<n),其中 k = 1, 2, …, K,其中 y(k) 表示第 k 个候选解决方案。抽样后,使用奖励模型评估每个候选方案以产生奖励信号:r(k) = reward(I, x, y_<n−1, y^(k)),其中奖励模型可以采用多种形式。例如,它可能是一个使用指令 I 评估解决方案的通用 LLM(例如,“让我们验证一步步推理。答案是否正确(是/否)?”)。或者,奖励模型可以经过专门训练以输出 0 到 1 之间的标量值,值越高表示解决方案越好。然后根据奖励信号选择最终解决方案 yˆ。对于数值奖励,选择奖励最高的解决方案:yˆ= argmax/y_k (r_k)。

生成候选解决方案

生成候选解决方案,是 LLM 推理中推理-时间计算的关键步骤,但此过程中固有的随机性,会显著影响多样性。温度和 top-p 等超参以及指令提示等策略在塑造和引导解决方案轨迹方面发挥着至关重要的作用。例如,温度作为 token 生成中的采样策略,在更高值时会增加多样性。因此,本研究重点关注候选解决方案的生成过程,包括指令提示类型、温度和 top-p 采样。

选择最佳解决方案

选择最佳解决方案,也是 LLM 推理的推理-时间计算中的关键步骤。此过程通常涉及推理模型本身的选择(例如,投票或基于提示的选择)或使用外部奖励模型(例如,RLHF、证明关键或过程奖励模型)。一个关键问题是 LLM 能否有效地评估自己的解决方案。然而,自我评估方法往往不够完善,因为 LLM 很难在没有外部指导的情况下纠正错误。此外,奖励模型经常无法区分真正正确的答案和表面上正确的答案,导致绩效评估过高。这一挑战强调对更可靠评估机制的需求。为了解决这些差距,研究选择过程,重点关注自我评估、奖励类型,并研究改进的奖励模型的泛化。

如图所示 LLM 推理的推理-时间计算解码概述。(A)指令提示:包括 IO、思维链 (CoT) 和基于反射的 CoT 提示。(B)推理任务:在八个数据集上评估模型:算术 (GSM8K、GSM-Hard)、复杂数学 (MATH)、逻辑 (PrOntoQA)、代码生成 (HumanEval)、问答 (Bamboogle)、事实验证 (FEVER) 和常识 (HotpotQA)。(C)推理模型:分析不同大小和架构的 LLM(LLaMA、Qwen、Mistral),并通过温度和 top-p 超参评估性能。(D)奖励模型:探索奖励类型,如 RLHF、批评模型和基于过程的模型,以提高推理性能。 (E) 推理-时间计算:研究N-中-最佳采样、步骤-级 N-中-最佳、自洽、蒙特卡洛树搜索 (MCTS) 和自我细化等方法以优化推理。

请添加图片描述

推理模型。在实验中,评估几种广泛研究的不同大小和配置的 LLM:
1)LLaMA 3.3(Dubey,2024):Meta AI 在 LLaMA 系列中的最新版本,提供 8B 和 70B 参数。它以开源可访问性和强大的基准性能而闻名。
2)Qwen 2.5(Yang,2024):该模型由阿里云开发,提供 7B 和 72B 参数配置,展示多样化的 LLM 架构和训练方法。
3)Mistral 7B Instruct v0.3(Jiang,2023):Mistral AI 的 7B 参数模型,因其效率和性能可与更大的模型相媲美而受到认可。

这些模型表现出不同的推理优势,深入了解不同架构和训练方法的影响。

奖励模型。采用四种类型的奖励模型:
(1)过程奖励(Zheng,2024):逐步评估每个推理步骤。
(2)结果奖励:仅评估最​​终答案的正确性。
(3)RLHF 奖励(Cai,2024):来自偏好样本(包括人工注释和 AI 生成的)。
(4)证明-紧要奖励:应用于多个基准的正式数学证明。

研究重点关注以下推理任务:
1)算术推理:在 GSM8K(Cobbe,2021b)和 GSM-Hard(Gao,2022)数据集上评估模型,测试他们的算术计算技能。
2)复杂数学推理:使用 MATH(Hendrycks,2021)评估解决高级数学问题的能力。
3)逻辑推理:使用 ProntoQA(Saparov & He,2023)数据集,测量逻辑推理和推理能力。
4)代码生成:在 HumanEval(Chen,2021)数据集上测试代码生成技能。
5)问答:使用 Bamboogle(Press,2022)评估回答不同问题的表现。
6)事实验证:使用 FEVER(Thorne et al.,2018)数据集评估事实验证。
7)常识推理:使用 HotpotQA(Yang et al.,2018)数据集测试对常识知识和推理的理解。

本研究考察常见的推理-时间计算方法:
1)N-中-最佳(Cobbe,2021a):为给定输入生成多个输出(N 个样本),并根据奖励模型选择最佳输出。
2)分步级 N 中最佳采样(Cobbe,2021a):在每个生成步中应用 N-中-最佳采样,选择最有希望的想法。
3)自洽(Wang,2022):产生多个推理路径或答案,并选择最一致的一个。
4)集束搜索(Ott,2018):逐级探索输出,在继续下一个之前扩展当前深度的所有节点。
5)蒙特卡洛树搜索(MCTS)(Feng,2023b):使用随机抽样构建搜索树并识别最有希望的输出。
6)自我改进(Madaan,2024):允许 LLM 在推理过程中迭代改进输出。

目标是研究以前被忽视的技巧如何严重影响推理-时间计算方法的性能,该方法通常包括两个主要步骤:生成候选解决方案(例如,提示类型、温度和 top-p 等)并根据特定奖励信号(例如,自我评估、奖励类型、奖励过程)选择最佳解决方案。在默认设置中,主要采用 Best-of-N 推理-时间计算,其中候选数量 N = 32、温度 τ = 0.7 和 top-p 设置为 0.9。此外,指令提示类型设置为思维链 (CoT)。在没有进一步修改的情况下,进行消融研究,仅改变正在研究的特定技巧。主要关注复杂的推理任务,包括数学问题和代码生成任务等。

注:实证观察和结论可能不适用于所有数据集和模型。然而,本文强调使用一致实现细节的必要性,以确保在不同的推理-时间计算方法之间进行公平的比较。

下表所示推理-时间计算下固定 token 预算的 LLM 推理性能: 其中 Llama-3.1-8B 和 Qwen-2.5-7B 模型在各种推理任务中的准确性和 token 消耗。

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2301227.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

matplotlib 如何是的横坐标纵向显示

在 ​​matplotlib​​​ 中&#xff0c;若要让横坐标标签纵向显示&#xff0c;可以使用 ​​plt.xticks()​​​ 或 ​​ax.set_xticklabels()​​ 方法结合旋转参数来实现。 方法一&#xff1a;使用 ​​plt.xticks()​​ 当你使用 ​​matplotlib​​​ 的 pyplot 接口&am…

Mobaxterm: Local port forwarding Remote port forwarding

文章目录 Remote port forwardingLocal port forwardingAppendix: Deploy clash in docker Remote port forwarding If you want to share the proxy on your local machine with the remote server, use Remote port forwarding. Consider this scenario: There is no proxy…

DeepSeek模型快速部署教程-搭建自己的DeepSeek

前言&#xff1a;在人工智能技术飞速发展的今天&#xff0c;深度学习模型已成为推动各行各业智能化转型的核心驱动力。DeepSeek 作为一款领先的 AI 模型&#xff0c;凭借其高效的性能和灵活的部署方式&#xff0c;受到了广泛关注。无论是自然语言处理、图像识别&#xff0c;还是…

用友U8 固定资产-批量变动单

前提&#xff1a;没有结账&#xff0c;没有结账&#xff0c;没有结账 如果已经结账&#xff0c;可反结账 1.需要先计提折旧&#xff0c;操作路径是点击【固定资产】-【计提折旧】-计提本月折旧 2.进行资产减少操作&#xff0c;点击【资产处置】-【资产减少】&#xff0c;如…

基于微信小程序的电影院订票选座系统的设计与实现,SSM+Vue+毕业论文+开题报告+任务书+指导搭建视频

本系统包含用户、管理员两个角色。 用户角色&#xff1a;注册登录、查看首页电影信息推荐、查看电影详情并进行收藏预定、查看电影资讯、在线客服、管理个人订单等。 管理员角色&#xff1a;登录后台、管理电影类型、管理放映厅信息、管理电影信息、管理用户信息、管理订单等。…

自然语言处理NLP 02统计语言模型

目录 jieba中文分词 TF-IDF TF&#xff08;词频&#xff0c;Term Frequency&#xff09; IDF&#xff08;逆文档频率&#xff0c;Inverse Document Frequency&#xff09; 总结 案例&#xff1a;从文本数据中提取并分析关键词的重要性 jieba中文分词 jieba 是一个强大的…

Qt开发④Qt常用控件_上_QWdget属性+按钮类控件

目录 1. 控件概述和发展 2. QWidget 核心属性 2.1 核心属性概览 2.2 enabled 是否可用 2.3 geometry 位置尺寸 2.4 windowTitle 标题 2.5 windowIcon 图标 2.6 windowOpacity 不透明度 2.7 cursor 光标 2.8 font 字体 2.9 toolTip 鼠标悬停提示 2.10 focusPolicy 焦…

Apache Struts RCE (CVE-2024-53677)

前言 对目前的Apache Struts RCE (CVE-2024-53677)的poc进行总结&#xff0c;由于只能单个ip验证&#xff0c;所以自己更改一下代码&#xff0c;实现&#xff1a;多线程读取url验证并保存&#xff0c;更改为中文解释 免责声明 请勿利用文章内的相关技术从事非法测试&#xf…

23. AI-大语言模型-DeepSeek

文章目录 前言一、DeepSeek是什么1. 简介2. 产品版本3. 特征4. 地址链接5. 三种访问方式1. 网页端和APP2. DeepSeek API 二、DeepSeek可以做什么1. 应用场景2. 文本生成1. 文本创作2. 摘要与改写3. 结构化生成 3. 自然语言理解与分析1. 语义分析2. 文本分类3. 知识推理 4. 编程…

成人床垫更新关于 SOR/2016-183 和《纺织品贴标和广告法规》的合规

成人床垫更新关于 SOR/2016-183 和《纺织品贴标和广告法规》的合规性声明 加拿大站成人床垫法规SOR/2016-183是强制性的 。为确保买家安全并遵守相关法规&#xff0c;亚马逊要求所有在加拿大销售的成人床垫必须符合《床垫法规》规定的安全标准&#xff0c;包括SOR/2016-183。此…

11.编写前端内容|vscode链接Linux|html|css|js(C++)

vscode链接服务器 安装VScode插件 Chinese (Simplified) (简体中⽂) Language Pack for Visual Studio CodeOpen in BrowserRemote SSH 在命令行输入 remote-ssh接着输入 打开配置文件&#xff0c;已经配置好主机 点击远程资源管理器可以找到 右键链接 输入密码 …

网工项目实践2.6 广域网需求分析及方案制定

本专栏持续更新&#xff0c;整一个专栏为一个大型复杂网络工程项目。阅读本文章之前务必先看《本专栏必读》。 全网拓扑展示 一.广域网互联方式 1.专线 优点 稳定 独享。绝对安全。可靠性高&#xff0c;带宽高&#xff0c;完全取决于终端接口。 缺点: 费用高。建设时间长。难…

大模型相关学习

知识科普 为什么不直接使用网页版 DeepSeek? 我们的需求&#xff1a;绝对的隐私保护和个性化知识库构建。场景&#xff1a;若希望大模型能根据企业规章制度来回答问题&#xff0c;一般需上传企业规章制度的附件&#xff0c;但仍可能面临问题。 数据隐私问题&#xff1a;联网使…

基于Java(JSP)+MySQL设计与实现的 MVC 鲜花订购系统

基于MVC的鲜花订购系统的设计与实现 摘 要 摘 要&#xff1a;鲜花订购系统与网络相结合&#xff0c;给用户提供更加周到和人性化的服务。网站模式为MVC模式&#xff0c;基于MySql数据库,采用Jsp&#xff0c;Session绘画跟踪、JavaScript等技术,实现了普通用户可以浏览、查看鲜…

网络原理-

文章目录 协议应用层传输层网络层 数据链路层 协议 在网络通信中,协议是非常重要的概念.协议就是一种约定. 在网络通信过程中,对协议进行了分层 接下来就按照顺序向大家介绍每一种核心的协议. 应用层 应用层是咱们程序员打交道最多的一层协议.应用层里有很多现成的协议,但…

解码 NLP:从萌芽到蓬勃的技术蜕变之旅

内容概况&#xff1a; 主要讲述NLP专栏的内容和NLP的发展及其在现代生活中的广泛应用。课程强调实践为主、理论为辅的学习方法&#xff0c;并通过多个生活场景展示了NLP技术的实际应用&#xff0c;如对话机器人、搜索引擎、翻译软件、电商推荐和智能客服等。 这边我就不多做自我…

Word中的文档信息域

Word中的文档信息域 DocProperty包含文档信息的多个属性, 也可以自定义属性. 查看文档预定义的自定义属性 【文件】→【信息】→【属性】→【高级属性】 参考链接 WORD中文档属性域DocProperty的应用-CSDN博客 第06套 Word_哔哩哔哩_bilibili

java机器学习计算指标动态阈值

java机器学习计算指标动态阈值 最近听到有的人说要做机器学习就一定要学Python&#xff0c;我想他们掌握的知道还不够系统全面。本文作者以动态阈值需求场景给大家介绍几种常用Java实现的机器学习库&#xff0c;包括使用开源库如Weka或Deeplearning4j&#xff08;DL4J&#xf…

Note25021902_TIA Portal V18 WinCC BCA Ed 需要.NET 3.5 SP1

TIA Portal V18 WinCC BCA Ed 需要.NET 3.5 SP1 在安装TIA Portal V18时&#xff0c;遇到TIA Portal V18 WinCC BCA Ed 需要.NET 3.5 SP1. 请在此PC上中启用.NET 3.5 SP1&#xff1b; 检索&#xff1a; 电脑上如何启用 .NET 3.5 SP1 参考资料1&#xff1a; https://baijiahao.…

CHARMM-GUI EnzyDocker: 一个基于网络的用于酶中多个反应状态的蛋白质 - 配体对接的计算平台

❝ "CHARMM-GUI EnzyDocker for Protein−Ligand Docking of Multiple Reactive States along a Reaction Coordinate in Enzymes"介绍了 CHARMM-GUI EnzyDocker&#xff0c;这是一个基于网络的计算平台&#xff0c;旨在简化和加速 EnzyDock 对接模拟的设置过程&…