小红书搜索团队提出新解码策略,降低大模型推理成本

news2024/11/28 4:35:26

如何让大语言模型(LLMs)“智能涌现”?关键技术之一是思维链(Chain of Thought,CoT),它通过引导大模型,一步一步模拟人类思考过程,可有效增强大模型的逻辑推理能力。

而自洽性方法(Self-Consistency,SC)一直是思维链推理中广泛使用的解码策略。SC 通过生成多个思维链并取多数答案作为最终答案,来提高模型的性能。尽管在各种多步推理任务中带来了显著的性能提升,但它是一种高成本的方法,需要进行预设大小的多次采样。

在 ICLR 2024 上,小红书搜索算法团队提出一种简单且可扩展的采样过程 —— 即早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不牺牲性能的情况下,大幅度降低 SC 的成本。在此基础上,团队进一步推导出一种 ESC 控制方案,以动态选择不同任务和模型的性能-成本平衡。

随后,小红书和北理工的研究者们选择了三种主流推理任务(数学,常识和符号推理),并利用不同规模的语言模型进行实验。实验结果显示,ESC 在六个基准测试中显著降低了平均采样次数,包括 MATH(-33.8%),GSM8K(-80.1%),StrategyQA(-76.8%),CommonsenseQA(-78.5%),Coin Flip(-84.2%)和 Last Letters(-67.4%),同时几乎保持原有性能。

这说明了 ESC 的有效性和创新性,它能够在保证推理性能的同时显著减少采样次数,从而降低计算成本。这一点对于大语言模型非常重要,因为这些模型的推理过程通常需要大量的计算资源。

在这里插入图片描述

在思维链(CoT)提示的帮助下,大语言模型(LLMs)展现出强大的推理能力。基于此,由于复杂推理任务通常允许有多条推理路径指向正确答案,先前的研究者引入了一种称为自洽性(Self-Consistency,SC)的解码策略,以进一步提高推理性能。

与传统只生成单一路径(greedy search)的标准思维链提示相比,SC 方法会根据预设的样本规模采样多条推理路径,并通过投票机制确定最终答案。尽管这种方法有效,但它会产生与采样数量成正比的显著开销。以 GPT-4 为例,若采样量为 40,在 MATH 数据集测试一次,成本需要高达 2000 美元,这迫切需要一种降低 SC 成本的改进方法。

在 SC 中,生成多个样本的过程可以被视为近似 LLM 预测的真实答案分布。通过选择出现频率最高的结果作为最终答案,可以减少单一采样策略带来的随机性。然而,考虑到 SC 只需要最置信的答案,并不要求整个答案分布完美匹配。因此,我们认为没有必要直接为每个输入生成与预设采样大小对齐的所有推理路径。相反,生成过程可以被序列化为较小的部分,每个部分被命名为一个采样窗口。考虑到小窗口和大量的采样输出都源自同一预测答案分布,采样窗口可以被视为一个探针,仅通过少量的采样数就可以揭示真实分布的一些信息。

图 1 : GPT-4 在 MATH 数据集采样窗口内的平均熵得分

对于答案分布,一个猜想是正确答案的候选分布通常较为集中,而错误答案则相对分散。我们使用熵作为答案分布形状的表示。上图分别展示了窗口内正确和错误投票答案分布的平均熵值,结果表明,具有较高概率的正确答案通常伴随着较低的熵值,因此熵值可以作为一个指标来确定是否继续采样。

基于此,我们提出了早停自洽性方法(Early-Stopping Self-Consistency,ESC) ,即在低熵窗口截断采样过程。为了尽可能地保持性能,我们设置最严格的阈值:熵等于零,即窗口内生成的所有样本都有相同的答案。发生这种情况时停止采样,既能减少采样消耗,同时将性能影响降至最低。

早停止(Early-Stopping)是一种被广泛用于训练模型时的技术,以防止过拟合现象发生。在本文中,我们引入早停止策略,应用于减少多次采样过程的成本。与原始的 SC 相同,ESC 是完全无监督且与模型无关,无需任何人工注释或额外训练。我们推导出了在 SC 中有或无早停止方法的结果不一致概率的理论上限,结果表明 ESC 有极大的概率保持性能。此外,我们还提出一个 ESC 动态控制方案:通过选择窗口大小和最大采样次数,动态地为不同任务和模型找到最佳的性能-成本平衡点,以满足实际需求。

在这里插入图片描述在这里插入图片描述

如图展示 ESC 与原始 SC 的完整过程对比。我们将大采样量(在本例中等于 20)分成几个连续的小窗口(在本例中为 5),当一个窗口内的答案都相同时停止采样,即预测答案分布的熵值为零。

2.1 自洽性方法分析

自洽性方法的核心思想在于,对于一个复杂问题,通常允许有多种推理思路,这些思路最终都能导向相同的正确答案。基于此,在采样量为 L L L 下的投票过程可以表述为:

在这里插入图片描述
其中 f L ( i ) f^L(i) fL(i) 表示在 L L L 个采样实例中,模型的预测结果为 i i i 的频率。根据大数定律,当 L L L 趋近于无限时,采样结果的分布将逼近模型预测的真实分布结果 P ( i ) P(i) P(i)。进一步地,我们可以得出:

在这里插入图片描述

通过上述公式,我们可以看到,多次采样的过程能减轻单次采样引入的噪声,从而提升性能。我们的目标是确保选择那个具有最高概率的预测结果,作为最终答案。从这个角度分析,答案分布熵与性能表现成正相关关系,也就是说,当答案分布的熵较低时,我们只需要较少的采样次数 L 就能够显著减少采样噪声的影响。

2.2 早停自洽性方法

依据 2.1 的分析,我们设计了一种多路采样的动态截断策略,实现以更少成本获得与原始采样量相当的性能表现。具体而言,我们以滑动生成窗口代替一次性生成所有样本,并利用窗口内的分布熵或相似度作为截断条件进行早停操作。

当窗口内的所有预测结果一致时,答案分布的熵为 0,这表明该样本的投票结果与理论上采样次数无限多时的结果高度一致。因此,一旦出现这种情况,我们便停止进一步采样。

如果在采样过程中没有遇到满足条件的观察窗口,将迭代以获得多个观察窗口,直到达到预设的采样大小 L L L。算法流程如算法 1 所示:

在这里插入图片描述

为了评估引入早停止机制对结果一致性的影响,我们进行 Z Z Z 检验,以计算在 SC 中采用或不采用早停止方案的结果不一致概率的理论上限。结果表明,当窗口大小为 8 时,ESC 与 SC 结果不一致的概率小于 0.002。这验证了 ESC 在保持性能的同时,能够有效减少采样次数。

2.3 动态控制方案

为适应不同的预算与性能需求,我们研究了 ESC 的动态控制方案来调整截断策略,推导适合的窗口大小与最大采样数(窗口大小 w w w,最大采样数量 L L L)。

我们提出一种用于动态截断的控制模式:将基于第一个观察窗口(将其窗口大小表示为 w 0 w_0 w0),可以推导不同窗口大小( w w w)和最大采样量( L L L)设置下的推理性能和采样成本的期望:

采样数 L L L 的期望为:

在这里插入图片描述

截断结果与原始结果不一致的上界为:

在这里插入图片描述

最后,考虑到采样预算和性能要求,根据各自的预期值选择适当的( w w w L L L)值来执行 ESC。算法流程如算法 2 所示:

在这里插入图片描述

在这里插入图片描述

我们对提出的 ESC,在三类推理任务的六个基准数据集上进行评估 :

  • 算术推理:数据集使用 MATH 和 GSM8K

  • 常识推理:数据集使用 CommonsenseQA 和 StrategyQA

  • 符号推理:数据集使用 Last Letter Concatenation 和 Coin Flip

ESC 在三种不同规模的语言模型上进行评估:GPT-4、GPT-3.5-Turbo 和 LLaMA-2 7b。所有实验都在 few-shot 设置下进行,无需训练或微调语言模型。对于 MATH 数据集,采样温度 T T T 为 0.5,而其他数据集则设为 0.7。

3.1 ESC 的实验结果

我们比较基线是 greedy search 的思维链提示(CoT)和 SC。

MATH 数据集的采样大小 L L L 为 64,其他数据集为 40,ESC 使用相同的值作为最大样本量。

相应地,MATH 数据集的窗口大小 w w w 为 8,其他数据集为 5。我们报告的结果是基于 10 次运行的平均值,由于空间有限,省略了方差数据。 L L L 是 ESC 平均采样数量, L L L-SC 表示采样大小为 L L L 的 SC 的准确性。

在这里插入图片描述

表 1 : 六个推理任务上的测试结果

在这里插入图片描述

表 2 : MATH 数据集上不同最大采样大小 L 的推理准确性(%)

在这里插入图片描述

图 3 : GSM8K 数据集上不同模型下观测窗大小 w w w 的鲁棒性分析

根据以上结果,可以得出以下三点结论:

ESC 在几乎不影响性能的情况下显著降低了成本

SC 显著优于 CoT,证实投票过程对推理的有效性。对于 ESC,L 远小于相应的最大采样大小,而性能几乎保持不变。我们还用 L 作为采样大小来测试 SC,其准确度大幅下降。总体而言,ESC 可以显著降低成本,同时几乎不会影响性能。在相同的采样成本下,ESC 可以获得更高的精度。

ESC是一个对于最大采样量和窗口大小鲁棒的解码过程

表 2 和图 3 分别显示了不同最大采样大小和窗口大小下的性能表现。可以看到,ESC 对于最大采样量和窗口大小鲁棒。随着采样大小的增加,SC 的性能不断提高。在此基础上,ESC 可以显著节省成本,同时保持性能。

成本节省与性能表现呈正相关

如表 1 和表 2 所示,一个明显的现象是成本节约与性能呈正相关。这是因为更佳的性能通常不需要更大的采样量。然而,ESC 不需要任何模型能力和任务难度的先验知识。

3.2 动态控制方案的实验结果

为了验证 ESC 动态控制方案的有效性,我们在 GSM8K 数据集上分别对比真实与预测的采样量,以及性能变化百分比。

选用 L1 正则以及皮尔逊相关系数来反应相关性,结果如下表 3 所示。结果表明,我们基于动态控制方案获得的预测,对于平衡采样成本和投票性能是高度可靠的。

在这里插入图片描述

表 3 : 动态控制方案实验结果

3.3 ESC在开放域的实验结果

原始的 SC 仅适用于具有固定答案的问题,而 Jain 等人提出 UCS,通过文本相似性匹配取代投票,将 SC 扩展到开放式生成任务。

我们在 MBPP 数据集上,针对不同采样大小(窗口大小为 5 )进行了 ESC 实验。实验结果显示,ESC 同样适用于开放式任务。

在这里插入图片描述

表 4 : ESC在开放域的实验结果

3.4 ESC的鲁棒性研究

我们进行一系列额外的实验,以进一步测试 ESC 的鲁棒性,包括对采样参数和提示的稳健性测试:

在图 4 上半部分中,我们展示了随着解码采样温度的升高,ESC 对采样量的节省是鲁棒的。

图 4 左下部分表明,ESC 对 t o p − p top-p topp 采样的 p p p 值是鲁棒的。

图 4 右下部分表明,ESC 可以推广到 zero-shot 方式。

表 5 显示不同示例(demonstrations)组的 ESC 和 SC 的准确性,可以看到,ESC 对各种示例都是稳健的。

在这里插入图片描述

图 4 : ESC关于采样温度 T T T p p p 值的鲁棒性分析,以及 zero-shot 结果

在这里插入图片描述

表 5 : 不同示例组的实验结果

在这里插入图片描述

本项工作引入了一个简单而有效的采样过程,称为早停自洽性(ESC)。通过在高置信度窗口停止解码过程,ESC 在不牺牲性能的情况下大大降低了 SC 的成本。我们进一步推导出 ESC 的控制方案,以动态选择不同任务和模型的性能-成本平衡,不需要额外的模型能力和任务难度的先验知识。

实验结果显示,ESC 在六个主流的基准测试中显著减少了自洽性推理的实际样本数量,同时达到了类似的性能,这对于大模型推理非常重要,可以显著节省大模型推理成本。我们还展示了 ESC 的控制方案可以准确预测各种任务和模型的性能-成本权衡,可以更好的满足实际的预算与性能需求。分析实验结果表明,考虑到不同的解码设置和示例,甚至在开放式生成任务上,ESC 都可以鲁棒地大幅节省成本。

论文地址:https://arxiv.org/abs/2401.10480

在这里插入图片描述

  • 李易为

    现博士就读于北京理工大学,小红书社区搜索组实习生,在 ICLR、AAAI、ACL、EMNLP、NAACL、NeurIPS、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文,主要研究方向为大语言模型推理与蒸馏、开放域对话生成等。

  • 袁沛文现博士就读于北京理工大学,小红书社区搜索组实习生,在 NeurIPS、ICLR、AAAI 、EACL 等发表多篇一作论文。主要研究方向为大语言模型推理与评测、信息检索。

  • 冯少雄

    负责小红书社区搜索向量召回。博士毕业于北京理工大学,在 ICLR、AAAI、ACL、EMNLP、NAACL、EACL、KBS 等机器学习/自然语言处理领域顶级会议/期刊上发表数篇论文。主要研究方向为大语言模型测评推理蒸馏、生成式检索、开放域对话生成等。

  • 道玄

    小红书交易搜索团队负责人。博士毕业于浙江大学,在 NeurIPS、ICML 等机器学习领域顶级会议上发表数篇一作论文,长期作为多个顶级会议/期刊审稿人。主要业务覆盖内容搜索、电商搜索、直播搜索等。

  • 曾书

    小红书社区搜索语义理解与召回方向负责人。硕士毕业于清华大学电子系,在互联网领域从事自然语言处理、推荐、搜索等相关方向的算法工作。

图片

小红书社区搜索算法工 程师(全职 / 实习)

岗位职责:

1、对小红书搜索效果进行优化,包括搜索算法和策略的调研、设计、开发、评估等环节,提升用户体验;

2、发现并解决搜索场景中在查询分析、意图识别、向量召回、排序模型、去重等方向的问题;

3、解决小红书搜索实际问题,更好地满足用户的搜索需求;

4、跟进业内搜索相关模型和算法的前沿进展,并在实际业务中进行合理应用。

任职资格:

1、本科及以上学历,计算机相关专业背景;

2、有搜索、推荐、广告、图像识别等相关背景优先;

3、熟悉机器学习、NLP、数据挖掘、知识工程的经典算法,并能在业务中灵活解决实际问题;

4、在国际顶级会议(KDD、SIGIR、WSDM、ICLR、NeurIPS、ICML、ACL、EMNLP 等)以第一作者发表过高水平论文者、知名数据挖掘比赛(例如 KDD Cup 等)中取得领先名次者优先;

5、积极向上,踏实勤奋,自我驱动,善于沟通,解决问题优先。

欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com,并抄送至 luyun2@xiaohongshu.com、fengshaoxiong@xiaohongshu.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1599420.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python的pytest框架(1)--基本概念、入门

按基础到进阶的顺序,学习Python的pytest框架,本篇文章先讲一讲pytest的基本概念、入门使用规则。 目录 一、pytest基础知识 1、安装 2、pytest框架主要做了什么工作 二、pytest的规则约定、运行方式以及参数详解 1、编写测试用例 模块&#xff08…

react17 + antd4 如何实现Card组件与左侧内容对齐并撑满高度

在使用antd进行页面布局时,经常会遇到需要将内容区域进行左右分栏,并在右侧区域内放置一个或多个Card组件的情况。然而,有时我们会发现右侧的Card组件并不能与左侧的栏目对齐,尤其是当左侧栏目高度动态变化时。本文将介绍如何使用…

基于绿证-阶梯式碳交易交互的源荷互补调度优化

基于绿证-阶梯式碳交易交互的源荷互补调度优化 基于绿证-阶梯式碳交易交互的源荷互补调度优化代码获取戳此处代码获取戳此处 23年新鲜代码,基本完成四个场景的复现。 针对多能精合的区域综合能源系统的低经济运行问题,提出基于绿证-阶梯式碳交易交与的源…

python之flask安装以及使用

1 flask介绍 Flask是一个非常小的Python Web框架,被称为微型框架;只提供了一个稳健的核心,其他功能全部是通过扩展实现的;意思就是我们可以根据项目的需要量身定制,也意味着我们需要学习各种扩展库的使用。 2 python…

栈的应用-四则运算表达式求值

文章目录 栈的应用-四则运算表达式求值1. 后缀(逆波兰)表示法2. 后缀(逆波兰)表达式计算3. 中缀表达式转换成后缀表达式 栈的应用-四则运算表达式求值 1. 后缀(逆波兰)表示法 我们平时写的数学计算表达式…

Proxmox VE 实现批量增加多网络

前言 实现批量创建多网络,更改主机名称,hosts解析 初始化网卡,主机名称,hosts解析,重启网卡 我的主机六个网卡,使用的有四个网卡,以下一键创建和初始化主机名称我是以硬件的SN号最为主机的名…

大数据、数据架构、推荐冷启动...小红书的 AI 数据新方案都在这个会

伴随着行业数据持续积累,人工智能正加速渗透各类场景,大数据、数据架构和推荐系统等领域,依然是各行各业目之所聚。4 月 19 至 20 日,「DataFunCon 2024 上海站」来袭!大会以“数聚垂域,智领未来”为主题…

超100万用户,迅速登顶 GitHub!运行在浏览器中的开源桌面操作系统,不到一个月拿下 10k star【文末福利】

Puter 是近日在 GitHub 上最受欢迎的一款开源项目,正式开源还没到一个月 ——star 数就已接近 10.1k。 作者表示这个项目已开发 3 年,并获得了超过 100 万用户。 Puter介绍 根据介绍,Puter 是基于 Web 的桌面操作系统,运行于浏览…

数据结构——栈(C++实现)

数据结构——栈 什么是栈栈的实现顺序栈的实现链栈的实现 今天我们来看一个新的数据结构——栈。 什么是栈 栈是一种基础且重要的数据结构,它在计算机科学和编程中扮演着核心角色。栈的名称源于现实生活中的概念,如一叠书或一摞盘子,新添加…

贝锐蒲公英企业路由器X5 Pro:无需专线和IT人员,分钟级异地组网

尽管我们公司规模较小,只有十几个人,但为了确保项目资料的安全,依旧在公司内部自建了文件存储服务器和办公系统。 但是,随着项目数量的增加,大家出差办公的情况也愈发普遍,如何解决远程访问内部系统成了问…

AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 轻松文生视频

AIGC专栏10——EasyAnimate 一个新的类SORA文生视频模型 📺轻松文生视频 学习前言源码下载地址技术原理储备(DIT/Lora/Motion Module)什么是Diffusion Transformer (DiT)LoraMotion Module EasyAnimate简介EasyAnimate原理界面展示快速启动云…

《中医临床诊疗术语》数据库

最新版的《中医临床诊疗术语》于2023年3月17日由国家中医药管理局提出的,由国家市场监督管理总局和国家标准化管理委员会共同发布。新版的修订是为落实相关政策文件要求,推进中医医疗服务规范化、标准化管理,提高中医医疗服务标准化水平和管理…

Web前端开发——Ajax,Axios概述及在Vue框架中的使用

前言: 整理下学习笔记,打好基础,daydayup!!! Ajax Ajax是什么? Ajax全称Asynchromous JavaScript And Xml,是异步的JavaScript和Xml。 Ajax的作用? 1,数据交换:通过Ajax可以给服务器…

【Redis 神秘大陆】003 数据类型使用场景

三、Redis 数据类型和使用场景 Hash:对象类型的数据,购物车List:队列/栈Set:String类型的无序集合,intset,抽奖、签到、打卡,商品评价标签Sorted Set:存储有序的元素,zip…

二叉树的先中后序遍历

什么是遍历呢? 遍历:按照某种次序把所有结点都访问一遍 先/中/后序遍历:基于树的递归特性确定的次序规则 二叉树的递归特性: ①要么是个空二叉树 ②要么就是由“根节点左子树右子树”组成的二叉树 先序遍历:根左右(NLR) ——先访问根结点,…

抖音小店新店铺起飞式玩法,这几步一定要做好,前期很重要

大家好,我是电商笨笨熊 进入抖音小店后不知道该怎么操作,不清楚如何让新店快速起店; 今天我们就来聊聊新店铺快速起店的几个关键步骤,新手玩家一定要按照流程去做。 第一步:店铺搭建 小店开通之后不要着急选品上架&…

FreeRTOS_day1

1.总结keil5下载代码和编译代码需要注意的事项 下载代码前要对仿真进行设置 勾选后代码会立刻执行 勾选后会导致代码不能执行 写代码的时候要写在对应的begin和end之间,否则会被覆盖 2.总结STM32Cubemx的使用方法和需要注意的事项 ①打开软件,新建工程…

项目7-音乐播放器2(上传音乐+查询音乐+拦截器)

0.加入拦截器 之后就不用对用户是否登录进行判断了 0.1 定义拦截器 0.2 注册拦截器 生效 1.上传音乐的接口设计 请求: { post, /music/upload {singer,MultipartFile file}, } 响应: { "status": 0, "message&…

【Android】Activity task和Instrumentation杂谈

文章目录 activity taskInstrumentation机制参考 Android不仅可以装载众多的系统组件,还可以将它们跨进程组成ActivityTask,这个特性使得每个应用都不是孤立的。 activity task 从数据结构角度看,Task有先后之分,源码实现上采取了…

AI人工智能老师大模型讲师叶梓 OneLLM:开创性的多模态大型语言模型技术

在人工智能领域,多模态大型语言模型(MLLM)的研究一直是一个热门话题。近期,一种名为OneLLM的创新技术引起了业界的广泛关注。OneLLM通过其独特的统一框架,实现了多种不同模态与自然语言的高效对齐,为多模态…