无需提示的思考链推理:深度探索大型语言模型的内在能力

news2025/1/24 17:40:37

人工智能咨询培训老师叶梓 转载标明出处

在人工智能领域,提升大模型(LLMs)的推理能力一直是研究的重点。传统的方法主要依赖于特定的提示技术,例如少量样本或零样本的思考链(CoT)提示。这些方法虽然有效,但往往需要大量的手动提示工程。来自Google DeepMind的Xuezhi Wang和Denny Zhou提出了一个新的研究视角:无需提示,LLMs能否有效推理?研究者们发现,与传统的贪婪解码相比,通过考虑top-𝑖?备选令牌,可以揭示LLMs内在的CoT路径。这种方法不仅避免了提示带来的混杂因素,还允许研究者更准确地评估模型的内在推理能力。

思考链(CoT)解码

CoT-decoding(推理路径解码)的过程

图1展示了CoT-decoding如何使预训练的大型语言模型(LLMs)在没有提示的情况下进行推理。通过考虑替代的top-𝑘令牌,而不是仅依赖于贪婪解码的top-1令牌,模型能够展示出内在的推理能力。当模型在解码过程中发现了一个有效的思考链(CoT)路径时,它对最终答案的置信度会更高,这通常通过颜色的深浅来表示。例如,在解决一个涉及苹果数量的数学问题时,模型不仅能够识别出问题的解决需要一个清晰的推理步骤,而且能够通过探索不同的解码路径来避免直接给出错误答案,最终以更高的置信度得出正确答案。这一过程突出了模型在适当的解码策略下能够进行复杂推理的潜力。

在表1中,研究者展示了在数学问题(GSM8K)和常识推理(年份的奇偶性)上的解码路径示例。他们使用了预训练的PaLM-2大型模型来比较其贪婪解码路径(𝑘=0),这是在最先进的LLMs中用于推理任务的主要方法,以及备选解码路径(𝑘>0),其中𝑘表示在第一个解码步骤中选择的第𝑘个令牌。

以GSM8K问题为例,Kylar去商店为他的公寓购买16个杯子,每个杯子的价格是5美元,但每第二个杯子的价格仅为原价的60%。通过贪婪路径得到的答案是60美元,而通过考虑替代的top-𝑘路径,模型能够自然地展现出CoT推理,例如在𝑘=9时,模型计算出正确的总价格为64美元。在年份奇偶性问题上,Nicolas Cage的出生年份问题,模型通过贪婪路径直接给出错误答案,但当考虑𝑘>0时,模型能够自然地生成CoT路径,并在𝑘=3和𝑘=7时正确判断出Nicolas Cage出生于偶数年。

研究者们展示了如何在解码过程中可靠地提取CoT路径。表1显示,CoT路径并不总是排在模型概率评估的前面,也不总是所有路径中的主导答案,这使得像自洽性这样的方法不适用。研究者们发现,CoT路径的存在通常会导致最终答案的解码更加自信,表现为顶级和次级令牌之间显著的概率差异。他们引入了一个度量方法,称为CoT-解码,通过计算答案标记的顶级和次级概率之间的差异来提取CoT路径。

例如,在GSM8K问题中,对于答案“60”,模型会计算“6”和“0”的概率差异并取平均值。这种方法能够从模型的解码路径中提取出CoT路径,并且每个解码路径都用其对应的Δ值标记(答案标记加粗)。具有CoT组件的路径展现出更高的Δ值,这突出了模型的增加信心。

研究者们还进行了定量分析,手动检查了GSM8K中的前100个问题,发现在top-10解码路径中,按照模型答案信心度排名的路径有88%包含CoT路径,这显示了模型答案信心度和CoT路径之间的高度相关性。

在表2中,研究者们比较了从top-10解码路径中提取CoT路径的不同方法。CoT-解码能够可靠地提取CoT路径,与其他方法相比,显著提升了模型的推理性能。

计算Δ需要确定模型回答中的答案范围。一种常见的方法是提取数学推理任务中的最后一个数值,或者在基于集合的推理任务中提取最终选项作为答案。另外,也可以使用“所以答案是”的提示来扩展模型的输出,并将这些延续与模型解码路径中的跨度对齐作为答案

CoT-解码在第一个解码步骤中探索替代令牌。问题是:采样是否能达到类似的效果并揭示CoT推理路径?研究发现,尽管在少量CoT提示下采样表现良好,但在没有提示的情况下,采样并没有表现出期望的行为。在表3中,比较了CoT-解码与在没有CoT提示时的自洽性。采样的无效性源于模型在解码期间有强烈倾向直接提供答案,因此第一个令牌的多样性比CoT-解码要少。

另一个问题是,与仅在第一个解码步骤分支相比,在后续解码步骤中分支是否可行。图2突出了在后续解码步骤中考虑替代令牌的影响。显然,早期分支(例如,在第一个解码步骤)显著提高了潜在路径的多样性。相反,后期分支受到之前生成的令牌的显著影响。然而,最佳分支点可能因任务而异;例如,在年份奇偶性任务中,中途分支可以有效地产生正确的CoT路径。

在后续解码步骤中考虑替代标记的影响。它显示了早期分支(例如,在第一个解码步骤)显著提高了潜在路径的多样性

由于已经解码了top-𝑘路径,一个自然的扩展是将所有这些路径上的答案进行聚合,类似于自洽性,但不用提示。这种聚合的理由是减少对模型logit的小差异的敏感性,特别是当仅依赖于最大Δ的路径时。表1中的例子显示,多数答案不太可能是正确的。相反,研究者们提出了一种加权聚合方法,即采用最大化Δ˜𝑎 =Í𝑘 Δ𝑘,𝑎的路径,其中Δ𝑘,𝑎是答案=𝑎的第𝑘个解码路径。采用这种方法可以增强结果的稳定性。

实验

实验中,模型接收的标准输入格式为QA格式,即Q: [question]\nA:,其中[question]根据具体任务填充实际问题。模型需要基于这个前缀继续生成回答。在解码阶段,研究者们采用𝑘 = 10作为默认设置,考虑第一个解码位置的前10个备选top-𝑖?令牌,并在此之后继续使用贪婪解码策略。

数据集:

数学推理:使用了GSM8K数据集和MultiArith数据集,包含小学数学问题和多步骤算术问题。

常识推理:研究了“年份奇偶性”任务,询问模型名人的出生年份是偶数还是奇数。

符号推理任务:包括Coin Flip任务、Web of lies任务和多步骤算术任务,均来自Big-Bench-Hard。

使用了包括不同规模的PaLM-2、Mistral-7B和Gemma-7B在内的三个公共模型。实验主要集中在预训练模型上,但也包括了指令调整(inst-tuned)模型。

表4 展示了在Mistral-7B预训练模型上,与多种流行的解码基线相比,CoT-decoding是唯一能显著增强语言模型推理能力的解码策略。例如,贪婪解码的准确率为9.9%,而CoT-decoding(𝑘 = 10)的准确率显著提升至25.1%。

图3 展示了CoT-decoding在PaLM-2、Mistral和Gemma三个不同的语言模型家族中,都能有效地引出模型的推理能力。在数学和常识推理任务上,CoT-decoding相比于贪婪解码,性能提升显著,有时甚至是翻倍或三倍。

CoT-decoding允许研究者们在没有人类提供提示的情况下,更真实地评估语言模型的内在推理能力。通过系统地变化合成任务的难度级别,研究者们能够更全面地了解语言模型通过CoT-decoding的内在推理能力。

表6 展示了模型的内在推理能力如何依赖于任务的难度级别。结果显示,任务越简单,找到正确推理路径的机会越大。此外,当任务解决方案涉及最多1或2步知识操作时,模型能够生成正确的CoT路径;而当步骤变为3个或更多时,模型生成正确CoT路径的能力开始下降。

CoT-decoding可以与CoT-prompting结合使用,从而在多个语言模型上实现更大的推理增益。例如,表7 展示了在GSM8K测试集上,将CoT-decoding添加到零样本CoT-prompting上可以进一步提高推理性能。特别是,使用CoT-decoding (agg path) + zero-shot CoT-prompt的方法,可以显著提升模型在推理任务上的准确率。

图5 展示了在选择不同数量的备选top-𝑖?令牌时,模型的整体准确率如何变化。研究发现,较高的𝑘值通常会导致模型性能的提升,这表明在许多情况下,正确的CoT路径可能存在但排名较低。对于指令调整模型,𝑘的影响较小,这表明指令调整过程有效地将大多数CoT路径提升到了前几个解码路径中。

实验结果表明,CoT-decoding不仅能够有效地从语言模型中引出推理能力,而且能够在不同难度级别和不同类型的任务上提高模型的推理性能。此外,CoT-decoding还能够揭示模型在推理方面的内在脆弱性,为未来的模型改进提供了方向。通过结合CoT-decoding和CoT-prompting,可以实现进一步的推理性能提升。

论文链接:https://arxiv.org/abs/2402.10200

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1975631.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

力扣爆刷第169天之TOP200五连刷111-115(课程表、单词搜索、归并)

力扣爆刷第169天之TOP200五连刷111-115(课程表、单词搜索、归并) 文章目录 力扣爆刷第169天之TOP200五连刷111-115(课程表、单词搜索、归并)一、207. 课程表二、LCR 125. 图书整理 II三、402. 移掉 K 位数字四、79. 单词搜索五、9…

Python自动化办公2.0:重塑工作效率的未来

在现代办公环境中,自动化技术和数据分析已经成为提升工作效率和决策质量的关键。随着Python编程语言的发展,我们迎来了“Python自动化办公2.0”时代,这一时代不仅包括强大的数据分析工具,还涵盖了酷炫的可视化技术和前沿的机器学习…

【卷积神经网络】卷积层详解【数学+python代码】

1、简介 学习目标: 掌握卷积计算过程掌握特征图大小计算方法掌握PyTorch卷积层API 基本概念: ①在计算机视觉领域,往往我们输入的图像都很大,使用全连接网络的话,计算的代价较高。 另外图像也很 难保留原有的特征 &am…

科技赋能生活——便携气象站

传统气象站往往庞大而复杂,需要专业人员维护,它小巧玲珑,设计精致,可以轻松放入背包或口袋,随身携带,不占空间。无论是城市白领穿梭于高楼大厦间,还是户外爱好者深入山林湖海,都能随…

numpy如何按等长分割数组

numpy如何按等长分割数组 1、效果 2、流程 1、分割数组 2、转列表3、代码 # -*- coding: utf-8 -*-""" @contact: 微---信 1257309054 @file: test.py @time: 2024/8/03 19:46 @author: LDC """ import numpy as np# 假设arr是需要分割的nump…

virtualbox7安装centos7.9配置静态ip

1.背景 我大概在一年之前安装virtualbox7centos7.9的环境,但看视频说用vagrant启动的窗口可以不用第三方工具(比如xshell、secure等)连接centos7.9,于是尝鲜试了下还可以,导致系统文件格式是vmdk了(网上有vmdk转vdi的方法&#xf…

ChatGLM3-6B模型部署微调实战

准备 教程 视频教程 https://www.bilibili.com/video/BV1ce411J7nZ?p14&vd_source165c419c549bc8d0c2d71be2d7b93ccc 视频对应的资料 https://pan.baidu.com/wap/init?surlAjPi7naUMcI3OGG9lDpnpQ&pwdvai2#/home/%2FB%E7%AB%99%E5%85%AC%E5%BC%80%E8%AF%BE%E3%8…

Keil5.40因为Jlink驱动闪退问题

现象 Cannot load driver ‘C:\Keil_v5\ARM\Segger\JL2CM3.dll 原因 由于Jlink为盗版,导致闪退。 具体为JLinkARM.dll这个插件搞鬼。 这个插件的来源为 也就是我们装Jlink驱动的时候,勾选了这个选项,而导致这个毒瘤插件进入Keil&#xff…

代码题-01_顺序表_基础知识

线性表 线性表(list):零个或多个相同数据元素的有限序列 线性表是逻辑结构(元素之间一对一相邻关系)按存储方式分为 顺序表链表 顺序表 顺序表的定义 静态分配(使用数组存数据) 有溢出风险 typedef…

特定领域软件架构-系统架构师(三十七)

软件架构复用 有三个阶段: 首先构造/获取可复用的软件资产其次管理这些资产(构件库)最后针对这些需求,从这些资产中选择可复用的部分,满足需求应用系统。 特定领域软件架构 DSSA(Domain Specific softwa…

(四)activit5.23.0修复跟踪高亮显示BUG

一、先看bug 在 (三)springboot2.7.6集成activit5.23.0之流程跟踪高亮显示 末尾就发现高亮显示与预期不一样,比如上面的任务2前面的箭头没有高亮显示。 二、分析原因 具体分析步骤省略了,主要是ProcessInstanceHighlightsResour…

饿了么冰杯外卖爆涨350%,“冰+X”激发酒饮即时零售夏季增长加速

近日,饿了么联合尼尔森IQ共同发布的《2024夏季即时零售冰品酒饮消费洞察报告》显示,大暑前后冰杯外卖量同比去年增长350%,冰杯搭配啤酒等酒水饮料的外卖量也同比增长约300%。 报告综合多渠道零售数据和案例分析,剖析了冰品酒饮在…

基于51单片机的车窗控制系统proteus仿真

地址: https://pan.baidu.com/s/1w5qrAvn1cUK7ZX2GJvWBQw 提取码:1234 仿真图: 芯片/模块的特点: AT89C52/AT89C51简介: AT89C52/AT89C51是一款经典的8位单片机,是意法半导体(STMicroelectro…

DedeCMS-V5.7.82-UTF8织梦

先进行安装 然后进入首页和管理员后台 内容要在后台进行操作 首页 后台 1.通过文件管理器上传WebShell 访问目标靶场其思路为 dedecms 后台可以直接上传任意文件,可以通过文件管理器上传php文件获取webshel 登陆到后台点击【核心】【文件式管理器】【文件上传】将…

基于深度学习的面部表情分类识别系统

:温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :) 1. 项目简介 面部表情识别是计算机视觉领域的一个重要研究方向, 它在人机交互、心理健康评估、安全监控等领域具有广泛的应用。近年来,随着深度学习技术的快速发展&#xf…

C++篇:入门(2)

引用 引用的概念以及定义: 在C中,引用(Reference)是一个非常重要的概念又可以称之为取别名,它允许我们创建一个已存在对象的别名。引用提供了一种机制,通过它可以直接访问另一个变量、对象或函数的值&#…

Nginx进阶-常见配置(一)

一、nginx Proxy 反向代理 1、代理原理 反向代理产生的背景: 在计算机世界里,由于单个服务器的处理客户端(用户)请求能力有一个极限,当用户的接入请求蜂拥而入时,会造成服务器忙不过来的局面&#xff0c…

【实现100个unity特效之12】Unity中的冲击波 ——如何使用ShaderGraph制作一个冲击波着色器

最终效果 文章目录 最终效果新增LitShaderGraph圆环扭曲效果优化冲击波效果屏幕全屏冲击波圆形冲击波最终连线图代码控制补充源码完结 新增LitShaderGraph 圆环扭曲效果 让我们从一个UV节点开始 创建一个Vector2变量RingSpawnPosition表示冲击波生成位置,在X和Y上将其默认值…

springboot实现前后端调用axios异步请求(后端单体服务器static部分)

目的:让页面调用controller,将数据加载到页面中(只不过这个前端页面我们直接就是放到了static里面了)。 第一步:导入文件 所需要的文件见本文最后“文件获取”: (1)文件如下&…

汇昌联信拼多多运营怎么样?

汇昌联信拼多多运营怎么样?在探讨汇昌联信在拼多多平台的运营情况时,首先需要明确的回答是:汇昌联信在拼多多的运营表现是积极的,并取得了一定的成效。接下来,我们将从五个不同的角度深入分析其运营策略及效果。 一、产品多样性与…