今日arXiv最热NLP大模型论文:无需提示也能推理!Google DeepMind新研究揭示AI内在推理能力

news2025/1/13 13:33:22

在人工智能领域,大语言模型(LLMs)已经在各种复杂的推理基准测试中展现出了令人瞩目的性能。传统上,这些推理能力是通过精心设计的提示技术来激发的,例如少量示例提示(few-shot prompting)或零示例提示(zero-shot prompting)。然而,这些方法往往涉及到手动密集的提示工程,限制了它们在不同任务中的通用性。

本项工作探索了一个不同的视角,提出了一个关键的问题:LLMs能否在没有特定提示的情况下有效地进行推理?研究发现一令人惊讶的结果,通过简单地改变解码过程,可以从预训练的LLMs中自然地激发出链式推理(CoT)路径。这种解码修改绕过了CoT提示,并且是完全无监督的,不需要模型调整。

研究还揭示了预训练语言模型固有的推理能力,这一发现与之前侧重于改进提示以促进推理的研究形成了鲜明对比。研究发现,当模型在其解码路径中存在CoT时,对其最终答案的信心增加。利用这种增加的信心,研究者提出了CoT解码方法,以选择更可靠的解码路径,从而在各种推理基准测试中显著提高了模型性能。

实验结果表明,CoT解码在解码过程中自然地揭示了CoT推理路径,显著提高了模型的推理能力,超越了贪心解码。此外还观察到这些路径在预训练数据中频繁出现的任务中更为普遍,而在复杂的合成任务中则不那么常见,在这些任务中,可能仍然需要高级提示技术来触发这些推理路径。

这与McCoy等人(2023年)和Prystawski等人(2023年)的发现一致。在这些场景中还发现,少量CoT示例在指导模型如何解决任务方面发挥了更大的“教学”作用,模型主要模仿这些提示的格式来生成准确的推理路径。

总之,研究表明,通过改变解码策略,可以有效地从LLMs中激发出推理能力,而无需依赖于特定的提示技术。这一发现不仅为理解LLMs的内在推理能力提供了新的视角,而且为未来的研究提供了新的方向,即如何利用这些模型固有的推理能力来解决更广泛的问题。

论文标题:Chain-of-Thought Reasoning Without Prompting

公众号「夕小瑶科技说」后台回复“Chain”获取论文PDF!

CoT-decoding的新视角:无需提示即可激发推理

1. CoT-decoding方法介绍

CoT-decoding是一种新的解码方法,它能够从预训练的大语言模型(LLMs)中激发出推理能力,而无需依赖于传统的提示技术。这种方法通过探索解码过程中的替代top-𝑘令牌,揭示了模型在生成答案时内在的推理路径(CoT路径)。这种方法的关键在于,它不仅避免了提示带来的混淆因素,而且允许我们更准确地评估LLMs的内在推理能力

图片

(图为CoT解码示意图,这些模型在解码最终答案时往往显示出更高的可信度)

2. 预训练LLM中的CoT路径发现

研究发现,即使在没有明确提示的情况下,预训练的LLMs在解码过程中也能自然地展现出CoT推理模式。

  • 例如,在数学推理任务中,当模型不是简单地贪心解码,而是考虑top-𝑘令牌时,CoT路径就会自然出现。

这表明,预训练的LLMs在其解码轨迹中固有地包含了推理能力,这与以往依赖于提示技术来激发推理能力的研究形成了鲜明对比。

3. CoT路径与模型答案置信度的关联

CoT-decoding的另一个关键发现是,当解码过程中存在CoT路径时,模型在解码其最终答案时表现出更高的置信度。这种置信度可以通过模型在每个解码步骤中对top两个令牌的概率差异来衡量。

研究表明,CoT路径的存在通常会导致最终答案的解码更加自信,这一点通过模型对最终答案的概率评分显著高于非CoT路径的情况得到了证实。利用这一现象,研究者们开发了一种方法来筛选出最可靠的解码路径,即CoT-decoding,从而在各种推理基准测试中显著提高了模型的推理能力。

图片

(图为通过考虑不同解码步骤的替代标记分析解码路径。虽然某些任务可能存在多个分支位置,但所有都通向正确推理路径)

实验设置:评估CoT-decoding的有效性

实验方法与模型选择

在评估CoT-decoding的有效性时,研究者们采用了一种新颖的解码方法,即考虑在解码过程中的top-𝑘备选词汇,而不是仅依赖于贪心解码路径。实验中使用的模型是预训练的PaLM-2大模型,与标准的贪心解码路径(𝑘 = 0)进行比较,其中𝑘 > 0表示在第一步解码时选择的第𝑘个词汇。此外,还探讨了Mistral-7B模型,包括预训练和指令调优(instruction-tuned)变体。

图片

数学推理任务的实验结果

数学推理任务中,CoT-decoding显著提高了模型的推理能力,与贪心解码相比,在不同规模的PaLM-2模型上均有一致的提升。

  • 例如,在GSM8K数据集上,CoT-decoding在PaLM-2大型模型上实现了比贪婪解码高出26.7%的绝对准确率。值得注意的是,CoT-decoding甚至可以提高经过指令调优的模型的性能

图片

自然语言推理任务的实验结果

自然语言推理任务中,研究者们探讨了“年份奇偶性”任务,发现即使是最先进的模型,如GPT-4,在直接提示的情况下也只能达到几率水平的准确率(约50%)。然而,通过CoT-decoding,模型能够在大多数情况下恢复CoT推理路径,并实现超过90%的准确率

  • 错误分析表明,大多数错误源自模型检索错误的出生年份,而生成的CoT路径在奇偶性和模型检索的年份之间保持高度一致。

    图片

符号推理任务的实验结果

符号推理任务中,CoT-decoding的收益随着任务复杂性的增加而减小。

  • 模型在高度合成的任务中,即那些在预训练分布中缺乏显著表示的任务,无法生成准确的CoT路径。

这些任务包括需要准确状态跟踪的任务,如Coin-Flip和Web-of-Lies,以及多步算术任务。在这些任务中,CoT提示技术在教导模型如何解决任务方面发挥了更大的“教学”作用。

图片

通过这些实验,研究者们展示了预训练语言模型在解码过程中固有的推理能力,并通过CoT-decoding显著提高了各种推理基准测试中的模型性能。

CoT-decoding与传统方法的比较

1. CoT-decoding与贪心解码的对比

CoT-decoding方法与传统的贪心解码(greedy decoding)有显著的不同。在贪心解码中,大语言模型(LLMs)通常会直接生成一个答案,而不会展示出解决问题的思考过程(chain-of-thought,CoT)。这种方法在处理简单问题时可能效果不错,但在需要复杂推理的任务上,模型往往会直接给出错误答案

  • 例如,在数学问题GSM8K中,贪心解码可能会直接给出“$60.00”作为答案,而不展示计算过程。

相比之下,CoT-decoding方法通过考虑解码过程中的top-𝑘个备选词,能够揭示出隐藏在解码轨迹中的CoT推理路径。这种方法不需要显式的提示(prompting),也不需要模型训练或指令调整。实验表明,CoT-decoding能够自然地揭示出CoT路径,并显著提高模型在各种推理基准测试中的表现。

  • 例如,在同一个GSM8K问题中,CoT-decoding能够在𝑘=9的路径中找到正确的计算过程,并给出正确答案“$64”。

此外,CoT-decoding方法还能够通过模型在解码过程中的置信度来区分CoT和非CoT路径。这一现象可以用于从多个解码路径中筛选出更可靠的输出。即:当CoT路径存在时,模型在解码最终答案时表现出更高的置信度。

2. CoT-decoding与CoT提示方法的对比

CoT-decoding与CoT提示方法如few-shot CoT prompting和zero-shot CoT prompting)相比,提供了一种不依赖于显式提示的推理能力激发方式。

  • CoT提示方法通常需要手动设计针对特定任务的提示,这不仅耗时而且限制了方法的通用性。

  • CoT-decoding则通过修改解码过程,允许评估LLMs的内在推理能力,而无需依赖于特定的提示设计。

实验结果显示,CoT-decoding在没有特定提示的情况下,能够与few-shot CoT prompting和zero-shot CoT prompting方法相媲美,甚至在某些情况下表现更好。

  • 例如,在处理GSM8K数据集的数学问题时,CoT-decoding生成的CoT与few-shot CoT提示方法相比,展现出更自由形式的推理过程。

这表明CoT-decoding能够更好地揭示LLMs在解决问题时的内在策略,而不受外部提示可能引入的偏见影响

图片

(图为PaLM-2大模型的GSM8K数据集上的CoT解码精度,显示出与解码中使用了多少top-𝑘令牌有关)

总的来说,CoT-decoding为我们提供了一种新的视角,通过简单地改变解码策略,就能有效地激发出模型的推理能力,这一发现对于未来LLMs的研究和应用具有重要意义。

讨论:CoT-decoding的计算成本与未来方向

CoT-decoding,即链式推理解码,是一种新颖的方法,它通过改变解码过程来从预训练的大语言模型(LLMs)中引出推理能力,而无需特定的提示技术。这种方法的优势在于它能够揭示模型在生成答案时的内在推理路径,同时避免了提示技术可能引入的混淆因素,更准确地评估模型的固有推理能力。

然而,CoT-decoding的一个主要挑战是计算成本。由于它涉及到在解码过程中考虑多个备选的top-𝑘令牌,因此需要更多的计算资源来探索和评估这些备选路径。

未来的研究方向可能包括利用CoT-decoding路径来微调模型,以增强其推理能力。此外,目前的探索主要集中在第一个令牌的分支上,因为这样可以产生高度多样化的解码路径,但未来的工作可以探索在任何令牌上进行分支,并在解码阶段搜索最佳路径。尽管这将大幅增加计算成本,如何在搜索过程中可靠地识别最佳令牌将是一个值得探索的方向。

总结:CoT-decoding在LLM推理中的潜力展望

1. CoT-decoding的发现和意义

研究表明,通过改变解码过程,即使没有显式提示,预训练的大语言模型(LLM)也能自然地产生链式思考(CoT)推理路径。这种方法被称为CoT-decoding,它通过考虑解码过程中的顶部-k个代替令牌,揭示了CoT路径通常是这些序列中的固有部分。CoT-decoding不仅绕过了提示的混淆因素,而且还允许我们评估LLM的内在推理能力。

2. CoT-decoding与模型信心的关联

研究观察到,当解码路径中存在CoT时,模型在解码其最终答案时表现出更高的信心。这种信心度量有效地区分了CoT路径和非CoT路径。在各种推理基准测试中的广泛实证研究表明,所提出的CoT-decoding方法显著优于标准的贪心解码

3. CoT-decoding在不同任务中的表现

在数学推理、自然语言推理和符号推理任务中,CoT-decoding都显示出了显著的性能提升。特别是在那些在预训练数据中频繁出现的任务上,CoT-decoding能够自然地揭示CoT路径,而在复杂的合成任务中,可能仍然需要高级提示来触发这些推理路径。

公众号「夕小瑶科技说」后台回复“Chain”获取论文PDF!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1466309.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开源的表单设计器拥有什么显著特点?

开源的表单设计器的特点是什么?广州流辰信息是专业研发低代码技术平台的服务商,可以为企业提供系统开发、数据治理、数据分析各环节技术和方案支撑。为了帮助大家了解开源的表单设计器的相关优势特点,小编将为大家做一个详细介绍。 什么是开源…

Java编程实战:构建医疗信息管理新平台

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

面试经典150题 -- 二叉树 (总结)

总的地址 : 面试经典 150 题 - 学习计划 - 力扣(LeetCode)全球极客挚爱的技术成长平台 104 . 二叉树的最大深度 104 . 二叉树的最大深度 递归 : 直接用递归访问 , 访问左孩子 和 右孩子 , 如果 存在 , 深度就1 &…

SpringBoot-2.7.6基于SLF4J日志门面的日志框架切换

SpringBoot 没有强制性的日志记录依赖项,但 Commons Logging API 除外,它通常由 Spring Framework 的模块提供。 要使用 Logback,您需要将其包含在类路径中。 推荐的方法是您只需要通过启动器,这都取决于 . 对于 Web 应用程序 ,因为它可传递地依赖于日志记录启动器。 如果…

【C语言】指针变量未初始化

我们知道:全局变量未赋初值,编译器会直接赋值为0;局部变量如果未赋初值,则会维持上一状态保存在该地址上的值,这个值是随机的。把这个值赋值给局部变量是没有意义的。 但是指针变量是如何解决不赋初值? 指…

linux高级作业

作业需求 1、openEuler 二进制方式安装MySQL 8.0.x。 二、备份数据库 3.备份数据库school到/backup目录 4.备份MySQL数据库为带删除表的格式,能够让该备份覆盖已有数据库而不需要手动删除原有数据库 5.直接将MySQL数据库压缩备份 第一题 1、openEuler 二进制方式…

XL6009是什么芯片?一文带你了解XL6009引脚说明、数据参数的解读

XL6009是一款高性能、高效率的降压升压转换器芯片。它可以将输入电压范围从3.5V至32V的电源转换为可调的输出电压范围从1.25V至35V。 XL6009引脚说明 引脚说明如下: VIN:输入电压引脚,接入供电电源的正极。GND:地引脚&#xff0…

ubuntu20.04 安装 matlab R2023b

ubuntu20.04 使用matlab R2023b 起因步骤问题问题1问题2问题3 起因 闲着没事,想在ubuntu上安装matlab。 步骤 这个博客写得很好,我就不赘述了:参考博客 。但有点不一样:我现在matlab官网上下载的linux版本不是iso镜像文件&…

稀疏计算、彩票假说、MoE、SparseGPT

稀疏计算可能是未来10年内最有潜力的深度学习方向之一,稀疏计算模拟了对人脑的观察,人脑在处理信息的时候只有少数神经元在活动,多数神经元是不工作的。而稀疏计算的基本思想是:在计算过程中,将一些不重要的参数设置为…

基于DPU和HADOS-RACE加速Spark 3.x

背景简介 Apache Spark(下文简称Spark)是一种开源集群计算引擎,支持批/流计算、SQL分析、机器学习、图计算等计算范式,以其强大的容错能力、可扩展性、函数式API、多语言支持(SQL、Python、Java、Scala、R&#xff09…

C++11新特性 lambda表达式与模板函数 std::make_shared

一&#xff1a;make_shared example1: auto l_size make_shared<std::array<int, 2> >(); example2: m_timeHandlePtr make_shared<svTimerHandle>(renderPtr->GetRenderWindow()->GetInteractor(), m_BatchCallBack); C11 中引入了智能指针, 同…

JavaWeb——004Maven SpringBootWeb入门

一、Maven 1、什么是maven&#xff1f; 2、Maven的作用是什么&#xff1f;&#xff08;3种&#xff09; 1.1、方便的依赖管理 依赖管理&#xff1a;有了Maven&#xff0c;我们就不用再手动导入Jar包了&#xff0c;我们只需要在配置文件当中&#xff0c;简单描述一下项目所需要…

JavaSec 之 XXE 简单了解

文章目录 XMLReaderSAXReaderSAXBuilderDocumentBuilderUnmarshaller**SAXParserFactory**XMLReaderFactoryDigester总结 XMLReader public String XMLReader(RequestBody String content) {try {XMLReader xmlReader XMLReaderFactory.createXMLReader();// 修复&#xff1a…

【C++精简版回顾】6.构造函数

一。类的四种初始化方式 1.不使用构造函数初始化类 使用函数引用来初始化类 class MM { public:string& getname() {return name;}int& getage() {return age;}void print() {cout << "name: " << name << endl << "age: &quo…

【2024软件测试面试必会技能】Charles(6):Charles设置弱网

设置弱网&#xff08;慢网速&#xff09; 方法一&#xff1a;点击Charles 上方的乌龟标志&#xff0c;模拟网络延迟&#xff1b; 方法二&#xff1a;点击Proxy——Throttle Settings——勾选Enable Throttling——再勾选Only for selected hosts——点击Add,设置指定的域名——…

探索Promise异步模式抽象的变体——Promise.race篇

如果阅读有疑问的话&#xff0c;欢迎评论或私信&#xff01;&#xff01; 本人会很热心的阐述自己的想法&#xff01;谢谢&#xff01;&#xff01;&#xff01; 文章目录 前言初识Promise.race探索Promise.raceAPI实例 前言 在本栏前一篇Promise.all中&#xff0c;我们可以实…

Panic与Recover:Go异常处理的救命稻草

Panic与Recover&#xff1a;Go异常处理的救命稻草 异常处理是每个程序员都应该关注的重要问题。在Go语言中&#xff0c;Panic和Recover是用于异常处理的两个关键概念。Panic用于触发异常&#xff0c;而Recover用于捕获和处理异常。本文将深入探讨Panic和Recover的区别&#xff…

面试redis篇-05双写一致

原理 双写一致性:当修改了数据库的数据也要同时更新缓存的数据,缓存和数据库的数据要保持一致 读操作:缓存命中,直接返回;缓存未命中查询数据库,写入缓存,设定超时时间写操作:延迟双删方案一:分布式锁,一致性要求高

安全生产:AI视频智能分析网关V4如何应用在企业安全生产场景中?

随着科技的不断进步&#xff0c;视频智能分析技术在安全生产领域中的应用越来越广泛。这种技术通过计算机视觉和人工智能算法&#xff0c;可以对监控视频进行自动分析和处理&#xff0c;以实现多种功能&#xff0c;如目标检测、行为识别、异常预警等。今天我们以TSINGSEE青犀AI…

PHP实现分离金额和其他内容便于统计计算

得到的结果可以粘贴到excel计算 <?php if($_GET["x"] "cha"){ $tips isset($_POST[tips]) ? $_POST[tips] : ; $pattern /(\d\.\d|\d)/; $result preg_replace($pattern, "\t\${1}\t", $tips); echo "<h2><strong>数…