【OpenAI o1思维链CoT必看论文】谷歌“思维链提示“让AI更懂人类推理

news2024/12/23 13:51:25

原创 超 超的闲思世界

AI的推理能力正迎来一场重大突破。谷歌大脑团队最新开发的"思维链提示"方法,让大型语言模型在复杂推理任务上展现出惊人的进步。这项创新技术无需对模型进行额外训练,却能显著提升AI的推理能力,让机器的思维过程更接近人类。

图片

链接:[arxiv.org/abs/2201.11903](arxiv.org/abs/2201.11903)

01 突破性方法:"思维链提示"

谷歌研究团队开发的"思维链提示"(Chain-of-Thought Prompting)方法,为增强大型语言模型的推理能力开辟了一条全新路径。这种方法的核心思想是让AI像人类一样展示出清晰的推理过程,而不仅仅是给出最终答案。

考虑一个人在解决复杂的推理任务,比如多步骤的数学问题时自己的思考过程。典型的做法是将问题分解成中间步骤,并在给出最终答案之前解决每个步骤:“简给了她妈妈2朵花后,她还剩下10朵:::然后她再给她爸爸3朵,她就会剩下7朵:::所以答案是7。”这篇论文的目标是赋予语言模型生成类似思考链的能力——一系列连贯的中间推理步骤,导向问题的最终答案。

图片

思维链提示的工作原理出人意料的简单:

  1. 在提供给模型的少量示例中,不仅包含问题和答案,还附加上解决问题的推理步骤。

  2. 模型在面对新问题时,会自然而然地生成类似的推理步骤,最后得出答案。

这种方法的优势显而易见:

  • 低成本高效率: 无需对模型进行专门的微调训练,仅通过提供几个带有推理步骤的示例,就能激发模型的推理能力。这大大降低了部署成本和复杂度。

  • 广泛适用性: 实验表明,思维链提示在多种推理任务上都取得了显著效果

    算术推理: 如解决复杂的数学应用题

    常识推理: 如回答需要常识判断的问题

    符号推理: 如执行抽象的符号操作任务

  • 提高可解释性: 通过生成清晰的推理步骤,模型的决策过程变得更加透明,有助于研究人员理解和改进AI的推理机制。

值得注意的是,思维链推理能力是随着模型规模增长而自然涌现的。研究发现,只有当模型参数达到一定规模(通常是数百亿级别)时,这种能力才会显著体现。这一发现为大模型的潜力提供了新的视角,暗示着可能还有更多尚未被发掘的能力。

02 关键亮点:大模型的推理新突破

在一系列实验中,研究团队发现了一些令人振奋的关键发现:

思维链推理:大模型的新兴能力

研究结果表明,思维链推理能力是随着模型规模增长而自然涌现的。这一发现意味着,仅通过扩大模型参数量,就能激发出更强大的推理能力。具体来说,实验显示只有在模型规模达到约100B参数时,思维链推理的效果才开始显著提升。这一现象与之前发现的"涌现能力"相呼应,进一步证实了大模型在智能行为方面的潜力。

复杂推理任务性能大幅提升

在各类复杂推理任务上,思维链提示方法都带来了显著的性能提升。尤其是在需要多步推理的数学问题和常识推理任务中,改善更为明显。例如,在GSM8K数学问题集上,采用思维链提示的PaLM 540B模型将准确率从原本的58.1%提升至74.4%,超越了此前的最佳水平。这一结果表明,通过"教会"模型展示推理过程,可以极大地增强其解决复杂问题的能力。

泛化能力的提升

更令人兴奋的是,思维链提示还帮助模型实现了对未见长度序列的泛化。在符号推理任务中,即使测试样本的长度超过了训练示例,采用思维链提示的模型仍然表现出色。这一发现暗示着,思维链方法不仅提高了模型的推理能力,还增强了其适应新情况的灵活性。

03 实验结果

为了进一步验证思维链提示的效果,研究团队在多个具有挑战性的基准测试上进行了实验:

数学推理:GSM8K创新高

研究团队使用了多个数学词问题数据集,如GSM8K、SVAMP和AQuA,这些问题涵盖了从简单的一步计算到复杂的多步推理。

在GSM8K数学单词问题数据集上,PaLM540B模型配合思维链提示取得了74.4%的准确率,这一成绩不仅大幅超越了标准提示方法(58.1%),更是超过了此前经过微调的GPT-3模型保持的最佳记录(55%)。值得注意的是,这一突破是在仅使用8个示例进行少样本学习的情况下实现的,充分体现了思维链提示方法的强大效果。

图片

常识推理:全面提升

实验涉及多个常识推理任务,包括CSQA(常识问答)、StrategyQA(策略推理)以及涉及日期理解和体育知识的特殊任务,这些任务要求模型运用广泛的世界知识。

在多个常识推理任务上,思维链提示同样带来了显著improvement。例如:

  • 在StrategyQA数据集上,PaLM 540B的准确率从67.2%提升至75.6%,超越了此前的最佳水平。

  • 在体育理解任务中,准确率更是从84%飙升至95.4%,展现出接近人类的理解能力。

这些结果表明,思维链提示不仅适用于结构化的数学问题,在需要广泛背景知识的开放域推理任务中同样效果显著。

图片

符号推理:长度泛化

研究者设计了两个简单但具有挑战性的任务:"最后一个字母连接"和"硬币翻转",这些任务测试了模型对抽象符号操作的理解和执行能力。

在符号推理任务上,思维链提示展现出了令人惊喜的泛化能力。以"最后字母连接"任务为例:

  • 在与示例长度相同的域内测试中,PaLM540B几乎达到了100%的准确率。

  • 更重要的是,在长度超出示例的域外测试中,模型仍保持了约90%的高准确率。

相比之下,使用标准提示的模型在域外测试中完全失败。这一结果有力证明了思维链提示在增强模型泛化能力方面的独特优势。

图片

04 未来可期:思维链提示开启AI推理新纪元

思维链提示不仅显著提升了大型语言模型的推理能力,更为人工智能领域的未来发展指明了方向。这项创新技术有望扩展AI系统可执行的推理任务范围,使其能够应对更加复杂和多样化的问题。随着研究的深入,我们可能会看到AI在科学研究、医疗诊断、法律分析等高度依赖推理能力的领域取得突破性进展。

更重要的是,思维链提示为探索基于自然语言的AI推理方法开辟了新的研究路径。这种方法不仅提高了模型的性能,还增强了AI系统的可解释性,使我们能够更好地理解AI是如何得出结论的。这一特性对于构建可信赖的AI系统至关重要,尤其是在需要高度透明度的决策场景中。

思维链提示技术可能会推动AI系统在推理能力上更接近人类水平。随着模型规模的进一步扩大和技术的不断优化,我们或许能见证AI在复杂推理任务上超越人类的那一天。尽管如此,我们也应该谨慎看待这一发展,继续探索如何让AI的推理过程更加透明、可控和符合伦理。

思维链提示为提升AI推理能力开辟了新方向,有望缩小AI与人类思维的差距。这项技术不仅推动了AI性能的提升,更重要的是,它为我们理解和改进AI的思维过程提供了宝贵的工具。随着研究的深入,我们期待看到更多激动人心的突破,推动AI向着更智能、更可信的方向不断前进。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2167954.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python命令行怎么换行

在命令行中“>>>”是python的输入提示符,按回车键则表示输入结束。那么如何在命令行中换行呢? 换行方法:\ 如: >>> print aaa; \ ... print bbb; \ ... print ccc 注意“;”的使用。python本身语句…

excel单元格增加可选下拉列表

excel单元格增加可选下拉列表 下拉设置:数据–数据验证-选择序列-填写来源(来源数据用英文逗号分隔)(是,否)- 区域应用:选定区域-数据验证-是-确认

2024年第十届信息学与商业工程国际会议(ICIBE 2024)将在泰国曼谷召开!

2024年第十届信息学与商业工程国际会议 (ICIBE 2024) 将于2024年12月20日-22日在泰国曼谷举办。ICIBE 2024由泰国兰实大学主办,中国澳门大学和菲律宾马普亚大学提供技术支持。本次会议为来自世界各地的专业人士、科学家、工程师、教育工作者、学生和研究人员提供了一…

tauri程序加载本地图片或者文件在前端页面展示

要想在前端页面中展示本地文件或者文件夹,需要使用convertfilesrc这个api,可以非常方便的展示内容,官方文档:tauri | Tauri Apps convertFileSrc甚至位于invoke之前,但我却一直没有注意到它,一方面是因为&…

街头摊贩检测系统源码分享

街头摊贩检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

磷酸化多肽及其修饰方法

【知识与技术分享~~~】 磷酸化多肽主要指肽链中的Ser、Tyr和Thr残基的侧链羟基被修饰成酸式磷酸酯多肽,有L构象和D构象之分,其结构如下: 楚肽生物提供 在固相多肽合成SPPS(Solid-PhasePeptide Synthesis)采用的是Fmoc-…

Day100 代码随想录打卡|动态规划篇--- 01背包问题(一维数组版)

题目(卡玛网T46): 小明是一位科学家,他需要参加一场重要的国际科学大会,以展示自己的最新研究成果。他需要带一些研究材料,但是他的行李箱空间有限。这些研究材料包括实验设备、文献资料和实验样本等等&am…

2024外研社综合能力大赛第一场真题

网上找滴~自用 审核不过,备考指南发知乎了:https://zhuanlan.zhihu.com/p/730698685

基于GIKT深度知识追踪模型的习题推荐系统源代码+数据库+使用说明,后端采用flask,前端采用vue

基于GIKT深度知识追踪模型的习题推荐系统 目录结构 Flask-BackEnd flask后端 app 后端主体文件 alg 深度学习模块 data 数据集data_process.py 数据预处理gikt.py GIKT模型pebg.py PEBG模型params.py 一些参数train.py 仅模型训练train_test.py 模型训练和测试-五折交叉验证t…

C++ 语言课程笔记

C 语言课程笔记 C语言程序设计第四版——谭浩强著,此书中的代码题大部分已经在本文中展示,以及南开大学 C 语言上机题库 100 题的作答,如果有作答不正确的地方或者可优化的地方,欢迎指正,谢谢! 001 屏幕输出…

一招搞定苹果安卓跨系统传输,文件大小再也不是问题

在当今多元化的科技市场中,众多手机品牌竞相推出各自的产品,每个品牌都力图打造独特的用户体验和生态系统。然而,这种品牌之间的多样性也带来了一定的挑战,尤其是在不同品牌体系之间互联互通性方面。由于每个品牌都有自己的操作系…

VMware虚拟机Centos操作系统——配置docker,运行本地打包的镜像,进入conda环境(vmware,docker新手小白)

1.docker-centos运行sudo yum install -y yum-utils报错 遇到问题 解决: 进入/etc/yum.repos.d目录下找到 CentOS-Base.repo,执行下面两个命令: cp CentOS-Base.repo CentOS-Base.repo.backupvi CentOS-Base.repo 进入后改成&#x…

前缀和(4)_除自身以外数组的乘积

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 前缀和(4)_除自身以外数组的乘积 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记,欢迎大家在评论区交流讨论💌 目录…

央国企董事会管理方案,数字化助力会议、制度、信披、投资全过程全方位管理

董事会建设是中国特色现代企业制度的重要内容。近日,国务院国资委召开中央企业董事会建设工作推进会:到明年年底,中央企业集团和二级子企业层面董事会建设要取得重要实质性进展,董事会制度更加健全、运行更加规范,作用…

如何进行光伏项目卫星踏勘?

一、卫星地图选址 1. 数据获取 卫星踏勘的第一步是获取高分辨率的卫星图像。利用卫星遥感技术,可以获取项目候选区域的地形地貌、植被覆盖等详细信息。这些数据通过专业的遥感图像处理软件进行分析和解译,提取出对光伏电站建设有重要影响的关键因素&am…

【Git使用】向Gitee/Github上传代码时配置gitignore忽略文件

概述: 在进行项目开发时,尤其是使用Git进行版本控制时,我们经常会遇到一些不需要上传到代码仓库的文件,比如编译生成的文件、临时文件、日志文件等。这时候,我们就需要使用.gitignore文件来忽略这些文件。本文将介绍如…

单点登录sso部署

文章目录 同域下的单点登录原理不同域下的单点登录原理 第三方 OAuth2 授权登录支持第三方登录 本地用keycloak实现1、生成证书2、编写docker-compose.yml文件3、创建持久化数据目录4、接下来启动docker-compose5、访问keycloak 单点登录英文全称Single Sign On,简称…

宠物浮毛难清理,希喂、小米、美的宠物空气净化器该选哪款?

养猫养出病来说的就是我了。 养猫之前幻想的一人一猫幸福生活还没一个月,我就进了医院。我自认为是很爱干净的人,养猫后打扫得更勤快了,早晚都给猫咪梳毛。平时卫生也没少搞,家里也是很干净的,实在不明白为什么会过敏…

语义分割性能提升---通过优化损失改进分割效果

本文主要总结最近的调研调试结果,介绍通过改进损失来提升语义分割的分割效果;当然还有其他途径,比如蒸馏(提升分割效果)、剪枝(提升fps),之前博客有总结,此处不做介绍。 …

数字化AI直播系统领创者:赋能无人直播新动力,永久告别假AI!

数字化AI直播系统领创者:赋能无人直播新动力,永久告别假AI! 在数字化浪潮汹涌的今天,AI技术正以前所未有的速度渗透并重塑着各行各业,而直播行业作为数字经济的重要组成部分,更是迎来了AI技术深度融合的崭…