OpenAI的o1模型与Transformer的无限潜力:数学证明推理算力无上限

news2024/9/20 19:14:07

近期,斯隆奖得主马腾宇和Google Brain推理团队创始人Denny Zhou合作,提出了一项引人注目的数学证明:只要思维链(CoT)足够长,Transformer就有能力解决各种复杂问题。这一发现引发了广泛关注,因为它为Transformer模型在推理算力方面的Scaling Law揭示了巨大的潜能

图片

他们通过严谨的数学方法证明,Transformer具备模拟任意多项式大小数字电路的能力。这一研究成果也成功入选ICLR 2024。

图片

正如一些网友所说,CoT的集成缩小了Transformer与图灵机之间的差距,为其实现图灵完备性铺平了道路。

图片

这意味着,神经网络理论上可以高效解决复杂问题。简而言之:Compute is all you need!

图片

思维链(CoT)让Transformer更强大

首先,需要明确的是,“可以解决任何问题”是一个通俗化的说法。严格来说,论文的核心结论是,思维链(CoT)能够显著提升Transformer的表达能力。

作者首先通过理论分析指出,对于固定深度、多项式宽度、常数精度的Transformer模型,如果不使用CoT,其表达能力将受限于AC0问题类别。(AC0是一类可以在并行计算中高效解决的问题,但不包括需要复杂序列化计算的问题。)

在固定指数位的情况下,即使引入了舍入操作,固定深度、对数精度的Transformer模型也只能处理TC0问题类别。

然而,一旦引入CoT,固定深度、常数精度的Transformer模型就可以解决任何由大小为T的布尔电路所解决的问题。

这表明CoT显著扩展了模型的表达能力,使其能够处理更复杂的问题。

图片

实验验证:四个核心问题

为了验证理论分析,论文在四个核心问题上进行了实验,考虑了基础(base)、CoT和提示(hint)三种不同的训练设置:

  1. 模运算(Modular Addition):并行计算问题,验证CoT在提升模型准确性方面的效果;

  2. 置换群组合(Permutation Composition):序列化计算问题,验证CoT在处理这类任务上的有效性;

  3. 迭代平方(Iterated Squaring):典型的序列化计算问题,展示CoT如何使模型有效求解;

  4. 电路值问题(Circuit Value Problem):一个P完全问题,验证CoT在模型深度较低时的有效性。

模运算问题上,实验结果表明,所有设置下的Transformer都能学习模加;但在较长序列(如n=16)上,CoT展现出明显优势。这说明即使是并行问题,CoT也能提升效率。

图片

置换群复合任务中,输入是S_5置换群中的若干个置换,输出是它们的复合结果。结果显示,CoT显著提高了低深度模型的准确性。未使用CoT的Transformer即使深度较大,准确率也只有约20%;而使用CoT后,即使只有1层Transformer,准确率也达到了100%。

图片

对于迭代平方任务,输入是一个质数p、一个整数r和若干个“^2”符号,输出是r^(2^k) mod p。实验结果与置换群复合任务类似:未使用CoT的情况下,即使是16层Transformer也难以学习;而使用CoT后,1层Transformer就能完美求解。

图片

电路值问题的实验结果表明,在基准设置下,4层Transformer的准确率约为50%,8层约为90%,16层接近100%;而使用CoT后,1层Transformer即可达到接近100%的准确率。这验证了CoT赋予了Transformer模拟任意电路的能力,使其能够解决电路值问题这一P完全问题。

图片

CoT+Transformer模拟门电路

除了上述实验,作者还进行了理论证明:

对于任何可以用多项式大小的布尔电路计算的函数,都存在一个仅有常数层数的Transformer,可以通过足够长的思维链(CoT)来模拟电路的计算过程,从而计算出这个函数。

证明的思路是先将布尔电路视为一系列逻辑门的组合,然后利用Transformer中的位置编码为每个逻辑门及其状态分配一个独特的表示,通过逐步计算来模拟整个电路的执行过程。

图片

具体而言,对于一个有T(n)个门的电路,作者设计了一个4T(n)个token的输入序列。这个序列包含了电路的完整描述,每个门用4个连续的token表示:门类型、两个输入门的索引和当前门的索引,并用输入序列中的第一个token指示电路的输入值。

作者构造了一个常数深度的Transformer,该Transformer的嵌入维度只需要O(log n),就足以对T(n)个门进行编码。通过将电路“展开”为一个长度为O(T(n))的思维链,Transformer逐步执行电路中的计算,并将中间结果存储在思维链中。最终,最后一个门的输出就对应了电路的最终输出。

在此基础上,作者进一步证明,具有O(T(n))长度CoT的常数深度Transformer,可以模拟任意T(n)大小的电路,因此其计算能力等价于多项式大小的电路。

理论打通,实际可行吗?

能够模拟电路的计算过程,意味着CoT+Transformer能够解决可计算问题。这也说明,只要有足够的CoT思考时间,大模型无需扩展尺寸也能解决复杂问题。

图片

有专业人士用一篇长文解释了CoT和图灵完备性之间的关系:如果没有CoT,Transformer仅限于执行AC0复杂度类中的并行任务;而CoT推理从根本上改变了这一格局,使Transformer能够通过中间推理token处理串行计算,进入P/poly领域。

理论上,只要有足够的CoT步骤,Transformer就能模拟多项式大小电路可以执行的任何计算,缩小与图灵机之间的差距。

然而,实际应用的限制仍然存在,例如有限的上下文窗口和计算资源。要充分利用这一潜力,需要精细的模型设计和优化。

图片

与OpenAI的“草莓”模型的联系

有人将这项成果与OpenAI的“草莓”模型o1联系到了一起——草莓同样是思考时间越长,准确性越高。按照这个思路,只要有好的模型,就有可能解决人类面临的一系列难题。

图片

甚至有人表示,如果这项研究是真的,那么AGI(通用人工智能)就已经在到来的路上了。

图片

然而,也有观点认为这只是一个理论结果,与实际应用还有较大差距。即使忽略理论与实际条件的不同,时间和成本问题也是重要的限制因素。

图片

同时,实验假设模型权重已正确设置,但实际模型的训练很难达到这一程度。此外,这种模拟门电路运算并不是大模型实际学习和工作的方式。如何将实际问题用布尔电路表示,是Transformer从能解决运算问题到实际问题的关键。而现实中,诸如“如何治疗癌症”这类问题,很难以电路的形式去描述。

图片

作者简介

该论文共有四位作者,皆为华人。

按署名顺序,第一位作者是清华姚班校友李志远,他是马腾宇已毕业的博士生,现任芝加哥丰田技术学院(TTIC)的终身助理教授。

第二位作者是Hong Liu,马腾宇的博士生,本科就读于清华,曾获特等奖学金及优秀毕业生荣誉。

第三位是Google Brain推理团队创建者Denny Zhou,他是中科院博士,2017年加入Google前在微软担任了11年的高级研究员。

最后一位是2021年斯隆奖得主、斯坦福大学助理教授马腾宇,他是姚班校友、陈丹琦的同班同学。

论文地址:
https://arxiv.org/abs/2402.12875
参考链接:
[1]https://x.com/denny_zhou/status/1835761801453306089
[2]https://www.reddit.com/r/singularity/comments/1fiemv4/denny_zhou_founded_lead_reasoning_team_at_google/

ChatGPT4o:

谷歌浏览器直接使用:https://www.nezhasoft.cn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2142795.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

驱动器磁盘未格式化难题:深度剖析与恢复实践

驱动器磁盘未格式化的深层探索 在数据存储与管理的日常中,驱动器作为我们数字生活的基石,其稳定性直接关系到数据的安全与可用性。然而,当屏幕上赫然出现“驱动器中的磁盘未被格式化”的提示时,许多用户往往感到手足无措&#xf…

把设计模式用起来!(3)用不好模式?之时机不对

上一篇:《把设计模式用起来(2)——用不好?之实践不足》 本篇继续讲设计模式用不好的常见原因,这是第二个:使用设计模式的时机不对。 二、时机不对 这里说的时机并不是单纯指软件研发周期中的时间阶段&…

C++11新增特性:lambda表达式、function包装器、bind绑定

一、lambda表达式 1)、为啥需要引入lambda? 在c98中,我们使用sort对一段自定义类型进行排序的时候,每次都需要传一个仿函数,即手写一个完整的类。甚至有时需要同时实现排升序和降序,就需要各自手写一个类&…

基于SSM的社区爱心捐赠管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于JavaSSMVueMySQL的社区爱…

任嘉伦新剧《流水迢迢》:卫昭多层人设引关注

近日,由晋江文学城同名小说改编的武侠古装爱情传奇剧《流水迢迢》即将开播,这部由任嘉伦主演的新剧,在原著和阵容的双双加持下热度直线上涨,宣传阶段就已备受网友期待,预约人数截止9月13日已达到206万,上升…

通信工程学习:什么是GPON吉比特无源光网络

GPON:吉比特无源光网络 GPON(Gigabit-Capable Passive Optical Network,吉比特无源光网络)是一种基于ITU-T G.984.x标准的最新一代宽带无源光综合接入技术。该技术以其高带宽、高效率、大覆盖范围和用户接口丰富等特点&#xff0c…

ubuntu服务器版NVIDIA驱动失效解决方案

ubuntu服务器版NVIDIA驱动失效解决方案 1. 问题描述2. 解决方法--卸载并重新安装最新版显卡驱动cudacudnn2.1 卸载显卡驱动2.2 重新安装最新版显卡驱动cudacudnn2.2.1 显卡驱动2.2.2 cuda2.2.3 cuda安装cudnn 1. 问题描述 在终端输入nvidia-smi,输出如下&#xff1…

Leetcode—移除元素

移除元素 题目描述 思路 思路:定义两个指针变量指向数组第一个位置,判断nums[scr]是否等于val case1:相等,scr; case2:不相等,nums[dst]nums[scr],scr,dst; 时间复杂度:O(n);空间复杂…

微信支付开发-后台统计工厂实现

一、数据库设计图 二、后端统计工厂逻辑 1、统计父抽象类 a、StatisticsHandle.php 2、统计工厂通道类 a、StatisticsFactory.php 3、查询实现类 a、答题统计(Answer.php) 三、后端统计工厂代码实现 1、统计父抽象类(StatisticsHandle.php) <?php /*** 统计父抽象类* Use…

基于密码的大模型安全治理的思考

文章目录 前言一、大模型发展现状1.1 大模型技术的发展历程1.2 大模型技术的产业发展二、大模型安全政策与标准现状2.1 国外大模型安全政策与标准2.2 我国大模型安全政策与标准前言 随着大模型技术的迅速发展和广泛应用,其安全性问题日益凸显。密码学作为网络空间安全的核心技…

Linux搭建邮箱服务器(简易版)

本章是上一文档的简易版本搭建方式更为快速简洁&#xff08;只需要两条命令即可搭建&#xff09;&#xff0c;如果想了解更详细一些可以看我上一文档 Linux接发邮件mailx_linux mailx o365-CSDN博客文章浏览阅读857次&#xff0c;点赞25次&#xff0c;收藏19次。本文详细描述了…

计算机组成原理-3.1储存系统

现代结构 1.储存器的层次结构 辅存的数据要调入主存后才能被CUP&#xff0c;与操作系统的进程进行联动 运行速度&#xff1a;CPU>寄存器>Cache>主存>磁盘>磁盘和光盘 主存-辅存:实现了虚拟系统&#xff0c;解决了主存容量不够的问题。 Cache-主存&#xff1a…

二叉树的前中后序遍历(递归法)( 含leetcode上三道【前中后序】遍历题目)

文章目录 深入理解递归思想递归三要素 leetcode上三道题目&#xff1a;144.二叉树的前序遍历145.二叉树的后序遍历94.二叉树的中序遍历 深入理解递归思想 这次我们要好好谈一谈递归&#xff0c;为什么很多同学看递归算法都是“一看就会&#xff0c;一写就废”。 主要是对递归…

宝塔部署python项目

宝塔部署-python项目文章浏览阅读559次&#xff0c;点赞11次&#xff0c;收藏9次。在添加项目后&#xff0c;选择项目所在的路径&#xff0c;然后命令行启动主py文件。具体先看项目日志&#xff0c;根据日志在环境管理处下载包。首先下载项目需要的python版本。_宝塔部署python…

Typora安装,使用,图片加载全流程!!!

文章目录 前言&#xff1a;安装&#xff1a;破解&#xff1a;使用typora&#xff1a;关于CSDN加载不出图片&#xff1a;创建OSS&#xff1a;设置PicGo&#xff1a; 前言&#xff1a; ​ Typora是一款非常流行的Markdown编辑器&#xff0c;简单来说就是可以方便我们写博客。拿我…

禁忌搜索算法(TS算法)求解实例---旅行商问题 (TSP)

目录 一、采用TS求解 TSP二、 旅行商问题2.1 实际例子&#xff1a;求解 6 个城市的 TSP2.2 **求解该问题的代码**2.3 代码运行过程截屏2.4 代码运行结果截屏&#xff08;后续和其他算法进行对比&#xff09; 三、 如何修改代码&#xff1f;3.1 减少城市坐标&#xff0c;如下&am…

论文阅读: SigLit | SigLip |Sigmoid Loss for Language Image Pre-Training

论文地址&#xff1a;https://arxiv.org/pdf/2303.15343 项目地址&#xff1a;https://github.com/google-research/big_vision 发表时间&#xff1a;2023年3月27日 我们提出了一种用于语言图像预训练&#xff08;SigLIP&#xff09;的简单成对 Sigmoid 损失。与使用 softmax …

Redis 篇-初步了解 Redis 持久化、Redis 主从集群、Redis 哨兵集群、Redis 分片集群

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 分布式缓存概述 2.0 Redis 持久化 2.1 RDB 持久化 2.1.1 RDB 的 fork 原理 2.2 AOF 持久化 2.3 RDB 与 AOF 之间的区别 3.0 Redis 主从集群 3.1 搭建主从集群 3.2…

new/delete和malloc/free到底有什么区别

new和malloc 文章目录 new和malloc前言一、属性上的区别二、使用上的区别三、内存位置的区别四、返回类型的区别五、分配失败的区别六、扩张内存的区别七、系统调度过程的区别总结 前言 new和malloc的知识点&#xff0c;作为一个嵌入式工程师是必须要了解清楚的。new和malloc的…

驱动器磁盘未格式化危机:专业数据恢复实战指南

认识危机&#xff1a;驱动器中的磁盘未被格式化 在日常的数字生活中&#xff0c;我们时常依赖于各种存储设备来保存重要的文件、照片、视频等数据。然而&#xff0c;当某一天你尝试访问某个驱动器或外接硬盘时&#xff0c;突然弹出的“驱动器中的磁盘未被格式化。您想现在格式…