突发!OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平

news2024/9/21 12:12:46

梦晨 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

 

 参考ChatGPT:点击使用


来了来了!刚刚,OpenAI新模型无预警上新:

o1系列,可以进行通用复杂推理,每次回答要花费更长时间思考。

在解决博士水平的物理问题时,GPT-4o还是“不及格”59.5分,o1一跃来到“优秀档”,直接干到92.8分

没错,传说中的「草莓」,终于来与大家见面了!

CEO奥特曼称它是一种新范式的开始:可以进行通用复杂推理的人工智能。

具体来说,o1系列是OpenAI首个经过强化学习训练的模型,在输出回答之前,会在产生一个很长的思维链,以此增强模型的能力。

换句话说,内部思维链越长,o1思考得越久,模型在推理任务上的表现就越好。

o1有多强呢?CEO奥特曼直给了答案:

在刚刚结束的2024 IOI信息学奥赛题目中,o1的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩。

如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌。

 

另外它还在竞争性编程问题 (Codeforces) 中排名前89%,在美国数学奥林匹克 (AIME) 预选赛题目中跻身美国前500名学生之列。 

与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

 

汇总官方发布的各种消息来看,这次突然发布的o1系列又分为三个型号:

o1,新的大模型天花板,过于强大目前不方便对外公开。

o1-preiview,o1的早期版本,可以立即提供给ChatGPT付费用户和API用户。

o1-mini,速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务。

不少OpenAI员工都分别用“系统1”和“系统2”思考来科普o1系列与之前模型的区别。

连长期休假中的总裁Brockman都“诈尸”回归了。

思维链提示方法的原作者Jason Wei表示,这一次不是纯粹通过提示来完成思维链,而是使用强化学习训练模型以更好地执行链式思考。

在深度学习的历史中,人们一直试图扩展训练阶段的计算,但思维链是自适应计算的一种形式,现在也可以在推理时扩展。

新模型做了很多类似人类的事情,比如将棘手的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。

游戏已被完全重新定义。

 

 

o1:AI能力新天花板

通过训练,o1模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

不过作为早期模型,它尚不具备ChatGPT的许多有用功能,例如联网搜索以及上传文件和图像。

但对于复杂的推理任务来说,这是一个重大进步,OpenAI称代表了人工智能的最高水平。

鉴于此,他们决定将计数器重置,并将该系列模型命名为OpenAI o1。

随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能持续提高,新的Scaling Law诞生了。

不过这种方法的Scaling受到的限制与普通预训练有很大不同,OpenAI正在继续研究它们。

o1思考起来是什么样子?可以从官网示例中的编写Bash脚本的编程任务一窥究竟。

首先作为对比,GPT-4o会直接就开始写代码,遗憾得到错误结果。

 

而o1-preiview会先用自己的理解复述一遍要求,然后开始拆解要求,明确最终目标。

接下来它会给自己定义任务、分析限制条件、列出需要用到的方法。

 进一步把任务拆解成明确的数个小步骤。

最后才动手编写代码,并保证一次性得到正确结果。

OpenAI表示,o1系列可以帮医疗保健研究人员来注释细胞测序数据,帮助物理学家可以生成量子光学所需的复杂数学公式,所有领域的开发人员可以使用o1来构建和执行多步骤工作流程。

而且不是说说而已,OpenAI已经邀请相关的人类专家学者试用了一波。

马克思普朗克研究所的量子物理学者Mario Krenn,展示了GPT-4o不能回答但o1-preview正确完成计算的复杂量子物理问题。

除了考试和学术基准之外,团队还评估了人们对o1-preview与GPT-4o在开放问题上的偏好。

在数据分析、编码和数学等推理密集型类别中,o1-preview明显优于gpt-4o。

然而o1-preview在某些自然语言任务上并不是首选,这表明它并不适合所有场景。

OpenAI科学家Noam Brown分享了更详细的个人测试结果。

在上个月的ACL会议上有一个所有当时大模型都无法解决的逻辑难题。o1-preview能够做对,o1满血版几乎每次尝试都能做对。

 

目前o1花费在思考上的时间是几秒到十几秒,但OpenAI未来的改进方向不是缩短,反而是努力增加这个时间,

目标是让未来的版本思考几个小时、几天甚至几周。

推理成本会更高,但你会为一种新的抗癌药物付多少钱?为了电池的突破、黎曼猜想的证明又付多少?

人工智能可以不仅仅是聊天机器人

 

 

谁可以访问o1?

根据OpenAI官方说法,ChatGPT Plus和Team用户最早可在几个小时内可以体验到o1系列模型。

在发布时,o1-preview限制为每周30条消息,o1-mini每周50条。

API访问权限将首先给Tier 5级用户,也就是已经在OpenAI API上花费超过1000美元的人。

 

 

OpenAI正在努力提高这些速率,并使ChatGPT能够针对给定的提示自动选择合适的模型。

快打开ChatGPT看看你是不是第一波吃草莓的人吧!


参考链接:

https://openai.com/o1/

https://x.com/polynoamial/status/1834280155730043108

原文链接:突发!OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2134352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

034-GeoGebra中级篇-关于geogebra的版本以及如何下载本地geogebra

目前,geogebra常用的有geogebra5和geogebra6,本文旨在对比GeoGebra 5和GeoGebra 6两个版本,以揭示它们在功能、用户体验和性能上的主要差异。GeoGebra 5作为一款成熟的数学软件,已经为用户提供了丰富的功能来进行几何、代数、统计…

太牛了!顺丰丰语大语言模型:已应用于20余个场景

9月8日,顺丰科技在深圳国际人工智能展上发布了物流行业的垂直领域大语言模型——丰语,并展示了大模型在顺丰的市场营销、客服、收派、国际关务等业务板块的二十余个场景中的落地实践应用。 发布会现场,中国科学院院士姚建铨、美国医学与生物…

JVS逻辑引擎:如何实现复杂业务逻辑的邮件自动化

大家好,我是软件部长,今天给大家介绍JVS逻辑引擎的发送邮件节点功能。 JVS提供低代码、物联网、规则引擎、智能BI、逻辑引擎、无忧企业文档(在线协同)、无忧企业计划、无忧企业邮筒等平台,欢迎关注微信公众号: 【软开企…

C# WinForm 中 DataGridView 实现单元格cell 能进编辑状态但是不能修改单元格的效果

在Windows Forms(WinForms)开发中,DataGridView 控件是一个功能强大的组件, 用于显示和管理表格数据。无论是展示大量数据,还是实现交互式的数据操作, DataGridView 都能提供多样的功能支持,比如…

基于姿态估计的运动打卡健身系统-AI健身教练-3d姿态估计-摔倒检测应用-姿态估计与计数

基于姿态估计的运动系统 引言 随着计算机视觉技术的发展,人体姿态估计(Pose Estimation)已成为一种广泛应用的技术,特别是在健身、康复训练、体育等领域。姿态估计旨在从图像或视频中检测和定位人体的关键点,如关节位…

【深度学习】【图像分类】【OnnxRuntime】【Python】VggNet模型部署

【深度学习】【图像分类】【OnnxRuntime】【Python】VggNet模型部署 提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论 文章目录 【深度学习】【图像分类】【OnnxRuntime】【Python】VggNet模型部署前言Windows平台搭建依赖环境模型转换--pytorch转onnxONN…

Understanding the model of openAI 5 (1024 unit LSTM reinforcement learning)

题意:理解 OpenAI 5(1024 单元 LSTM 强化学习)的模型 问题背景: I recently came across openAI 5. I was curious to see how their model is built and understand it. I read in wikipedia that it "contains a single l…

计算机网络29——Linux基本命令vim,gcc编译命令

1、创建新用户 2、给用户设置密码 3、切换到新用户 切换到root用户 4、删除用户 5、查看ip 6、ping 查看物理上两台主机是否联通 7、netstatus 8、nslookup 查看网址的地址 9、负载均衡与容灾备份 负载均衡:指将负载(工作任务)进行平衡、分…

为什么mac打不开rar文件 苹果电脑打不开rar压缩文件怎么办

你是否遇到过这样的情况,下载了一个rar文件,想要查看里面的内容,却发现Mac电脑无法打开。rar文件是一种常见的压缩文件格式,它可以将多个文件或文件夹压缩成一个文件,节省空间和传输时间。如此高效实用的压缩文档&…

JavaEE:网络初识

文章目录 网络初识网络中的重要概念IP地址端口号认识协议(最核心概念)OSI七层模型TCP/IP五层(或四层)网络模型网络设备所在分层封装和分用 网络初识 网络中的重要概念 网络互联的目的是进行网络通信,也是网络数据传输,更具体一点,是网络主机中的不同进程间,基于网络传输数据.…

论文解读《LaMP: When Large Language Models Meet Personalization》

引言:因为导师喊我围绕 “大语言模型的个性化、风格化生成” 展开研究,所以我就找相关论文,最后通过 ACL 官网找到这篇,感觉还不错,就开始解读吧! “说是解读,其实大部分都是翻译哈哈哈&#x…

域控操作十七点五:域用户无管理员权限下安装IT打包的软件

1,需要软件Runasspcadmin三件套和winrar压缩软件 2,将需要打包的软件放进这个文件夹内,使用播放器举个例子 3,打开runasspcadmin.exe 按图片写就行了 文件夹现在是这样的然后全选右击,用WinRAR添加到压缩包 这个可以自…

量化交易backtrader实践(一)_数据获取篇(4)_通达信数据应用

在第2节实践了从金融数据接口包例如tushare.pro或akshare获取数据,在第3节实践了直接从网页上爬取股票数据。其实,我们的电脑上怎么可能没有几个股票软件,在这些股票软件里,历史行情,实时行情都有,我们能否…

Windows环境本地部署Oracle 19c及卸载实操手册

前言: 一直在做其他测试,貌似都忘了Windows环境oracle 19c的部署,这是一个很早很早的安装记录了,放上来做个备录给到大家参考。 Oracle 19c‌:进一步增强了自动化功能,并提供了更好的性能和安全性。这个版本在自动化、性能和安全性方面进行了重大改进,以满足现代企业对数…

运维人员转行 AI 大模型全攻略:史上最详尽总结,一篇在手,转行无忧!

前言 做运维的苦,谁做谁懂。有时候真感觉自己就像个杂役,在公司都快成修电脑的了。不装了,我要转行!在此给大家分享点经验,希望能帮到你们。 运维工程师若要转行至大模型领域,需要学习一系列全新的技能与…

开放式耳机原理?五款超强单品推荐!

开放式耳机的原理其实挺直观的,它们不像那些把耳朵完全罩住或者塞住的封闭式耳机。开放式耳机通常就是轻轻地挂在耳朵上,声音通过空气传播,直接送到你的耳朵里。 这种设计有几个好处。首先,因为耳朵没有被完全封闭,所…

【开源项目】数字孪生公园~云南某湿地公园—开源工程及源码

飞渡科技数字孪生湿地公园管理平台,基于园林行业定制硬件以及传感器、摄像头等终端采集数据,借助自主研发国产渲染引擎,以人工智能、物联网、数字孪生技术作为核心,还原公园内外的真实场景,同时实现海量数据处理、系统…

DB-GPT部署和试用

前言 DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。 目的是构建大模型领域的基础设施,通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Mu…

哇!原来vscode的终端可以这么美

相信很多开发小伙伴经常可以看到,为什么别人的vscode的终端可以这么美,又有提示,还有git是提示,时刻告诉你现在正在处于哪个分支,接下来,就让我为大家告诉一个美化vscode终端的方法 先看效果 只要来到这个网…

linux_L2_linux删除文件

linux 删除文件 在Linux下删除文件有多种实现方法,以下是其中几种常见的方法: 方法一:使用rm命令删除单个文件 rm 文件路径例如,删除当前目录下的文件file.txt: rm file.txtQuestion :当你在Linux系统中使用rm命令删…