【深度分析】OpenAI o1是最强的推理模型,却不是最强模型!

news2024/9/20 9:09:13

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

就在昨天(9月12日),OpenAI高调发布了全新的AI模型o1,同一时刻,各路媒体开始纷纷跟进。如果你以OpenAI o1作为关键词进行搜索,定然会看到诸如“最强大”、“地表最强”、“猎杀时刻”、“AI新时代”等等定语形容词。然而,虽然不可否认o1模型在推理方面确实很强,但当前版本的o1距离“最强”的完全体还有着不小的距离。且听我一一道来。

o1是最强的推理模型

o1最强,记得加上“推理”二字。

为什么推理如此重要?我在《OpenAI提出从AI到AGI通用人工智能的五级分类系统!》一文中曾详细解释OpenAI提出的从AI到AGI(通用人工智能)的五个发展阶段。这也代表着OpenAI的“野心”。

AI发展的第一阶段是基础AI,如当前的ChatGPT,能进行自然语言处理和简单对话,但推理和解决复杂问题的能力有限。第二阶段是推理者,具备更强的逻辑推理能力,能够解决博士级学术问题,并在多个领域展现专业知识。第三阶段是代理AI,能理解并执行用户需求,如预约、发邮件等。第四阶段是创新AI,具备自主研究和开发新技术的能力,推动科学进步。最高阶段是组织AI,代表AGI的最终形态,能够跨领域协同创新,提供复杂的专业服务。

ChatGPT处于第一阶段,是“基础AI”,那么,这次新推出的o1模型是第几阶段应该一目了然了吧。o1这个推理模型的发布也代表着OpenAI愿景的进一步推动,从第一阶段跨入了第二阶段,这也是为什么新模型不叫“GPT-5”,而是从1开始重新记录版本号,称为o1的原因。

基于o1模型的训练方式,其强大的推理能力几乎是必然。让我们来看OpenAI官方的介绍。

o1 models think before they answer, and can produce a long internal chain of thought before responding to the user.

简单来说,o1模型和GPT-4o不同的是,GPT-4o几乎可以做到实时响应,而o1则会在回答之前执行精细化的“思考”,即内部思维链(internal chain of thought)。思维链是什么?是让AI模型模拟人类思考过程的一种技术手段,使得AI模型更“聪明”,从而获得更高质量的输出结果。思维链技术经常被用在提示工程中。更详细的介绍可以参考我这篇文章《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》。

在这样的训练方式下,o1模型取得了亮眼的标准化测试成绩:在国际数学奥林匹克(IMO)考试中正确率达到了惊人的83%,而GPT-4o的正确率仅有13%,在物化生等复杂学科的高难度基准任务上,表现与博士生相当

也正因此,有了OpenAI宣传的AI基准测试的结果对比图。o1o1-previewo1-mini在多个测试中大幅超越GPT-4o,比如GPQA (General Purpose Question Answering),测试模型在多领域科学问题上的推理能力,以及MATH-500,专注于数学推理的测试。

也正因为o1模型能够在回答问题前自主推理,它的安全性能很高,更不容易被“越狱”。这也是OpenAI大力宣传的一点。上一代的GPT-4o在越狱测试中的得分仅为22(满分100分),而o1-preview模型则取得了84的高分。

所以,o1是最强的,“推理”,模型。

o1还达不到“最强”模型

“看,这只是一只普通的、会拉屎的兔子而已。”

1. 以时间换质量

当前的o1模型是以时间换输出质量。基于之前讨论的训练方式,o1模型在回答前需要先“思考”,即推理,然后回答问题。

以OpenAI官方给出的案例为例,当我们输入问题“Give me five countries with letter A in the third position in the name”,GPT-4o在3秒内即给出了答案,但回答错误;o1-mini则用时9秒,回答正确;o1-preview更是花了32秒回答正确这个问题,其中思考时间长达30-31秒。

注意,o1模型是不区分简单问题还是复杂问题的,一律按照先思考、后回答的流程来给出答案。如果是一个非常复杂的任务或问题,那么这种思维链思考肯定是有意义的,但如果是普通模型就能解决的任务,那么完全没有必要来进入内部思维链。

2. 纯文本模型

当前的o1模型是一个纯文本模型,不具备多模态能力

在介绍o1时,OpenAI明确提到:“As an early model, it doesn't yet have many of the features that make ChatGPT useful, like browsing the web for information and uploading files and images”。意思是o1模型还无法处理文件、图片等类型的输入。

所以,在ChatGPT中如果你选择了o1模型,在输入框左侧的文件上传按钮会被自动隐藏。

而当你当前的会话中如果上传过文件或图片,此时你打开模型选择的下拉菜单,就会看到下面的提示:This model doesn't support file attachments。该模型不支持文件上传。

3. 使用场景有限

以上两点会直接导致一个结果:当前o1模型的使用场景有限

响应速度慢,推理能力强,意味着o1模型非常适合复杂的任务,和OpenAI宣传的一样,o1对于处理“难题”很擅长。而对于一般的任务,有种“大炮打蚊子”的感觉。另外,纯文本模型决定了o1的使用场景是受限的,对于需要多模态输入的任务中,当前的o1还难以胜任。

以上分析也和OpenAI特意强调的o1模型的适用人群吻合。OpenAI表示,o1特别适合那些需要处理复杂问题的专业领域,无论是科学研究代码开发,还是数学运算等相关领域。而OpenAI给出的3个例子无一不是垂直领域的使用案例,比如帮助医疗研究人员标注细胞测序数据,生成量子光学所需的复杂数学公式,帮助开发者构建和执行多步骤的工作流程。

基于此,o1模型更像是一个工程产品,而不是一个全新的AI基座模型。小伙伴们可以细想,OpenAI在发布GPT-4或者GPT-4o时有强调过特定的适用人群吗?

4. 使用成本太高

当前的o1模型使用成本太高

当下的o1模型还不是完全体,从目前已发布的模型名称就能看出来:o1-previewo1-mini。预览版本算是提前发布。

o1模型使用成本高体现在两个方面。

首先是使用权限。目前只有ChatGPT PlusTeam付费会员可以在ChatGPT获得o1模型的使用权限,并且已全面放开。开发者则可以通过API调用使用o1模型,但,划重点,只有使用等级5(usage tier 5)的账号有权限调研o1模型。o1在使用数量上的限制也很严格。ChatGPT Plus和Team会员每周可以使用30o1-preview50o1-mini对话。而o1API调用的数量限制为每分钟20次调用(20 RPM),这个数量是不足以大规模商用的。

其次是token的消耗方面。o1模型的训练方式决定了它在每一次回答时消耗的token数是巨大的,因为模型首先需要进入内部思维链进行“思考”,这一步就开始消耗token,然后输出答案,这一步继续消耗token。所以随便一个问题,很有可能就消耗上万个输出tokens,意味着几美元的问答成本。

目前o1-preview模型API定价为:15美元每百万输入tokens和60美元每百万输出tokens;o1-mini模型API定价为:3美元每百万输入tokens和12美元每百万输出tokens。

结语

OpenAI o1模型虽强,但也要理性看待,它并没有那么“神”乎其神。


精选推荐

  1. 重磅!OpenAI正式发布博士水平的推理模型o1!附详细说明

  2. ChatGPT Pro都来了,ChatGPT Pro Max还会远吗?

  3. OpenAI提出从AI到AGI通用人工智能的五级分类系统!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2142988.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

磁盘写操作压力测试工具的设计与实现

磁盘写操作压力测试工具的设计与实现 1. 设计概述2. 关键技术点3. 伪代码设计4. C代码实现5. 运行与测试6. 结论在进行磁盘性能评估时,写操作压力测试是不可或缺的一部分。本篇文章将介绍如何使用C语言结合系统调用,设计并实现一个针对磁盘写操作的压力测试工具。这个工具将模…

【设计模式-桥接】

定义 桥接模式(Bridge Pattern)是一种结构型设计模式,它通过将抽象部分与实现部分分离,使它们都可以独立地变化。桥接模式的关键在于将类的抽象部分与其实现部分解耦,以便两者可以独立地变化。这种设计模式的一个主要…

湖北产教融合教育研究院成功协办武汉工程大学2024年同等学力申硕开学典礼

9月7日,武汉工程大学(流芳校区)教育教学综合楼102报告厅内庄严肃穆,近百位怀揣梦想、追求卓越的学子与校领导、教师代表汇聚一堂,共同迎接“乘风破浪 逐光前行”武汉工程大学2024年同等学力申请硕士学位人员开学典礼的…

【觅图网-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

搜索二叉树的认识以及底层实现

如果说到对一个数组进行查找相应的数据,要求效率最高,大家会想到什么方式呢?二分查找?二分查找的效率确实很高,时间复杂度为O(logN)。但是如果我们想要在数组当中添加新的数据呢?加上这一功能之后二分查找的…

KVM创建的虚拟机无法访问外网

基础环境如下: [rootlocalhost ~]# virsh domifaddr CentOS7_YFName MAC address Protocol Address -------------------------------------------------------------------------------vnet0 52:54:00:cb:a6:0d ipv4 192.168.…

后台数据管理系统 - 项目架构设计-Vue3+axios+Element-plus(0917)

十一、登录注册页面 [element-plus 表单 & 表单校验] 注册登录 静态结构 & 基本切换 安装 element-plus 图标库 pnpm i element-plus/icons-vue静态结构准备 <script setup> import { User, Lock } from element-plus/icons-vue import { ref } from vue cons…

P2865 [USACO06NOV] Roadblocks G

*原题链接* 次短路模版题 在刚学最短路时&#xff0c;我做过这道题集合位置&#xff0c;那时博客上写的是枚举删除最短路上的边&#xff0c;然后求解。不过这种做法最坏时间复杂度可以有&#xff0c;对于这道题数据范围较大&#xff0c;所以可以用更好写&#xff0c;思维难度…

Linux学习记录十四----------线程的创建和回收

文章目录 五、Linux线程1.守护进程1.1.守护进程的特点1.2.进程组1.3会话1.4创建守护进程模型 2.线程的概念3.线程的创建及相关函数3.1.创建线程‐‐pthread_create3.2.单个线程退出 --pthread_exit3.3.阻塞等待线程退出&#xff0c;获取线程退出状态--pthread_join3.4.线程分离…

python怎么运行cmd命令

使用os.system(“cmd”) 该方法在调用完shell脚本后,返回一个16位的二进制数,低位为杀死所调用脚本的信号号码,高位为脚本的退出状态码,即脚本中“exit 1”的代码执行后,os.system函数返回值的高位数则是1,如果低位数是0的情况下,则函数的返回值是0100,换算为10进制得到256。 …

JavaScript web API完结篇---多案例

BOM window对象 >包含docment Browser Object Model 定时器–延时函数 之前学的是间歇函数 让代码延迟执行 仅执行一次 setTimeout(回调函数&#xff0c;等待毫秒数) 消除 clearTimeout(timer) > 用于递归时需要进行去除 JS执行机制 单线程 > 一个任务结束&…

ROS组合导航笔记2:使用外部定位系统

在上一单元中&#xff0c;我们了解了如何合并不同传感器的数据以生成机器人的姿势估计。因此&#xff0c;基本上&#xff0c;我们介绍了图表的以下部分&#xff0c;其中向 robot_localization 节点提供了不同的传感器&#xff0c;以便通过卡尔曼滤波器进行合并。 但是...图表的…

【浅水模型MATLAB】尝试复刻SCI论文中的溃坝流算例

【浅水模型MATLAB】尝试复刻SCI论文中的溃坝流算例 前言问题描述控制方程及数值方法浅水方程及其数值计算方法边界条件的实现 代码框架与关键代码模拟结果 更新于2024年9月17日 前言 这篇博客算是学习浅水方程&#xff0c;并利用MATLAB复刻Liang (2004)1中溃坝流算例的一个记录…

【FreeRL】Rainbow_DQN的实现和测试

文章目录 前言环境1 PER note2 C51 note3 Noisy note4 Rainbow note其他 前言 具体代码实现见&#xff1a;https://github.com/wild-firefox/FreeRL/blob/main/DQN_file/DQN_with_tricks.py 将其中所有的trick都用上即为Rainbow_DQN。 效果如下&#xff1a;&#xff08;学习曲…

word文档的写入(1)

Word文档的写入 我们手动复制Excel信息&#xff0c;再粘贴进Word&#xff0c;进行文件保存的整个操作。属于机械性的重复劳动&#xff0c;并不能带来太大价值。在Excel和Word的操作内&#xff0c;也没有能很好解决此类问题的方法。如果遇到信息一多&#xff0c;几十上百个文件&…

Win11小技巧之调节音量

无意中发现&#xff0c;鼠标悬停在喇叭&#x1f508;处可通过滚轮调节音量&#xff0c;无需每次都点开音量面板&#xff0c;再悬停在音量滚动条处通过滚轮调节&#xff01;&#xff08;设计师……怎么不早告诉我……&#xff09; 不用点开&#xff0c;之前一直都是这么调节音量…

c++—多态【万字】【多态的原理】【重写的深入学习】【各种继承关系下的虚表查看】

目录 C—多态1.多态的概念2.多态的定义及实现2.1多态的构成条件2.2虚函数的重写2.2.1虚函数重写的两个例外&#xff1a;2.2.1.1协变2.2.1.2析构函数的重写 2.3 c11的override和final2.3.1final2.3.2override 2.4 重载、重写、重定义的对比 3.抽象类3.1抽象类的概念3.2接口继承和…

5款录屏软件电脑版,哪一款更适合你?

身边不少做行政的小伙伴&#xff0c;经常需要制作一些培训视频、会议记录或是演示文稿。这就要求他们必须掌握一款好用的录屏软件。作为一个经常搜索各种办公软件的人&#xff0c;今天&#xff0c;我就来分享一下我使用过的五款录屏软件在录制电脑屏幕时的表现。 1、福昕录屏大…

枚举类题目练习心得

两数之和 题目如下&#xff1a; 一点思路&#xff1a;该题目仅限于数据量少的情况使用枚举&#xff0c;从题目分析来看&#xff0c;需求是给定一个数字&#xff0c;要求在给定数组中找到两个数字并使这两个数字和为给定数字且返回目标数字下标。参考题解思路结合本身思路代码…

Leetcode—环形链表||

题目描述 思路 快慢指针 结论 我们需要用到一个重要的结论&#xff1a;让一个指针从链表起始位置开始遍历链表,同时让一个指针从判环时相遇点的位置开始绕环运行,两个指针都是每次均走一步,最终肯定会在入口点的位置相遇。 画图解释 1.利用快慢指针找到相遇点 2. 定义两个…