OpenAI 12连更第一弹:o1完全体,200刀一个月的ChatGPT Pro

news2025/1/20 1:44:25

来源 | 机器之心

一天前,OpenAI 官方 X 账户的一条推文将 AI 社区的期待值拉满了。这家世界头部 AI 公司宣布将在未来的 12 天进行 12 场直播,发布一些「大大小小的新东西」。

图片

这是 OpenAI 准备的圣诞礼物。

图片

至于这些「大大小小的新东西」究竟是什么,各路网友都纷纷给出了自己的预测,大致总结一下主题包括 Sora、完全体 o1、更长的记忆能力、实时视觉能力、Canvas 集成、高级语音模式、Computer Use、智能体甚至 AI 硬件设备等。但究竟如何,还得等着 OpenAI 自己来揭示。

现在,OpenAI 的第一场直播来了!

总结来说,两件事:期待已久的 o1 完全体(Full Version)、200 刀一个月的 ChatGPT Pro。

图片

OpenAI 著名研究科学家 Noam Brown 发帖表示,o1 完全体不仅能数出「strawberry」里有几个「r」(此前的模型经常在这一问题上栽跟头),还能更进一步,写出「一篇不使用字母『e』的关于草莓的三段短文」(GPT-4o 也尝试了这个任务,但第一个词就失败了)。

图片

图片

整场直播时间很短,大概 15 分钟,参与者包括 CEO Sam Altman、研究科学家 Hyung Won Chung 和 Max 以及思维链提出者 Jason Wei。

图片

视频:https://www.youtube.com/watch?v=iBfQTnA2n2s

o1 完全体

在今年 9 月份,OpenAI 发布 o1-preview 版本时,就曾对 o1 的技术思路进行了介绍:o1 是使用大规模强化学习训练并使用思维链进行推理的系列模型。

今天正式发布了 o1 完全体,也放出了新的 o1 System Card:https://cdn.openai.com/o1-system-card-20241205.pdf

整体而言,o1 完全体是一款更擅长编程、数学和写作的更快且更强大的推理模型,并且现在也增加了对图像上传的支持,这让 o1 可以使用视觉数据来生成更详细和更有用的响应。

OpenAI 表示,OpenAI o1 的思维更加简洁,因此响应时间比 o1-preview 更快。测试表明,o1 的性能也优于 o1-preview,将困难的现实问题的重大错误减少了 34%。

图片

除了完全体 o1,还有个更轻便的 o1-mini 版本,在编码方面特别高效。

如果你愿意花更多钱,升级到 ChatGPT Pro,还可以体验到 o1 pro 模式。这是 o1 的一个更高级版本,使用更多的计算进行更深入地思考,解答更难的问题。

与 o1 和 o1-preview 相比,o1 pro 模式在数学、科学和编码等 ML 基准测试中表现更佳。OpenAI 发言人表示:「在外部专家测试人员的评估中,o1 pro 产生了更可靠、更准确、更全面的回应,尤其是在数据科学、编程和判例法分析等领域。与 o1 和 o1-preview 相比,o1 pro 模式在数学、科学和编码方面具有挑战性的机器学习基准测试中表现更好。特别是,我们发现在更容易反映日常编程查询的编码竞赛题中,错误率降低了 75%。」

图片

为了突出 o1 pro 模式的主要优势(提高可靠性),OpenAI 使用更严格的评估设置:只有当模型在四次尝试中有四次能够正确回答问题(4/4 可靠性),而不是一次,才被认为解决了问题。

图片

正在尝鲜的用户们也在陆陆续续发掘出有关 o1 的更多技术细节,比如所支持的最大 token 数量为 196608。

图片

具体效果如何?

直播中,OpenAI 进行了演示。

首先,OpenAI 通过一个基于人工鸟巢图像生成安装手册的示例演示了 o1 基于视觉数据进行推理的能力:

图片

识别手绘图像也问题不大。对于一张手绘的太空太阳能驱动的数据中心示意图,o1 轻松估计出了其散热器表面积并解答了两个问题:如何处理太阳和深空环境,以及这里如何体现了热力学第一定律?并且整个推理过程仅需 10 秒钟。

图片

图片

推理速度方面,在解答「列出二世纪的罗马皇帝的在位时间和成就」的任务中,o1 完全体的推理时间大概为 14 秒,而 o1-preview 大概需要 33 秒。并且 Altman 表示实际部署之后的速度还会更快。

图片

那么,o1 处理更复杂问题的表现如何呢,比如能否基于多条描述推断出所描述的蛋白质种类?(注意这个问题之前的 o1-preview 无法正确解答。)

最终,在 pro mode 下,o1 完全体在思考了 53 秒之后得到了正确答案,并且还可以在 canvas 中了解更多细节。

图片

 

相当昂贵的 ChatGPT Pro

OpenAI 宣布为其人工智能聊天机器人平台 ChatGPT 推出新的订阅套餐 ——ChatGPT Pro,可以无限制地访问 OpenAI 的所有模型,包括其 o1「推理」模型的完整版本,但价格非常昂贵 —— 每月 200 美元。

图片

OpenAI 技术人员 Jason Wei 表示:「我们认为 ChatGPT Pro 的受众将是 ChatGPT 的高级用户,他们已经在数学、编程和写作等任务上将模型的能力推向极限。」

与大多数 AI 不同,o1 和其他推理模型可以有效地进行自我事实检查。这有助于它们避免一些通常会使模型出错的陷阱,但缺点是通常需要更长的时间才能找到解决方案。o1 通过任务进行推理、提前规划并执行一系列行动来帮助模型梳理出答案。

OpenAI 在 9 月份发布了 o1-preview,现在新版本 o1 的功能更加强大。

访问 o1 不需要订阅 ChatGPT Pro 套餐。所有 ChatGPT 付费用户都可以通过 ChatGPT 模型选择器工具访问 o1。OpenAI 表示,计划在未来几个月内增加对网页浏览、文件上传等功能的支持。

图片

当然,升级到 ChatGPT Pro,还可以体验到 o1 pro 模式。o1 pro 模式将「使用更多的计算来为最困难的问题提供最佳答案」。

ChatGPT Pro 用户可以通过在模型选择器中选择「o1 pro 模式」并直接提问来访问该功能。由于生成答案需要更长的时间,如果切换到另一个对话,ChatGPT 将显示进度条并发送应用内通知。

o1  pro 模式可能只是延长了模型在给出答案之前的「推理」时间。OpenAI 在其 o1 预览版公告中表示,它的目标是试验推理时间长达数小时、数天甚至数周的 o1 模型,以进一步提高其推理能力,而这很可能是朝这个方向迈出的一步。

OpenAI 还宣布了一项捐赠计划,向知名机构的医学研究人员赠送 10 套 ChatGPT Pro。该公司表示,他们未来还计划在「各个学科」提供更多捐赠。

为了增加吸引力,ChatGPT Pro 还包括无限制访问 GPT-4o 和高级语音模式(ChatGPT 的人机对话功能)。ChatGPT Plus 用户有每日使用时间限制,而免费用户仅限于预览。

然而,ChatGPT Pro 是 OpenAI 目前最昂贵的订阅服务,是 ChatGPT Plus 的 10 倍。考虑到许多用户已经认为 ChatGPT Plus 太贵,ChatGPT Pro 可能很难卖出去。

实际上,高级 ChatGPT 的涨价传闻由来已久。据《纽约时报》报道,到 2029 年,OpenAI 预计 ChatGPT Plus 的月收费将达到 44 美元。根据 The Information 的报道,该公司还萌生了超高价商业订阅的想法,这些订阅可提供额外的功能,并可访问正在开发的模型。

现在看来,这些传闻基本属实。

这些举措反映出投资者对 OpenAI 缩小亏损的压力。据《纽约时报》报道,虽然该公司 8 月份的月收入达到了 3 亿美元,但 OpenAI 预计今年将亏损约 50 亿美元。人员、办公室租金和 AI 训练基础设施等开支都是亏损的根源。据报道,仅 ChatGPT 一项就一度让 OpenAI 每天损失 70 万美元。

OpenAI 的第一天直播最终在一个与圣诞相关的笑话中结束:

圣诞老人希望使用 LLM 来解决数学问题,他努力使用了很多提示词,但效果都不好,那么他最终怎么解决了这个问题呢?

答案是他使用了 reindeer forcement learning。

图片

对于今天的发布,你怎么看呢?

参考链接:https://techcrunch.com/2024/12/05/openai-confirms-its-new-200-plan-chatgpt-pro-which-includes-reasoning-models-and-more/

https://www.youtube.com/watch?v=iBfQTnA2n2s

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2255868.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用C#基于ADO.NET编写MySQL的程序

MySQL 是一个领先的开源数据库管理系统。它是一个多用户、多线程的数据库管理系统。MySQL 在网络上特别流行。MySQL 数据库可在大多数重要的操作系统平台上使用。它可在 BSD Unix、Linux、Windows 或 Mac OS 上运行。MySQL 有两个版本:MySQL 服务器系统和 MySQL 嵌入…

运动模糊效果

1、运动模糊效果 运动模糊效果,是一种用于 模拟真实世界中快速移动物体产生的模糊现象 的图像处理技术,当一个物体以较高速度移动时,由于人眼或摄像机的曝光时间过长,该物体会在图像中留下模糊的运动轨迹。这种效果游戏、动画、电…

三款电容麦的对比

纸面参数 第一款麦克风 灵敏度: -36 dB 2 dB(0 dB1V/Pa at 1 kHz) 灵敏度较低,需要更高的增益来拾取同样的音量。频率响应: 40 Hz - 18 kHz 响应范围较窄,尤其在高频区域。等效噪音级: ≤18 dB(A计权) 噪…

nacos bootstrap.yml 和 spring.config.import 加载配置的流程区别

相关依赖 springboot:2.7.15 nacos:2.2.3 bootstrap.yml加载方式 加载流程如下图所示 从图中可以看出,: 1.bootstrap.yml 的加载是在 BootstrapApplicationListener.onApplicationEvent 接收到 ApplicationEnvironmentPreparedEventEvent 事件后另起一个 Sprin…

数据结构题库12

第六章 图 一、单项选择题 1.下面关于图的存储结构的叙述中正确的是 (1) 。 (1):A.用邻接矩阵存储图占用空间大小只与图中顶点有关,与边数无关 B.用邻接矩阵存储图占用空间大小只与图中边数有关,而与顶点数…

【adb】iqoo系统精简垃圾内置应用

免责声明 这个得谨慎点,虽然我验证过两部手机和不同版本的系统,但是总会有特殊的存在、 本教程来自于互联网搜集整理, 按照本教程造成的用户设备硬件或数据损失,本人概不承担任何责任,如您不同意此协议,请不…

sharedPreference包的使用总结

文章目录 1 概念介绍2 实现方法3 示例代码我们在上一章回中介绍了"如何自定义评分条"相关的内容,本章回中将介绍如何实现本地存储.闲话休提,让我们一起Talk Flutter吧。 1 概念介绍 Flutter是一套跨平台的UI框架,它不像原生SDK一样提供本地存储功能,因此,我们在…

嵌入式蓝桥杯学习4 lcd移植

cubemx配置 复制前面配置过的文件 打开cubemx,将PB8,PB9配置为GPIO-Output。 点击GENERATE CODE. 文件移植 1.打开比赛提供的文件包,点击Inc文件夹 2.点击Inc文件夹。复制fonts.h和lcd.h,粘贴到我们自己的工程文件夹的bsp中&#xff08…

基于Matlab扩展卡尔曼滤波的GPS与DME组合无人机导航系统设计与实现

随着无人机(UAV)在农业监测、环境保护、物流运输、灾害救援等各个领域的广泛应用,精准且可靠的导航系统已成为提升无人机性能和任务执行能力的关键因素。传统的导航方法依赖于单一传感器,往往难以在复杂和动态的环境中提供足够的定…

仿真键盘输入遇到Edge环境不识别 回车符如何处理

这个问题我也是最近才遇到,可能现在大家都喜欢用新架构,基于网页来写应用管理软件。 当遇到Edge环境下,文本框不识别回车符如何处理,根据笔者经验可通过配置Edge 基于键盘管理设置来解决这个事情。如图 即在Edge浏览器环境下&…

黑马redis

Redis的多IO线程只是用来处理网络请求的,对于读写操作命令Redis仍然使用单线程来处理 Redisson分布式锁实现15问 文章目录 主线程和IO线程是如何协作的Unix网络编程中的五种IO模型Linux世界一切皆文件生产上限制keys *、flushdb、flushall等危险命令keys * 遍历查询100W数据花…

JDK 并发编程工具类详解:CountDownLatch、Semaphore、Exchanger、CyclicBarrier 和 Phaser

在 Java 并发编程中,JDK 提供了一些强大的工具类来帮助开发者处理线程间的同步和通信问题。这些工具类主要包括 CountDownLatch、Semaphore、Exchanger、CyclicBarrier 和 Phaser,它们都位于 java.util.concurrent 包下,统称为 JUC&#xff0…

实现RAGFlow-0.14.1的输入框多行输入和消息框的多行显示

一、Chat页面输入框的修改 1. macOS配置 我使用MacBook Pro,chip 是 Apple M3 Pro,Memory是18GB,macOS是 Sonoma 14.6.1。 2. 修改chat输入框代码 目前RAGFlow前端的chat功能,输入的内容是单行的,不能主动使用Shift…

电子商务人工智能指南 4/6 - 内容理解

介绍 81% 的零售业高管表示, AI 至少在其组织中发挥了中等至完全的作用。然而,78% 的受访零售业高管表示,很难跟上不断发展的 AI 格局。 近年来,电子商务团队加快了适应新客户偏好和创造卓越数字购物体验的需求。采用 AI 不再是一…

基于STM32F103RCT6的PS2手柄控制舵机转向小车

一、PS2 (1)当接收器上的绿灯常亮时,证明手柄和接收器配对成功,可以正常进行数据通讯。如果手柄和接收器断开了,按手柄上的START键即可恢复配对; (2)当手柄上的MODE指示灯没有点亮的…

电脑投屏到电脑:Windows,macOS及Linux系统可以相互投屏!

本篇其实是电脑远程投屏到另一台电脑的操作介绍。本篇文章的方法可用于Windows,macOS及Linux系统的相互投屏。 为了避免介绍过程中出现“这台电脑”投屏到“那台电脑”的混乱表述,假定当前屏幕投出端是Windows系统电脑,屏幕接收端是Linux系统…

软件测试环境搭建与测试流程

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 1.软件测试环境搭建 思考: 在什么条件下做软件测试?怎么做软件测试? 1.1 搭建测试环境前 确定测试目的 功能测试&#xff…

实战 | C# 中使用YOLOv11实现实例分割 (步骤 + 源码)

导 读 本文主要介绍在C#中使用YOLOv11实现实例分割,并给详细步骤和源码。 C# YOLO11实例分割——本文实现效果:

C#窗体程序学生管理

代码如下: public static string constr "Data SourceFUSHUAI;Initial Catalogproduct;Integrated SecurityTrue"; public static SqlConnection con new SqlConnection(constr); private void Form1_Load(object sender, EventArgs e) { gettable…

特朗普画像

任务内容 Description 特朗普当选了,网上流传着很多段子,也出了特朗普的头像。有人说,特朗普 的头像像一团云。所以今年马云去了美国和特朗普谈中美企业的发展。那么你能帮 忙打印出特朗普的头像吗? 抽象派认为,特朗普…