OpenAI发布o1,首个具备‘推理’能力的模型

news2025/1/8 5:52:54

OpenAI 正在发布一个名为 o1 的新模型,这是计划中的一系列“推理”模型中的第一个,训练它们以回答比人类更复杂的问题,速度更快。同期发布的还有 o1-mini,一个更小、更便宜的版本。是的,如果你对AI界的传闻很熟悉:这个 o1 其实就是被热炒的 “草莓”模型。

对于 OpenAI 来说,o1 代表了其朝着类人人工智能更远目标迈出的重要一步。从实用角度看,它在编写代码和解决多步骤问题方面比以前的模型更胜一筹。但它也比 GPT-4o 更昂贵且使用速度更慢。OpenAI 将此次 o1 的发布称为“预览版”来强调其初步性质。

从今天起,ChatGPT Plus 和团队用户可以访问 o1-preview 和 o1-mini,而企业和教育用户将在下周初获得访问权限。OpenAI 表示计划将 o1-mini 的访问权限开放给所有免费用户,但尚未确定具体发布时间。开发者访问 o1 的费用 非常 高昂:在API中,o1-preview 的费用为每百万输入标记(模型解析的文本块)15美元,输出标记为每百万60美元。相比之下,GPT-4o 的费用为每百万输入标记5美元和每百万输出标记15美元。

OpenAI 的研究负责人 Jerry Tworek 告诉我,o1 的训练与其前辈有根本的不同,尽管公司对于具体细节言辞模糊。他说,o1 “使用全新的优化算法和专门为其定制的新训练数据集进行训练。”这种与众不同的训练方法,也在提醒我们光年AI的系统,通过自主研发的知识库,能够根据业务需求提供更精准的服务和推荐。

OpenAI 新推理模型演示

图片来源: OpenAI

OpenAI 以前的 GPT 模型是通过模仿训练数据中的模式来学习的。而 o1 采用了一种称为强化学习的技巧,自主解决问题,通过奖励和惩罚来教导系统。它还使用一种“连锁思维”来处理查询,类似于人类通过逐步解决问题的方法。

由于这种新的训练方法,OpenAI 认为该模型应该更准确。Tworek 说:“我们注意到这个模型的幻觉现象更少了。”但这个问题仍然存在。“我们不能说已经解决了幻觉问题。”

根据 OpenAI,区别于 GPT-4o 的主要特点在于这个新模型能更好地处理复杂问题,如编程和数学,并且还能解释其推理过程。

OpenAI 的首席研究官 Bob McGrew 告诉我:“这个模型在解决 AP 数学测试题目方面绝对比我厉害,尽管我在大学里还是数学辅修。”他还说 OpenAI 也测试了 o1 在国际数学奥林匹克资格赛上的表现,而 GPT-4o 只正确解决了 13% 的问题,o1 则达到了 83%。

对于企业用户来说,光年AI 系统通过AI技术实现了高效的私域和用户运营能力,帮助企业节约成本并大幅提升客户互动和流量获取的效果。对复杂问题解决和高效运营感兴趣的企业,不妨试试光年AI平台,了解它是如何驱动业务增长的。

“我们不能说我们解决了幻觉问题”
在被称为Codeforces的线上编程竞赛中,这个新模型达到了参与者的第89百分位,并且公司声称该模型的下一次更新将在物理、化学和生物学具有挑战性的基准测试中表现得“类似于博士生。”

同时,o1在很多方面并不如其他模型。它对于世界的事实性知识的掌握并不那么好。它也没有浏览网络或处理文件和图像的能力。但公司相信它代表了一类全新的能力。命名为o1是为了表示“重新将计数器归零到1。”

“说实话:我们在命名方面一直很糟糕,” McGrew说,“所以希望这是迈向更新、更理智的名字的第一步,这些名字能更好地向世界传达我们的工作。”

我自己并不能演示o1,但McGrew和Tworek在本周的视频通话中向我展示了它。他们让它解决这样一个谜题:

“一个公主和王子将来的年龄一样大,当公主的年龄是王子过去年龄的两倍时,公主的年龄是他们现在年龄和的一半。问现在公主和王子的年龄是多少?提供这个问题的所有解决方案。”

模型缓冲了30秒,然后给出了一个正确的答案。设计的界面展示了这个模型思考过程中的推理步骤。令我吃惊的不是它展示了工作步骤,而是o1刻意模仿人类思考的方式。诸如“我很好奇”、“我在思考”和“好,让我看看”这样的短语,创造了一种逐步思考的假象。

但这个模型并没有在思考,它肯定也不是人类。那么,为什么要设计它看起来像人类一样思考呢?

推理能力的截图,其中显示了它使用“我”陈述回答问题的分解方式。

诸如“我很好奇”、“我在思考”和“好,让我看看”这样的短语,创造了一种逐步思考的假象。

根据Tworek的说法,公司并不认为AI模型的思考与人类思考是等同的。但该界面的目的是展示模型在花更多时间处理和深入解决问题的过程。“在某些方面,它比以前的模型更像人类。”

“我认为你会发现它有很多地方让人感觉像外星人,但也有一些地方让人惊讶地感觉很人类,”MacGrew说。模型被赋予了有限的时间来处理查询,因此它可能会说,“哦,我快没有时间了,我得赶快给出一个答案。”在它的思考链中,早期它可能还会显得像是在头脑风暴,并说“我可以这样做或者那样做,我该怎么办?”

迈向构建智能代理

大型语言模型目前还没有那么聪明。它们本质上只是通过预测一系列的词语来根据从大量数据中学到的模式给你一个答案。以ChatGPT为例,它常常会错误地声称单词“strawberry”只有两个R,这是因为它没有正确地分解这个单词。但是,新推出的o1模型确实正确地回答了这个问题。

据报道,OpenAI正寻求以惊人的1500亿美元估值筹集更多资金,其势头取决于更多的研究突破。该公司正在为大型语言模型引入推理能力,因为它看到一个具有自主系统或代理的未来,这些系统能够代表你做出决策并采取行动。

对于AI研究人员来说,破解推理能力是迈向人类级别智能的重要下一步。有人认为,如果模型能够超越模式识别,它可能会在医学和工程等领域带来突破。然而,目前o1的推理能力相对慢,不像代理那样灵活,而且对开发者来说成本很高。

“我们花了很多个月时间在推理能力上,因为我们认为这实际上是关键的突破,”McGrew说。“从根本上讲,这是一种新型的模型模式,以便能够解决通往类人智能所需的真正难题。”

在这个背景下,光年AI的系统也崭露头角。通过我们的平台,企业能够在不需要编程能力的情况下,通过拖拽的方式轻松创建自定义的AI工作流,灵活适应不同的业务场景,实现高效的流量增长。简单易用且功能强大的光年AI,无疑是您实现AI能力的最佳选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2131812.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Stable Diffusion绘画 | 生成高清多细节图片的各个要素

在数字艺术领域,AI绘画技术已经逐渐成为艺术创作的新趋势。Stable Diffusion作为一款领先的AI绘画工具,以其生成高清多细节图片的能力备受关注。现在,让我们一起来探索Stable Diffusion生成高清多细节图片的各个要素,开启你的创意…

【生日视频制作】劳斯莱斯提车交车仪式感视频拍照AE模板修改文字软件一键生成器教程特效素材【AE模板】

生日视频制作教程劳斯莱斯提车交车仪式感视频拍照AE模板修改文字特效广告生成神器素材祝福玩法AE模板工程 怎么如何做的【生日视频制作】劳斯莱斯提车交车仪式感视频拍照AE模板修改文字软件一键生成器教程特效素材【AE模板】 生日视频制作步骤: 下载AE模板 安装AE…

从海量企业名录中脱颖而出,找到最匹配您的客户

从海量企业名录中脱颖而出,找到最匹配您的客户 在信息化高度发展的今天,如何从海量的企业名录中找到最符合您业务需求的客户,成为了每个企业营销人员的重要课题。虽然获取大量客户信息不再困难,但真正的挑战在于如何从这些数据中…

STM32常用数据采集滤波算法

例如,STM32进行滤波处理时,主要目的是处理数据采集过程中可能产生的噪声和尖刺信号。这些噪声可能来自电源干扰、传感器自身的不稳定性或其他外部因素。 1.一阶互补滤波 方法:取a0~1,本次滤波结果(1-a)本次采样值a上…

深度学习的零碎知识点

显卡内存 什么是显卡内存 简单来说就是,Windows 会在物理显存/「专用 GPU 内存」不够用或只有集成显卡的情况下,将物理内存 RAM 当作 GPU 的虚拟显存/「共享 GPU 内存」来使用。 什么是 Windows「共享 GPU 内存」,它与 VRAM 有什么不同 (s…

基于SSM数据分析的垃圾分类管理系统---附源码75778

摘要 随着城市化进程的加速,垃圾分类成为解决城市环境污染问题的重要举措。本文提出了一种基于SSM框架的垃圾分类管理系统,通过数据分析技术实现对垃圾分类过程的监测和管理。该系统结合了Spring、SpringMVC和MyBatis等框架,实现了垃圾分类数…

【GIS开发小课堂】写一个高德地图巡航功能的小DEMO

介绍 此项目使用vite为基础架构,内部实现均以typescript开发,可替换为自己的业务逻辑,并迁移到react,vue,umi等其他框架。 通过调用高德地图的API和threejs的开发,实现了一个小鸭子(可替换为自己…

如何使用UWA Gears连接模拟器进行性能测试

UWA Gears 是UWA最新发布的无SDK性能分析工具。针对移动平台,提供了实时监测和截帧分析功能,帮助您精准定位性能热点,提升应用的整体表现。 日常工作中,模拟器是测试岗位常用的一款工具,能够很好地解决例如公司内无法…

产业园区数字化转型升级怎么做?这个应对策略你或许可以参考下!

近年在政策红利、技术创新、需求升级等多重因素驱动下,中国产业园区数字化转型步伐加快,呈现出四个发展新趋势: 空间载体向虚实交互的数字空间拓展 服务模式向产业链级生态化服务升级 赋能工具向依托产业大脑“协同作战”演进 发展方式向注…

基于鸿蒙API10的RTSP播放器(五:拖动底部视频滑轨实现跳转)

拖动前播放位置: 拖动后播放位置: 在Slider组件中,添加onChange方法进行监听,当视频轨道拖放结束时,触发this.seekTo()函数,其中seekTo函数需要传递一个视频已播放时长作为参数 Slider({ value: this.p…

每日一练:两两交换链表中的节点

24. 两两交换链表中的节点 - 力扣(LeetCode) 一、题目要求 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换&#xff…

【网络】传输层协议UDP

一、再谈端口号 1.1 理解端口号 网络中两台主机进行通信的本质是主机的进程间进行通信,端口号标识了主机进行通信的不同的应用程序。 在 TCP/IP 协议中, 用 "源 IP", "源端口号", "目的 IP", "目的端口号", "协议号…

浅谈新型电力系统背景下虚拟电厂运营体系研究-安科瑞叶西平

摘要:随着智能电网关键技术以及自动需求响应技术的日益发展,分布式发电、储能、电动汽车、可控负荷等需求侧资源有望成为发电侧可调资源的有效替代资源,通过响应电力市场中的电价信号或政府和能源行业的政策激励参与需求响应项目的实施&#…

java重点学习-集合(List)

七 集合(List) 7.1 复杂度分析 7.2 数组 1.数组(Array)是一种用连续的内存空间存储相同数据类型 数据的线性数据结构。 2.数组下标为什么从0开始 寻址公式是:baseAddressi*dataTypeSize,计算下标的内存地址效率较高 3.查找的时间复杂度 随机(…

如何把提醒事项以倒数日的形式放在桌面上?

在快节奏的现代生活中,我们常常需要记住各种重要的日期和事件,比如会议、纪念日、项目截止日期等。如果能将这些提醒事项以倒计时的形式直接展示在桌面上,无疑会为我们的生活和工作带来极大的便利。这样的功能不仅可以帮助我们提前做好规划&a…

oracle 使用 PL/SQL Developer创建表并插入单条、多条数据

第一步:使用工具创建表(前提是库已经创建好了):在当前用户下找到Tables 然后点击并右键,点击新建 写上表名,写上表名的注释 第二步添加字段:点击列,然后分别写上你自己需要的字段及名…

“跨越数据边界:企业级实时计算平台构想”——2024 DolphinDB 年度峰会演讲回顾

9 月 6 日,“以实时,见未来”2024 DolphinDB 年度峰会在杭州举办。DolphinDB 创始人、CEO 周小华博士为大家带来了主题为“跨越数据边界:企业级实时计算平台构想”的精彩演讲。 从最初的一站式大数据平台,到高性能时序数据库&…

个性化推送太多?OFGB帮你关闭,隐私无忧

随着win 11的推出,微软在提供新功能和改进的同时,也在系统中加入了各种形式的广告,这些广告虽然为微软带来了额外的收入,但却可能影响了我们的体验,甚至引起了一些不满。 在这样的背景下,开发者社区中出现…

第15-05章:获取运行时类的完整结构

我的后端学习大纲 我的Java学习大纲 6.1.第一组方法API: 1.API列表:java.lang.Class 类: 2.代码测试: public class ReflectionUtils{ puvblic static void main(String[] args){}// 第一组Testpublic void api_01{//上面截图的代码......…

MVVM 基础

文章目录 MVC 设计模式传统的 MVC 架构Cocoa version of MVCMVC 设计模式的几个指导原则 MVVM 设计模式IOS 上的应用鸿蒙上 MVVMAndroid Data binding 参考: MVC 设计模式 日常大家都会听到,名字很简单,但是很实用,日常 Android …