OpenAI推出o1,一个能够自我事实核查的模型

news2025/1/13 2:24:31

ChatGPT的开发者OpenAI宣布了其下一次重大产品发布:一个代号为“Strawberry”(草莓)的生成式AI模型,正式名称为OpenAI o1。

更准确地说,o1实际上是一个模型家族。周四,两个版本将在ChatGPT和OpenAI的API中提供:o1-preview和o1-mini,后者是一个更小、更高效、专注于代码生成的模型。

要在ChatGPT客户端中使用o1,需要订阅ChatGPT Plus或Team版本,目前镜像站已经获得访问权限。企业和教育用户将在下周初获得访问权限。

o1聊天机器人的体验目前相当基础。与其前身GPT-4o不同,o1尚不能浏览网页或分析文件。该模型确实具有图像分析功能,但已被禁用,等待进一步测试。此外,o1有速率限制;目前,o1-preview每周限30条消息,o1-mini限50条。

另一个缺点是,o1非常昂贵。在API中,o1-preview的费用是每百万输入token15美元,每百万输出token60美元。与GPT-4o相比,输入成本是其3倍,输出成本是其4倍。(token是原始数据的单位;一百万token约等于75万字。)

OpenAI表示计划向所有ChatGPT的免费用户提供o1-mini的访问权限,但尚未设定发布日期。

推理链

OpenAI o1避免了通常困扰生成式AI模型的一些推理陷阱,因为它可以通过花更多时间考虑问题的所有部分来有效地自我事实核查。根据OpenAI的说法,使o1在质感上与其他生成式AI模型不同的是它在回答查询前“思考”的能力。

当给予额外的“思考”时间时,o1可以整体地推理任务——提前规划,并在较长时间内执行一系列操作,帮助模型得出答案。这使得o1非常适合需要综合多个子任务结果的任务,比如在律师的收件箱中检测特权邮件,或构思产品营销策略。

在周四的一系列X帖子中,OpenAI的研究科学家Noam Brown表示:“o1是通过强化学习训练的。”他说,这通过在o1回答正确时给予奖励、回答错误时给予惩罚,教会系统在回答之前通过私有的思维链进行“思考”。

Brown补充说,OpenAI使用了一种新的优化算法和包含“推理数据”和科学文献的训练数据集,专门针对推理任务。“[o1]思考得越久,表现就越好,”他说。

据一位有权限的人士——汤森路透的副总裁Pablo Arredondo——称,o1在分析法律摘要和识别LSAT逻辑游戏问题的解决方案等方面,比OpenAI之前的模型(如GPT-4o)更出色。

“我们看到它处理了更实质性、多方面的分析,”Arredondo说。“我们的自动化测试也显示出在各种简单任务上有所提升。”

根据OpenAI的数据,在一场国际数学奥林匹克(IMO)的预选考试中,o1正确解决了83%的问题,而GPT-4o只解决了13%。(考虑到Google DeepMind最近的AI在实际IMO比赛中获得了银牌,这个成绩就不那么令人印象深刻了。)OpenAI还表示,o1在名为Codeforces的在线编程挑战赛中达到了参与者的第89百分位——比DeepMind的旗舰系统AlphaCode 2更好。

OpenAI表示,总的来说,o1在数据分析、科学和编码问题上应表现更佳。(GitHub在其AI编码助手GitHub Copilot中测试了o1,报告称该模型擅长优化算法和应用程序代码。)而且,至少根据OpenAI的基准测试,o1在多语言技能上比GPT-4o有所改进,特别是在阿拉伯语和韩语等语言上。

沃顿商学院的管理学教授Ethan Mollick在他的个人博客上写下了使用o1一个月后的印象。他说,在一个具有挑战性的填字游戏中,o1表现出色——所有答案都正确(尽管虚构了一个新线索)。

OpenAI o1并不完美

现在,有一些缺点。

OpenAI o1可能比其他模型更慢,这取决于查询。Arredondo说,o1回答某些问题可能需要超过10秒;它通过显示当前正在执行的子任务的标签来显示其进度。

鉴于生成式AI模型的不可预测性,o1可能还有其他缺陷和限制。Brown承认,o1有时会在井字棋游戏中出错。而在一篇技术论文中,OpenAI表示,测试者的反馈称,o1比GPT-4o更容易产生幻觉(即自信地编造内容),而且更少承认自己不知道问题的答案。

“[o1]仍然会出现错误和幻觉,”Mollick在他的帖子中写道。“它仍然不是完美无缺的。”

毫无疑问,我们将随着时间的推移了解更多关于各种问题的情况,并在有机会亲自全面测试o1后。

激烈的竞争

如果我们不指出OpenAI远非唯一一家研究这类推理方法以提高模型真实性的AI供应商,那将是不负责任的。

Google DeepMind的研究人员最近发表了一项研究,显示通过在模型执行请求时给予更多计算时间和指导,可以在无需任何额外调整的情况下显著提高这些模型的性能。

为说明竞争的激烈程度,OpenAI表示,部分由于“竞争优势”,他们决定不在ChatGPT中显示o1的原始“思维链”。(相反,公司选择显示“模型生成的摘要”。)

OpenAI可能率先推出了o1。但假设竞争对手很快会推出类似的模型,该公司的真正考验将是使o1广泛可用——并且更便宜。

从那里开始,我们将看到OpenAI能多快地推出升级版的o1。该公司表示,计划试验推理时间为数小时、数天甚至数周的o1模型,以进一步增强其推理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2130997.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

最新kubernetes的安装填坑之旅(新手篇)

Kubernetes(常简称为 K8s)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序,lz也不知道哪根脑经秀逗了,竟然妄挑战学习一下,结果折戟沉沙,被折腾的欲仙欲死,不过…

26577flask旧衣物捐赠系统—计算机毕业设计源码26577

摘要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代。在现实运用中,应用软件的工作规…

【鸿蒙开发从0到1 day10】

ArkUI布局高级 一.线性布局1.间距(space)2.主轴对齐方式3.交叉轴对齐方式4.单个子组件交叉轴的对齐方式5.自适应缩放6.侧轴对齐方式7.案例 二.弹性布局1.淘宝网页面案例分析 三.总结 一.线性布局 线性布局(LinearLayout)是开发中最常用的布局&#xff0…

海鲜市场|基于springboot的网络海鲜市场系设计与实现(附项目源码+论文+数据库)

私信或留言即免费送开题报告和任务书(可指定任意题目) 目录 一、摘要 二、相关技术 三、系统设计 四、数据库设计 五、核心代码 六、论文参考 七、源码获取 一、摘要 计算机网络发展到现在已经好几十年了,在理论上面已…

HyperWorks二维网格划分及拓扑改进

Step 01:载入模型 Exercise_3a.hm。 Step 02:2D 网格划分。 进入 automesh 面板。 图 3-13 设置 automesh 面板网格控制参数 (2) 指定 element size 为 5,根据图 3-13 设置网格控制参数。 (3) 查看网格。 图 3-14 新创建的网格模型 网格…

计算机组成原理(二) —— Cache 高速缓存

这篇主要讲一下高速缓存,涉及到高速缓存的几种形式,缓存友好代码注意事项,多处理器下缓存的同步机制。 文章目录 存储器层次结构高速缓存存储器通用的高速缓存存储器组织结构直接映射高速缓存组选择行匹配字选择不命中时的行替换冲突不命中 组…

半个月赚3000+,用AI做仙侠场景账号,全网分发

那些看过的仙侠剧、修仙小说,玩过的仙侠游戏,你还记得吗? 仙侠类型之所以让人津津乐道,除了不同于普通人的人物形象塑造以及跌宕起伏的剧情之外,美轮美奂的仙境场景也是重中之重。所以,每个人心中都有独属于…

Qt Model/View之Model

在检查如何处理选择之前,您可能会发现检查模型/视图框架中使用的概念很有用。 基本概念 在模型/视图架构中,模型提供了一个标准接口,用于视图和委托访问数据。在Qt中,标准接口由QAbstractItemModel类定义。无论数据项如何存储在…

ListBox显示最新数据、左移和右移操作

1、程序 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.IO; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Windows.Forms; using static Sys…

《餐饮世界》是什么级别的期刊?是正规期刊吗?能评职称吗?

​问题解答 问:《餐饮世界》是不是核心期刊? 答:不是,是知网收录的正规学术期刊。 问:《餐饮世界》级别? 答:国家级。主管单位: 中国商业联合会 主办单位&am…

b√最大矩阵和

题目描述 给定一个二维整数矩阵&#xff0c;要在这个矩阵中选出一个子矩阵. 使得这个子矩阵内所有的数字和尽量大&#xff0c;我们把这个子矩阵称为和最大子矩阵 子矩阵的选取原则是原矩阵中一块相互连续的矩形区域。 输入描述 输入的第一行包含2个整数n,m(1< n,m< 10…

Mysql连接不上的问题?

Mysql服务器本地能访问&#xff0c;但是外部连接报错如下&#xff1a;显然我也知道这就是一个权限问题&#xff0c;但是在网上百度的方法要么就是不生效&#xff0c;要么就是执行命令报错&#xff0c;很抓狂&#xff5e;这里提供精准的解决方案&#xff1a;SELECT User, Host F…

EV代码签名证书签名指南,签名要求、签名步骤一览

作为软件开发者&#xff0c;在软件分发之前&#xff0c;为软件应用程序进行代码签名&#xff0c;可标识开发者身份&#xff0c;消除“未知发布者”警告&#xff0c;确保代码完整性&#xff0c;有利于应用程序安全分发&#xff0c;也可以让用户放心下载。而为软件应用程序进行代…

【C语言从不挂科到高绩点】17-C语言中的宏定义

Hello&#xff01;彦祖们&#xff0c;俺又回来了&#xff01;&#xff01;&#xff01;&#xff0c;继续给大家分享 《C语言从不挂科到高绩点》课程!! 本节将为大家讲解C语言中的函数&#xff1a; 本套课程将会从0基础讲解C语言核心技术&#xff0c;适合人群&#xff1a; 大学…

取消Cursor的注释斜体字风格

1. 打开settings.json 2. 添加如下代码 "editor.tokenColorCustomizations": {"textMateRules": [{"name": "Comment","scope": ["comment","comment.block","comment.block.documentation"…

Vert.x HttpClient调用后端服务时使用Idle Timeout和KeepAlive Timeout的行为分析

其实网上有大量讨论HTTP长连接的文章&#xff0c;而且Idle Timeout和KeepAlive Timeout都是HTTP协议上的事情&#xff0c;跟Vert.x本身没有太大关系&#xff0c;只不过最近在项目上遇到了一些问题&#xff0c;用到了Vert.x的HttpClient&#xff0c;就干脆总结一下&#xff0c;留…

从Apple Intelligence到IoT Intelligence,端侧生成式AI时代加速到来

9月10日凌晨1点&#xff0c;苹果新品发布会如期举行&#xff0c;全新iPhone16系列成为苹果生态中真正意义上的第一款原生AI手机&#xff0c;在第二代3nm工艺A18和A18 Pro芯片的加持下&#xff0c;iPhone16系列能够容纳并快速运行以Apple Intelligence为中心的生成式AI功能在手机…

铭顺元宇宙时代到来,数字人应用案例分享

近年来&#xff0c;随着技术的不断发展&#xff0c;数字人的功能和表现力也在不断提升&#xff0c;形形色色的虚拟数字人正代替真人&#xff0c;扮演着代言人、主播、客服和智能助理的角色&#xff0c;涉及文旅、电商、金融等多个行业。作为随着AI技术在数字人产业中的发展&…

远程桌面内网穿透是什么?有什么作用?

远程桌面内网穿透指的是通过特定技术手段&#xff0c;将处于内网中的电脑或服务器&#xff0c;通过外部网络&#xff08;互联网&#xff09;进行访问。内网穿透的主要作用是解决在内网环境下&#xff0c;远程设备与外部互联网之间的连接问题&#xff0c;允许用户从外部访问内网…

硬核,这款小而美的国产操作系统开源了!(带私活源码)

今天给大家介绍的是硬核的国产物联网操作系统 RT-Thread&#xff0c;内容很硬核&#xff0c;可以让大家捡起一些大学期间学到的知识&#xff0c;也能让自己对于操作系统有更多的理解。 项目介绍 RT-Thread 诞生于 2006 年&#xff0c;是一款以开源的物联网操作系统。主要采用…