OpenAI草莓正式发布,命名o1

news2024/9/28 0:37:45

一、相关介绍

当地时间 9 月 12 日,OpenAI 推出全新模型 o1,它是该公司计划推出的一系列“推理”模型中的首个,也就是此前业内传闻许久的“Strawberry(草莓)”项目。
据悉,o1 模型在众多任务中能够比人类更迅速地处理复杂查询,展现出前所未有的强大推理能力。同时,OpenAI 还发布了一个较小且更为经济实惠的版本 o1-mini。
对 OpenAI 来说,o1 的发布意味着公司在迈向实现类人人工智能这一宏大目标的道路上迈出了重要一步。从实际应用层面看,o1 在编写代码、进行推理以及解决多步骤复杂问题等方面的表现明显优于先前的模型。不过,使用 o1 的成本较高,速度也相对较慢。
OpenAI 将此次发布称为“preview(预览版)”,旨在强调该模型仍处于初期阶段。 从今日起,ChatGPT Plus 和 Team 用户能够访问 o1-preview 和 o1-mini,而 Enterprise 和 Edu 用户将于下周初获得访问权限。o1-preview 每周最多可使用 30 条消息,o1-mini 则为 50 条。据 OpenAI 消息,其计划向所有 ChatGPT 免费用户开放 o1-mini 的访问权限,但具体上线日期暂未确定。对于开发者而言,符合 API tier 5 的开发者可以通过 API 使用这些模型,每分钟请求数限制为 20 条。 值得注意的是,开发者通过应用程序编程接口(API)使用 o1 的成本相当高:o1-preview 的输入 token 价格为每百万个 15 美元,输出 token 价格为每百万个 60 美元。相比之下,GPT-4o 的输入 token 价格为每百万个 5 美元,输出 token 价格为每百万个 15 美元。
o1 模型的训练方法与前代产品有根本性差异。 OpenAI 的研究主管杰里·特沃雷克向媒体表示:“o1 采用了全新的优化算法进行训练,并使用了专门为其设计的新型训练数据集。”与之前的 GPT 模型通过模仿训练数据中的模式不同,o1 运用了强化学习技术,通过奖励和惩罚来教导系统解决问题。此外,o1 还使用思维链来处理查询,这与人类通过逐步思考来解决问题的方式类似。得益于这种新的训练方法,OpenAI 称,o1 模型的准确性得到了显著提高。

添加图片注释,不超过 140 字(可选)

二、工作原理

这些模型在回应之前会花更多时间思考问题,像人类一样。通过训练,它们学会完善思考过程、尝试不同策略并认识到自己的错误。 o1会在回答前思考——它能在回应用户之前产生一个长串内部思维链。大规模强化学习算法在高效的训练过程中教会模型如何利用其思维链进行富有成效的思考。o1的性能随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)而持续提高。扩展这种方法的限制因素与LLM预训练的限制因素有很大不同,正在继续研究这些限制因素。

添加图片注释,不超过 140 字(可选)

三、模型效果

在测试中,下一个模型在物理、化学和生物学的具有挑战性的基准任务上表现与博士生相似。还发现它在数学和编程方面表现出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o只正确解决了13%的问题,而这个推理模型得分为83%。它们的编程能力在比赛中得到评估,在Codeforces竞赛中达到了第89百分位。您可以在我们的技术研究文章中相关信息。 o1在各种推理密集型基准测试中大幅超越GPT-4o,包括57个MMLU子类别中的54个。 在许多推理密集型基准测试中,o1的表现可以与人类专家相媲美。我们评估了数学性能,使用了AIME考试,这是为挑战美国最优秀的高中数学生而设计的。在2024年AIME考试中,GPT-4o平均只解决了12%(1.8/15)的问题。o1单次采样平均解决74%(11.1/15),64次采样共识达到83%(12.5/15),使用学习评分函数对1000个样本重新排序后达到93%(13.9/15)。13.9分的成绩使其跻身全国前500名学生之列,超过了美国数学奥林匹克的入选分数线。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

四、参考资料

1、https://openai.com/index/introducing-openai-o1-pre…
2、https://openai.com/index/learning-to-reason-with-l…
3、https://openai.com/index/openai-o1-mini-advancing-…
4、https://openai.com/index/learni

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2137192.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LabVIEW机动车动态制动性能校准系统

机动车动态制动性能测试系统通过高精度的硬件设备与LabVIEW软件的紧密配合,实现了对机动车制动性能的精确校准与评估。系统不仅提高了测试的精确性和效率,而且具备良好的用户交互界面,使得操作更加简便、直观。 项目背景 随着机动车辆数量的…

C++:类和对象全解

C:类和对象全解 一、类的定义和初始化(一)类的定义1、类的成员变量(1)成员变量(2)成员函数 2、实例化对象(1)采用普通构造函数(2)采用初始化列表 …

MySQL数据的增删改查(二)

目录 约束 非空约束(NOT NULL) 唯一约束(UNIQUE) 默认值约束(DEFAULT) 主键约束(PRIMARY KEY) 外键约束(FOREIGN KEY) 检查约束(CHECK&…

LabVIEW机械产品几何精度质检系统

随着制造业的发展,对产品质量的要求越来越高,机械产品的几何精度成为衡量其品质的重要指标。为了提高检测效率和精度,开发了一套基于LabVIEW的几何精度质检系统,该系统不仅可以自动化地进行几何尺寸的测量,而且能实时分…

kafka 之 本地部署单机版

安装JDK 查看你选择的版本需要安装哪一个版本的jdk 网址 下载 JDK下载 注:如果网页不允许下载,使用wget命令下载即可,下载之后安装。 建议使用rpm安装,之后使用 update-alternatives --config java 控制当前环境使用Java的版…

SpringBoot 处理 @KafkaListener 消息

消息监听容器 1、KafkaMessageListenerContainer 由spring提供用于监听以及拉取消息,并将这些消息按指定格式转换后交给由KafkaListener注解的方法处理,相当于一个消费者; 看看其整体代码结构: 可以发现其入口方法为doStart(),…

2024-2025年最全的计算机软件毕业设计选题大全

博主介绍:✌全网粉丝5W,全栈开发工程师,从事多年软件开发,在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战,博主也曾写过优秀论文,查重率极低,在这方面有丰富的经验…

通过API接口获取数据:高效、灵活的数据交互之道

在数字化时代,数据已成为企业最宝贵的资产之一。企业和开发者对于数据的获取、处理和分析的需求日益增长。API(应用程序编程接口)接口作为连接不同系统和应用程序的桥梁,提供了一种高效、灵活的方式来获取和交换数据。本文将探讨为…

rust + bevy 实现小游戏 打包成wasm放在浏览器环境运行

游戏界面 代码地址 github WASM运行 rustup target install wasm32-unknown-unknown cargo install wasm-server-runner cargo run --target wasm32-unknown-unknowncargo install wasm-bindgen-cli cargo build --release --target wasm32-unknown-unknown wasm-bindgen --…

工厂模式(二):工厂方法模式

一、概念 工厂方法模式(Factory Method),定义一个用于创建对象的接口,让子类决定实例化哪一个类。工厂方法使一个类的实例化延迟到其子类。从而使得系统更加灵活。客户端可以通过调用工厂方法来创建所需的产品,而不必…

Linux进程间通信——管道实现实战;深度学习,探索管道接口、特性、情况

前言:本节内容仍是管道, 上节内容我们学习了管道的原理。 这节内容将在原理的基础上, 讲解管道的编程, 特性,应用等等。 下面开始我们的学习吧。 ps:本节内容需要了解一些管道的原理, 希望友友们…

AIGC-初体验

线性分类 提问,目的试图让AI自动线性分类 A类:(10,21),(3,7),(9,20)(121,242) B类:(3,9),(5,11),(70,212),(11,34) 根据线性关系分类 请问 (100,300),(100,201&#xff…

nacos和eureka的区别详细讲解

​ 大家好,我是程序员小羊! 前言: Nacos 和 Eureka 是两种服务注册与发现的组件,它们在微服务架构中扮演重要角色。两者虽然都是为了解决服务发现的问题,但在功能特性、架构、设计理念等方面有很多不同。以下是详细的…

【期末复习】软件项目管理

前言: 关于软件项目管理这一科目的重要期末考点,希望对你有帮助。 目录 质量管理可能遇到的问题 软件项目质量管理 软件项目风险管理 进度 题1 题2 题3 成本 题1 题2 题3 质量管理可能遇到的问题 (1)没有制定质量管理计划: (2)…

JMeter测试工具的简单了解

Apache JMeter 是一款开源的测试工具,主要用于对软件的性能进行测试。它最初被设计用于测试Web应用,但随着时间的推移,它的功能已经扩展到了其他测试领域。 可以应用到的场景 性能测试:评估应用程序在不同负载下的表现。负载测试…

初学代码指南(软2耶)

首先,很高兴又和大家见面了,本文章仅是作者的自我总结,是给笔者看的,所以读者在阅读时请抱着参考的心态,如果觉得可以借鉴的可以稍微借鉴一下,如果觉得笔者写了一坨shi,可以随便喷俺。 一.IDE …

音视频开发常见的开源项目汇总

FFmpeg 地址:https://ffmpeg.org/介绍:FFmpeg 是一个非常强大的开源多媒体框架,它可以用来处理视频和音频文件。它支持多种格式的转换、编码、解码、转码、流处理等。FFmpeg 包括了 libavformat、libavcodec、libavutil、libswscale、libpos…

✨机器学习笔记(四)—— 逻辑回归、决策边界、过拟合、正则化

Course1-Week3: https://github.com/kaieye/2022-Machine-Learning-Specialization/tree/main/Supervised%20Machine%20Learning%20Regression%20and%20Classification/week3机器学习笔记(四) 1️⃣逻辑回归(logistic regression)…

[数据集][目标检测]疟疾恶性疟原虫物种目标检测数据集VOC+YOLO格式948张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):948 标注数量(xml文件个数):948 标注数量(txt文件个数):948 标注类别…

数据处理工具(geodataprocess)之哨兵1预处理

在使用 Sentinel-1 数据进行遥感应用时,数据预处理是一个关键步骤,目的是提高数据的质量,消除或减少系统和环境引入的误差,使其更适合后续分析。Sentinel-1 是欧洲空间局(ESA)的合成孔径雷达(SA…