最新消息,OpenAI o 1 一种新的大型语言模型正在被引入

news2025/1/11 12:57:16

据最新消息。

我们正在引入OpenAI o 1,这是一种新的大型语言模型,经过强化学习训练,可以执行复杂的推理。O 1在回答之前思考--它可以在对用户做出响应之前产生一个很长的内部思考链。

OpenAI o 1在竞争性编程问题(Codeforces)中排名第89百分位,在美国数学奥林匹克(AIME)资格赛中跻身美国前500名学生之列,并在物理,生物和化学问题(GPQA)的基准测试中超过人类博士水平的准确性。虽然使这个新模型像当前模型一样易于使用所需的工作仍在进行中,但我们正在发布这个模型的早期版本OpenAI o 1-preview,以便立即在ChatGPT中使用并提供给API用户。

我们的大规模强化学习算法教导模型如何在高度数据效率的训练过程中使用其思维链进行有效思考。我们发现,o1的性能随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算)而不断提高。扩展这种方法的限制与LLM预训练的限制有很大不同,我们正在继续研究它们。

compute

o1 performance smoothly improves with both train-time and test-time compute
o1性能随着训练时间和测试时间计算而平滑地提高

为了突出GPT-4 o的推理改进,我们在一组不同的人类考试和ML基准上测试了我们的模型。我们发现,o 1显着优于GPT-4 o的绝大多数这些推理繁重的任务。除非另有说明,否则我们在最大测试时间计算设置上评估o 1。

o1 greatly improves over GPT-4o on challenging reasoning benchmarks. Solid bars show pass@1 accuracy and the shaded region shows the performance of majority vote (consensus) with 64 samples.
o 1在具有挑战性的推理基准测试中大大优于GPT-4 o。实心条显示通过@1的准确性,阴影区域显示64个样本的多数投票(一致性)的性能。

o1 improves over GPT-4o on a wide range of benchmarks, including 54/57 MMLU subcategories. Seven are shown for illustration.
o 1在广泛的基准测试中优于GPT-4 o,包括54/57 MMLU子类别。为了说明起见,示出了七个。

在许多推理繁重的基准测试中,o 1的表现与人类专家不相上下。最近的前沿模型1在MATH 2和GSM 8 K上做得很好,这些基准不再有效区分模型。我们在AIME上评估了数学成绩,这是一项旨在挑战美国最聪明的高中数学学生的考试。在2024年的AIME考试中,GPT-4 o平均只解决了12%(1.8/15)的问题。o 1平均为74%(11.1/15),每个问题一个样本,83%(12.5/15),64个样本之间的共识,93%(13.9/15)时,重新排序1000个样本与学习的评分功能。13.9分的成绩使其跻身全国前500名学生之列,并超过了美国数学奥林匹克竞赛的截止线。

我们还对o 1进行了GPQA钻石测试,这是一个很难的智力基准,测试化学,物理和生物方面的专业知识。为了将模型与人类进行比较,我们招募了具有博士学位的专家来回答GPQA钻石问题。我们发现,o 1的表现超过了那些人类专家,成为第一个在这个基准测试中做到这一点的模型。这些结果并不意味着o 1在所有方面都比博士更有能力-只是该模型在解决博士应该解决的一些问题方面更精通。在其他几个机器学习基准测试中,o 1比最先进的机器学习模型有了改进。由于启用了视觉感知功能,o 1在MMMU上的得分为78.2%,使其成为第一个与人类专家竞争的模型。它在57个MMLU子类别中的54个上也优于GPT-4 o。

Chain of Thought 思维链

就像人类在回答一个困难的问题之前可能会思考很长时间一样,o 1在试图解决一个问题时也会使用一系列的思维。通过强化学习,o 1学会了磨练自己的思维链,完善自己使用的策略。它学会了认识和纠正自己的错误。它学会了把复杂的步骤分解成简单的步骤。当当前的方法不起作用时,它学会了尝试另一种方法。这个过程极大地提高了模型的推理能力。为了说明这一飞跃,我们展示了从o 1-preview到下面几个难题的思路链。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2131482.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GaN挑战Si价格底线?英飞凌推出全球首个12英寸GaN晶圆技术

昨日,英飞凌宣布已成功开发出全球首个12英寸功率氮化镓GaN晶圆技术,并计划在今年的德国慕尼黑展上向公众展示首批12英寸GaN晶圆。 据英飞凌介绍,12英寸晶圆上的芯片生产在技术上更先进,效率也有显著提高,相较于8英寸晶…

Serverless 安全新杀器:云安全中心护航容器安全

作者:胡志广(独鳌) 云安全中心对于 Serverless 容器用户的价值 从云计算发展之初,各大云厂商及传统安全厂商就开始围绕云计算的形态来做安全解决方案。传统安全与云计算安全的形态与做法开始发生变化,同时随着这 10 多年的发展,…

JavaWeb开发中为什么Controller里面的方法是@RequestMapping?

在Java Web开发中,尤其是在使用Spring MVC框架时,RequestMapping注解被广泛应用于Controller层的方法上,这是因为RequestMapping是Spring MVC提供的一个核心注解,用于将HTTP请求映射到相应的处理器类或处理器方法上。通过这种方式…

安全隔离上网的有效途径:沙盒

在数字化浪潮日益汹涌的今天,网络安全成为了不可忽视的重要议题。沙箱技术作为一种高效的隔离机制,为企业和个人提供了一种在享受网络便利的同时,保障系统安全的解决方案。本文旨在深入探讨沙箱技术如何做到隔离上网,从而为用户提…

什么开放式耳机好用?2024五款宝藏品牌推荐!

在移动互联网时代,耳机已成为许多人生活中不可或缺的一部分,无论是在通勤路上还是运动时,它们都能提供音乐享受,同时减轻压力。然而,长时间佩戴入耳式耳机可能会引起耳道不适甚至炎症。因此,开放式耳机因其…

STM32 如何生成随机数

目录 一、引言 二、STM32 随机数发生器概述 三、工作原理 1.噪声源 2.线性反馈移位寄存器(LFSR) 3.数据寄存器(RNG_DR) 4.监控和检测电路: 5.控制和状态寄存器 6.生成流程 四、使用方法 1.使能随机数发生器 …

洛谷 P3065 [USACO12DEC] First! G

原题点这里​​​​​​ 题目来源于:洛谷 题目本质:字符串,Hash,字典树Trie 题目思路: 因为涉及到字典序的问题,那么应该能想到字典树。很显然字符串s1如果比字符串s2的字典序小的话,只有两种…

sms4j 发送短信

一、使用介绍 技术介绍: SMS4J: 短信 支持 阿里云 腾讯云 云片 等等各式各样的短信服务商 项目地址: SMS4J: 让简单的事情回归简单的本质。 SMS4J为短信聚合框架,帮您轻松集成多家短信服务,解决接入多个短信SDK的繁琐流程。 目前已…

8招教你轻松解决职场甩锅PUA!

你是不是四十岁了还不知道解决职场甩锅行为也是有公式的! 那些混得好,能轻松赢得领导赏识,快速升职的,都 是早就把这些技巧背的滚瓜烂熟! 比如: 1、同事的错,领导误会是你 错误话术 这不是…

【Linux】在Windows搭建WSL2开发环境

在Windows搭建WSL2开发环境 WSL安装和调整更改安装位置变更默认apt源 Python环境变更默认Python版本安装pip WSL安装和调整 这里使用的WSL2,Ubuntu22.04 如果在WSL中需要使用系统代理但是报以下的错: 在当前Windows用户目录下创建.wslconfig并写入以下配…

网络工程师考试真题及解析

1. 在不同类型的操作系统中,批处理操作系统的缺点是()。 A) 缺少交互性 B) 不能并发运行 C) CPU利用率低 D) 周转时间太长 A【解析】批处理操作系统的优点是作业流程自动化较高,资源利用率较高,作业吞吐量大&…

word文档无损原样转pdf在windows平台使用python调用win32com使用pip安装pywin32

前提: windows环境下,并且安装了office套装,比如word,如果需要调用excel.也需要安装。在另外的文章会介绍。这种是直接调用word的。所以还原度会比较高。 需求: word文档转pdf,要求使用命令行形式,最终发布为api接口…

1992-2022年各省市县夜间灯光数据(excel+shp格式)

1992-2022年各省市县夜间灯光数据(excelshp格式) 1、时间:1992-2022年 2、来源: DMSP-OLS、NPP-VIIRS 3、指标:均值、总和、最小值、最大值、标准差 4、范围:34省市(含港澳台)、…

learn C++ NO.16——模板

typename关键字 typename是一个c关键字,主要用于解决模板定义中的依赖类型名称的解析问题。它告诉编译器紧随其后的名称是一个类型,而不是静态成员或成员函数。在模板编程中正确使用typename是理解和编写复杂模板代码的关键。 那什么是模板定义中的依赖…

聚鼎装饰画:做一家装饰画店铺能不能赚钱呢

在当今这个快节奏、高压力的社会环境中,人们越来越渴望在繁忙的生活中找到一丝宁静与美感。装饰画,作为提升居家和办公环境品位的艺术品,其市场需求日益增长。那么,做一家装饰画店铺究竟能不能赚钱呢? 从市场需求的角度来看&…

Codeforces practice /C++ 2024/9/11 - 2024/9/13

D. Mathematical Problem Codeforces Round 954 (Div. 3) 原题链接:https://codeforces.com/contest/1986/problem/D 题目标签分类:brute force,dp,greedy,implementation,math,two pointers…

深度学习经典模型之T5

T5(Text-to-Text Transfer Transformer) 是继BERT之后Google的又外力作,它是一个文本到文本迁移的基于Transformer的NLP模型,通过将 所有任务统一视为一个输入文本并输出到文本(Text-to-Text)中,即将任务嵌入在输入文本中,用文本的…

element ui form 表单出现英文提示的解决方案

场景再现: 在使用 form 表单的时候,一般都需要对表单元素进行验证,错误就出现在了这里,除了配置的错误信息,还会出现一个 英文校验提示,如下图: 解决方案 出现的原因是在el-form-item中使用…

推动数据治理与传统产业深度融合:解锁产业升级新引擎

标题:推动数据治理与传统产业深度融合:解锁产业升级新引擎 在数字化浪潮席卷全球的今天,数据已成为驱动经济社会发展的关键生产要素。传统产业,作为国民经济的基石,正面临着前所未有的变革挑战与转型升级的机遇。数据…

SVN的使用技巧

SVN(Subversion)是近年来崛起的版本管理工具,因为是免费的,所以用的人还是不少的。故做一些总结。 如果是新手,基本对SVN一点都不了解的话,建议去学习一下这个系统的教程,讲的也很详细Tortoise…