解码 OpenAI 的 o1 系列大型语言模型

news2024/9/21 14:07:41

OpenAI 表示,其 Strawberry 项目已升级为新的大型语言模型 (LLM) 系列,公司将其命名为 OpenAI o1。

该公司表示,新系列模型还包括一个 o1-mini 版本,以提高成本效益,可根据其推理能力与最新的GPT-4o 模型进行区分。

该公司在一篇博客文章中写道:

我们开发了一系列新的人工智能模型,旨在花更多时间思考后再做出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学模型更难的问题。这些模型目前处于预览阶段。

OpenAI 表示,下一次模型更新在物理、化学和生物学领域具有挑战性的基准任务上的表现与博士生相似,甚至在数学和编码方面表现出色。

在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 仅正确解决了 13% 的问题,而推理模型得分为 83%。他们的编码能力在比赛中得到了评估,并在 Codeforces 比赛中达到了第 89 个百分位。

OpenAI 表示,OpenAI o1 模型中的推理能力有望帮助解决科学、编码和数学等领域的复杂问题。

例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各个领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

模型如何获得推理能力?

新的 o1 模型系列的推理能力源自该公司的大规模强化学习算法,该算法教会模型如何在“高度数据高效的训练过程”中使用其“思路链”机制进行有效思考。

该公司在另一篇博客文章中表示:

我们发现,随着强化学习(训练时间计算)的增加和思考时间的增加(测试时间计算),o1 的性能会持续提高。与 LLM 预训练相比,这种方法具有很大不同的约束。

在人工智能和生成式人工智能领域,专家表示,任何模型在训练期间都会尝试根据输入的训练数据重新排列或修改其参数,以减少错误,从而提高准确性。

相反,在测试期间,开发人员和研究人员将模型暴露于新数据,以衡量其性能以及它如何适应新的数据实例。

因此,对于新模型来说,它花在分析和解决问题上的时间越多,它学到的东西就越多,从而提高了其推理能力。

这种学习是由模型的思路链算法激活的,其工作原理类似于人类在回答一个难题之前长时间思考的方式,通常将问题分解成更小的部分。

世界终于看到了推理时间扩展范式在生产中的普及和部署。

你不需要一个庞大的模型来进行推理。许多参数专门用于记忆事实,以便在琐事问答等基准测试中表现良好。可以从知识中分离出推理,即一个知道如何调用浏览器和代码验证器等工具的小型“推理核心。预训练计算可能会减少。

此外,OpenAI 肯定早就搞清楚了推理扩展定律,而学术界最近才发现这一点。不过,生产 o1 比确定学术基准要困难得多。

对于自然推理问题,模型如何决定何时停止搜索?奖励函数是什么?成功标准是什么?何时在循环中调用代码解释器之类的工具?如何将这些 CPU 进程的计算成本考虑在内?

OpenAI 也在一篇博客文章中表示,新模型仍处于开发的早期阶段,预计将进行重大迭代,目前还不具备ChatGPT的许多实用功能,例如浏览网页获取信息以及上传文件和图像。

对于许多常见情况,GPT-4o 将在短期内发挥更强大的作用。

OpenAI 隐藏了推理令牌

尽管新模型系列具有更好的推理能力,但 OpenAI 隐藏了模型的推理标记或思路链算法。

尽管该公司承认,公开思路链算法可以让企业了解模型的运作方式,以及是否有操纵用户的迹象,但它认为,直接向用户公开模型不一致的思路链或推理标记是没有帮助的。

干扰任何不一致的思路或推理标记都会对模型的运行产生违反直觉的影响,要准确理解模型的推理方式,它必须能够自由地以不变的形式表达其思想。

这就是为什么 OpenAI 无法将任何策略合规性或用户偏好训练到思想链上。

我们承认这个决定有缺点。我们努力通过教导模型在答案中重现思维链中的任何有用想法来部分弥补它。

英国程序员西蒙·威尔逊 (Simon Wilson) 对 OpenAI 的政策决定并不满意。他写道:“我可以运行一个复杂的提示,但隐藏了有关如何评估该提示的关键细节,这种想法感觉像是倒退了一大步。”

o1 模型的其他限制

Wilson 指出的有关推理令牌的另一个问题是,尽管推理令牌在 API 响应中不可见,但它们仍被计费并算作输出令牌。

从技术角度来看,这意味着企业将不得不因为推理令牌而增加其提示预算。

由于推理令牌的重要性 - OpenAI 建议为受益于新模型的提示分配约 25,000 个令牌的预算 - 输出令牌限额已大幅增加 - o1-preview 为 32,768 个,而据称较小的 o1-mini 为 65,536 个。

这些输出令牌限额比 GPT-4O 和 GPT-4O-mini 模型有所增加,这两款模型目前都有 16,384 个输出令牌限制。

OpenAI 还建议企业对新模型以不同的方式使用检索增强生成 (RAG)。

与 RAG 目前的用法不同,RAG 的建议是尽可能多地塞入相关文档,而 OpenAI 建议,在新的模型中,用户应该只包含最相关的信息,以防止模型的响应过于复杂。

如何获得全新o1系列模型? 

从周四开始,ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型。

该公司表示,o1-preview 和 o1-mini 都可以在模型选择器中手动选择,在发布时,o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条消息;正在努力提高这些速率并使 ChatGPT 能够根据给定的提示自动选择正确的模型。

另外,ChatGPT Enterprise 和 Edu 用户将从下周开始使用这两种模型。

Open AI 表示,符合 API 使用等级 5的开发人员可以从周四开始在 API 中使用这两种模型进行原型设计,速率限制为 20。

该公司表示:我们正在努力在进行额外测试后提高这些限制。这些模型的 API 目前不包括函数调用、流媒体、对系统消息的支持和其他功能,计划向所有 ChatGPT Free 用户提供 o1-mini 访问权限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2140232.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Visual Studio(vs)下载安装C/C++运行环境配置和基本使用注意事项

基本安装 点击跳转到vs官网点击箭头所指的按钮进行下载双击运行刚才下载好的下载器点击继续勾选“使用C的桌面开发”和“Visual Studio扩展开发”点击“安装位置”,对vs的安装位置进行更改。你可以跟我一样只选择D盘或者其他你空闲的盘,然后将默认的路径…

AIGC文本生成

文本生成是一种人工智能技术,它基于深度学习算法,根据给定的提示信息创作出有逻辑、连贯的文本内容。 文本生成所需的输入(提示或Prompt)可以是简单的关键词、一句话概述或是更复杂的指令和上下文信息。文本生成模型通过分析大量…

AR技术在电商行业中有哪些应用场景?有何优势?

AR(增强现实)技术在电商行业中的应用场景广泛且多样,为消费者带来了全新的购物体验,同时也为商家提供了诸多优势。51建模网为电商行业AR技术应用提供解决方案,以下是AR技术在电商行业中的主要应用场景及其优势&#xf…

数据结构:时间复杂度与空间复杂度

目录 算法效率时间复杂度大O渐进表示法时间复杂度计算案例 空间复杂度空间复杂度案例 复杂度算法题 算法效率 算法在编写成可执行程序后,运⾏时需要耗费时间资源和空间(内存)资源 。因此衡量⼀个算法的好坏,⼀般是从时间和空间两个维度来衡量的&#xf…

通过sshd_config限制用户登录

在CentOS Stream或其他现代的Linux发行版中,你可能会发现传统的hosts.deny和 hosts.allow文件已经不存在或不被使用。这是因为随着时间的推移,系统的安全策略和网络管理工具已经发生了演变,许多系统管理员和发行版维护者选择使用更现代、更灵…

12. DataLoader的基本使用

DataLoader的基本使用 1. 为什么要使用DataLoader DataLoader对创建好的DataSet的样本取样进行了集成操作,非常方便对于后续网络训练、测试的数据集的选择和使用 DataLoader可以集成了数据批量加载的方法,可以使用 batch_size 设置批量大小&#xff0c…

深入理解 Redis 的文件事件处理器

概述 Redis 的文件事件处理器是基于 Reactor 模式实现的,内部采用 IO 多路复用程序来同时监听多个套接字,当被监听的套接字准备好执行连接应答(accept)、读取(read)、写入(write)、…

计算机毕业设计 高校大学生竞赛项目管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

获取Live2d模型

文章目录 1、 Live2D官方示例数据集(可免费下载)2、模之屋3、unity商店4、直接b站搜索5、youtube6、BOOTH完结 1、 Live2D官方示例数据集(可免费下载) 官方提供了一些 Live2D实例模型给大家下载使用 地址:https://ww…

2024年【山东省安全员B证】报名考试及山东省安全员B证最新解析

题库来源:安全生产模拟考试一点通公众号小程序 山东省安全员B证报名考试是安全生产模拟考试一点通生成的,山东省安全员B证证模拟考试题库是根据山东省安全员B证最新版教材汇编出山东省安全员B证仿真模拟考试。2024年【山东省安全员B证】报名考试及山东省…

通用接口开放平台设计与实现——(31)API服务线程安全问题确认与修复

背景 在本系列的前面一篇博客评论中,有小伙伴指出,API服务存在线程安全问题: https://blog.csdn.net/seawaving/article/details/122905199#comments_34477405 今天来确认下,线程是否安全?如不安全,如何…

在k8s中,客户端访问服务的链路流程,ingress--->service--->deployment--->pod--->container

ingress是一个API资源。 其核心作用是nginx网页服务器。 当客户端访问服务器不同的url时, 用不同的location提供服务。 在k8s之外,nginx的配置一般如下: http {server {listen 80;server_name localhost;location / {root html; …

文件的应用实例

目录 1、拷贝文件 2、遍历文件夹 1、拷贝文件 说明:将一张图片/一首歌拷贝到另外一个目录下,要求使用read()和write()原生方法完成 """思路分析:1、打开源文件(需要拷贝的文件),读取源文件的数据2、打开目标文…

网络安全学习(四)渗透工具msf

本文简要介绍metasploit framework,是一款渗透工具。官网地址:Metasploit | Penetration Testing Software, Pen Testing Security | Metasploit msf是一个框架,可以加载各种模块,这是它的最强大之处。 kali中有此工具。 点击即…

python中的各类比较与计算

运算符 1.算数运算符2.关系运算符3.逻辑运算符4.关于短路求值5.赋值运算符1)的使用链式赋值多元赋值 2)复合赋值运算符 6.位运算符7.成员运算符8.身份运算符 1.算数运算符 # 加 print(1 2) # 减 print(2 - 1) # 乘 print(1 * 2) # 余数 4%31余数为1 print(4 % 3…

C++第五十一弹---IO流实战:高效文件读写与格式化输出

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 目录 1. C语言的输入与输出 2. 流是什么 3. CIO流 3.1 C标准IO流 3.2 C文件IO流 3.2.1 以写方式打开文件 3.2.1 以读方式打开文件 4 stringstre…

【测试方案】软件测试管理规程(doc源文件)

软件测试规程的作用在于确保软件测试活动的系统性、规范性和一致性。它明确了测试的目标、范围、方法、流程以及所需资源,为测试人员提供了明确的指导和操作规范。通过遵循测试规程,可以提高测试效率,减少测试遗漏和错误,保证软件…

NC 表达式求值

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 请写一个整数…

MySQL8.0.13-函数索引

目录 什么是函数索引 语法 函数索引测试 创建表结构 插入数据 创建普通索引 查看执行计划 创建函数索引 查看执行计划 查看索引信息 函数索引效率 普通索引 函数索引 分析 注意事项 老版本如何实现函数索引 什么是函数索引 本篇主要介绍 MySQL 的函数索引&…

【数据结构】顺序表和链表经典题目

系列文章目录 单链表 动态顺序表实现通讯录 顺序表 文章目录 系列文章目录前言一、顺序表经典例题1. 移除元素2. 合并两个有序数组 二、链表经典例题1. 移除链表元素2. 反转链表3. 合并两个有序链表4. 链表的中间节点5. 环形链表的约瑟夫问题 总结 前言 我们通过前面对顺序表…