【报告阅读】chatgpt-o1 技术报告阅读 | 新的迭代开始了~

【报告阅读】chatgpt-o1 技术报告阅读 | 新的迭代开始了~

news2025/4/24 8:18:22

OpenAI o1是通过强化学习去进行复杂推理，在它回答之前，他会经过复杂的内部思维链的思考。

经过强化训练的o1多强

1 表现

在美国数学奥林匹克预选赛中名列前500名的学生中，o1排89名

在物理、生物、化学问题的基准测试中超过人类博士水平

在这里插入图片描述

其实你都不需要细看每一个数据集是什么含义。

只需要相对对比就知道他有多强了

4o还是蛮厉害的吧

但是在o1 preview和o1面前简直就是一个傻子，很多准确率不是几个几个超越，而是几十几十的超越

降维打击

怪不得OpenAI都直接给他一个新的系列名称了~

2 实现方法

类似于人类在回答一个困难问题之前可能会思考很长时间，o1 在尝试解决问题时使用思维链。通过强化学习，o1 学习完善其思维链并优化所使用的策略。它学会识别和纠正自己的错误。它学会将棘手的步骤分解为更简单的步骤。当当前的方法不起作用时，它学会尝试不同的方法。这个过程显著提高了模型的推理能力。

这也可以解释为什么o1这么贵，因为很多时候，你问一个问题，他会将这个问题反复思考（思考的过程都会消耗tokens，不显示给用户罢了）

在技术报告这里其实OpenAI已经展示了怎么实现的

学习推理与 LLMs | OpenAI — Learning to Reason with LLMs | OpenAI

在第一个demo中，对比了4o和o1在解码的过程

可以点击右侧打开思维链条

你会发现非常有趣，就是o1好像在和自己聊天一样，他会不断的向自己提问，然后证明自己的问题是错误的或者是正确的，一步一步向后推进。

3 还没有达到上界？

现在最可怕的是，他其实还没有达到瓶颈期。

可以看报告中放出的这张图
在这里插入图片描述

可以看到随着训练时间或者测试时间的加长，准确率依然稳步上升。

有训练过模型的朋友可能知道，训练模型过程中，一般来说，最痛苦的就是准确率很快就达到瓶颈了（往往呈现先升后平），而像上图这样优美的上升曲线简直就是炼丹人的最爱。

那你可能会问，既然增加训练时间o1的性能还在上升，为什么OpenAI不继续增加训练时间看看他最终的效果？

当然，我不是内部人员我也不知道

但我大概可以猜测出，就是训练时间太长太长了。

如果你注意到横轴是log scale即对数尺度就知道了，他这个横轴时间是取了对数的，所以要想提高模型性能，你的训练时间就得指数增加，就已经不是普通人训练几小时甚至几天了，可能是按月或者年了。

这是个好消息也是个坏消息。

好消息是，模型训练依然没有到达瓶颈，OpenAI又一次证明了可能性，人们还是有机会训练出更加智慧更加聪明的AI

坏消息是，训练一次模型的成本指数增加，无论是时间成本还是显卡成本

4 思考

看完还是觉得很牛逼。

思维链还是没变，只不过原本是人类引导模型去一步一步思考，现在变成了通过强化学习让模型自己就可以一步一步反思思考。

AI技术发展我觉得不可避免

但说实话其实我真正担心的是

将这些技术用在国防，科学发现而产生的质的推进。

从而导致国与国的差异更加增大

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2156825.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

stm32单片机个人学习笔记7（TIM定时中断）

stm32单片机个人学习笔记7（TIM定时中断）

前言本篇文章属于stm32单片机（以下简称单片机）的学习笔记，来源于B站教学视频。下面是这位up主的视频链接。本文为个人学习笔记，只能做参考，细节方面建议观看视频，肯定受益匪浅。 STM32入门教程-2023版细…

阅读更多...

Python可迭代对象(1)---从C++开发者学习python日记

Python可迭代对象(1)---从C++开发者学习python日记

目录 1。什么是可迭代对象？ 2。列表(list) 列表的创建列表基本操作以上全部代码的总运行结果列表脚本操作符列表常用的方法和函数列表推导式编辑列表的嵌套以上全部代码的总运行结果复习列表内容 3。元组(tuple) 元组的基本运算元组的方法 …

阅读更多...

SFUD库移植

SFUD库移植

1.源码 GitHub - armink/SFUD: An using JEDECs SFDP standard serial (SPI) flash universal driver library | 一款使用 JEDEC SFDP 标准的串行 (SPI) Flash 通用驱动库 2.介绍这个通用驱动库,实际就是帮你封装好了读写spiflash的函数, 我们只需要对接以下底层,就可以轻松…

阅读更多...

快速了解使用路由器

快速了解使用路由器

插槽的使用和用法：slot 为什么要使用插槽： 在Vue.js等前端框架中在Vue.js等前端框架中，插槽（Slot）是一种强大的工具，允许开发者在组件之间动态地传递和呈现内容。使用插槽的主要原因包括： …

阅读更多...

【LTW】Domain General Face Forgery Detection by Learning to Weight

【LTW】Domain General Face Forgery Detection by Learning to Weight

文章目录 Domain General Face Forgery Detection by Learning to Weightkey points方法LTW元分割策略学习过程损失函数实验评价结果消融实验总结Domain General Face Forgery Detection by Learning to Weight 会议：AAAI-21 作者： code: https://github.com/skJack/LTW 上…

阅读更多...

用uniapp 及socket.io做一个简单聊天升级 9

用uniapp 及socket.io做一个简单聊天升级 9

比这之前优化了以下功能上线通知群聊里适时显示在线人数约请好友通过好友通过socket 相应端自动变化 PC端可以拉取摄象头拍照 PC端可以录音发送拉起摄象头发送录象 <template><view class""><scroll-view scroll-y"true" class&…

阅读更多...

2024 离线ASR和TTS推荐与示例

2024 离线ASR和TTS推荐与示例

2024 离线ASR和TTS推荐文章目录 2024 离线ASR和TTS推荐一、前言二、安装与使用1、EdgeTTS的安装和使用（1）Edge TTS介绍与效果试听（2）Edge TTS安装（3）Edge TTS查看支持的音色（4）Edge…

阅读更多...

16【Protues51单片机仿真】智能洗衣机倒计时系统

16【Protues51单片机仿真】智能洗衣机倒计时系统

目录一、主要功能二、硬件资源三、程序编程四、实现现象一、主要功能用直流电机转动模拟洗衣机。要求有弱洗、普通洗、强洗三种模式，可通过按键选择。可以设置洗衣时长，通关按键选择15、30、45、60、90分钟。时间到蜂鸣器报警提示。LCD 显示…

阅读更多...

MySQL：事务的ACID特性隔离级别脏读/不可重复读/幻读/Next-Key锁——场景复现

MySQL：事务的ACID特性隔离级别脏读/不可重复读/幻读/Next-Key锁——场景复现

目录 1、什么是事务 2、事务的ACID特性 2.1 事务的隔离性 3、为什么要使用事务？ 4、查看支持事务的存储引擎 5、使用事务 5.1 控制事务 5.1.1 开启事务 5.1.2 关闭事务 5.2 开始一个事务，执行修改后回滚 5.3 开始一个事务，执行修…

阅读更多...

set-ExecutionPolicy RemoteSigned 提示不是内部或外部命令，也不是可运行的程序或批处理文件

set-ExecutionPolicy RemoteSigned 提示不是内部或外部命令，也不是可运行的程序或批处理文件

这个错误一般发生在使用命令提示符或者PowerShell窗口中找不到set-ExecutionPolicy RemoteSigned。如果你想在命令提示符或者PowerShell窗口运行set-ExecutionPolicy RemoteSigned，你需要搜索打开Window PowerShell ISE，并以管理员身份打开，输…

阅读更多...

图结构感知的Transformer：一种新的图表示学习方法

图结构感知的Transformer：一种新的图表示学习方法

人工智能咨询培训老师叶梓转载标明出处尽管图神经网络（GNNs）在处理图数据方面取得了显著成就，但它们在表达能力和捕获长距离依赖方面存在局限性。为了突破这些局限，研究者们开始探索将Transformer架构应用于图表示学习。在此基…

阅读更多...

使用Electron打包一个Vue3项目全步骤

使用Electron打包一个Vue3项目全步骤

1.创建一个Vue3项目 2.使用 WebStorm打开项目，并安装依赖项 npm install 等待完成后， 安装electron npm install --save-dev electron 等待完成后， 安装electron 打包依赖项(打包成可执行文件) npm install electron-packager --save-dev 3…

阅读更多...

从零开始一个git操作实例，图文并茂

从零开始一个git操作实例，图文并茂

徒弟不懂git怎么用， 于是写了篇文章， 把本地git操作从头写了一遍， 自己去看吧！ 0、基本概念 •Git是一个免费、开源的、分布式版本控制系统 •它使用一个特殊的叫做仓库的数据库来记录文件的变化 •仓库中的每个文件都有一个…

阅读更多...

ccfcsp-202406（1、2、3、4、5）

ccfcsp-202406（1、2、3、4、5）

矩阵重塑（其一） #include <bits/stdc.h> using namespace std; int main() {int n,m,p,q;cin >> n >> m >> p >> q;vector<int> vec(n * m);vector<vector<int>> res(p, vector(q,0));int k 0;for(in…

阅读更多...

力扣反转链表系列【25. K 个一组翻转链表】——由易到难，一次刷通！！！

力扣反转链表系列【25. K 个一组翻转链表】——由易到难，一次刷通！！！

力扣《反转链表》系列文章目录刷题次序，由易到难，一次刷通！！！ 题目题解206. 反转链表反转链表的全部题解192. 反转链表 II反转链表的指定段题解224. 两两交换链表中的节点两个一组反转链表题解325. K 个一组翻转…

阅读更多...

HarmonyOS---权限和http/Axios网络请求

HarmonyOS---权限和http/Axios网络请求

网络请求(http,axios) 目录一、应用权限管理1.1权限的等级1.2授权方式1.3声明权限的配置1.4如何向用户进行申请二、内置http请求使用三、Axios请求使用（建议）3.1 使用方式一3.2 使用方式二（建议） 一、应用权限管理应用权限保护…

阅读更多...

git仓库服务器端损坏如何用本地code重新部署

git仓库服务器端损坏如何用本地code重新部署

文章目录 1. **在新服务器上创建一个新的 Git 仓库**2. **将本地仓库推送到新服务器**2.1. 添加新服务器为远程仓库2.2. 推送代码和历史记录2.3. 推送 tags（如果有 tags） 3. **在新服务器上拉取代码并部署**4. **确保修改记录和历史完整**5. **可选&…

阅读更多...

Flink Task 日志文件隔离

Flink Task 日志文件隔离

Flink Task 日志文件隔离任务在启动时会先通过 MdcUtils 启动一个 slf4j 的 MDC 环境，然后将 jobId 添加到 slf4j 的 MDC 容器中，随后任务输出的日志都将附带 joid。 MDC 介绍如下： MDC ( Mapped Diagnostic Contexts )，它是一个…

阅读更多...

Linux 线程互斥

Linux 线程互斥

文章目录 3. Linux 线程互斥3.1 相关概念3.2 互斥量mutex3.3 互斥量的接口3.4 改进3.2中的代码3.5 互斥量（锁）的原理3.6 封装一下原生锁的接口，RAII风格的锁3.7 可重入和线程安全 3. Linux 线程互斥 3.1 相关概念临界资源：多…

阅读更多...

web自动化学习笔记

web自动化学习笔记

目录一、web自动化测试环境搭建二、web自动化测试第一个脚本三、selenium 8种定位方式3.1、通过id定位3.2、通过name定位3.3、通过tag_name（标签名）定位3.4、通过class值进行定位3.5、通过链接文本定位3.6、通过部分链接文本定位3.7、通过xpath定位3.8、…

阅读更多...

推荐文章

最新文章