重磅!OpenAI正式发布博士水平的推理模型o1!附详细说明

news2024/9/20 16:04:28

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

昨天刚在《ChatGPT Pro都来了,ChatGPT Pro Max还会远吗?》一文中介绍过OpenAI即将推出一款具备推理能力的新模型,今天它就来了!

北美时间9月12日下午,OpenAI官方正式宣布了新模型o1-preview(o1预览版)的发布。和我在昨天的文章中分析的一致,o1-preview作为新一代模型,擅长通过推理解决复杂的任务,尤其在科学、代码和数学方面有着显著提升。

短短2个小时,OpenAI的帖子阅读量就已突破百万。

本次发布的新模型共有2个,除了上面提到的o1-preview,另一个是o1-mini,即o1-preview的弟弟版本,更加注重经济高效。可以简单理解为GPT-4oGPT-4o mini的关系。

o1模型发布后,OpenAI的CEO Sam Altman也是随即在社交媒体发表多个帖子表示这将会是目前最强大、最对齐的模型。虽然该模型还不完美,但它将惊人感到惊艳。

o1工作原理

o1模型的工作原理可以简单概括为,OpenAI通过让模型在回复前花更多时间思考,从而提升其解决复杂问题的能力。与传统的AI模型不同,o1更加注重推理过程,类似于人类在面对难题时,先花时间分析、思考,再做出回应。

在训练过程中,模型能够逐步优化思维方式,尝试不同的策略,并能够自我识别和纠错。通过这种反复训练,o1逐渐掌握了精细化的推理能力,能够在解决问题时更加准确和灵活。

从测试结果来看,本次更新的o1模型在物理、化学和生物学等复杂学科的高难度基准任务上,表现几乎与博士生相当。在数学编码领域,该模型的表现更加出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o只能正确解决13%的问题,而该推理模型o1的正确率达到了惊人的83%。同时,在Codeforces编程竞赛中,o1的表现达到了第89百分位(即表现超过了89%的评估对象,排名前11%),展现出其在编码任务中的强大能力。

作为一款早期模型,o1模型目前还没有浏览网页、上传文件和图像等ChatGPT的一些常用功能,但在复杂的推理任务中,o1的表现已经显著超越了之前的模型,包括GPT-4o,这一表现无疑代表着AI模型的新高度。

OpenAI对此模型寄予厚望,认为它能够大幅提升科学、数学和编程等领域的工作效率。也正因此,OpenAI决定将版本编号从头开始,并将这个系列模型重新命名为o1

新模型的安全性能

安全性一直是AI模型开发中的核心问题,尤其是在模型推理能力不断提升的背景下。针对o1系列模型,OpenAI表示采用了全新的安全训练方法,通过引入模型的推理能力,使其能够更好地遵循安全和对齐指南。与传统的规则式限制不同,o1模型能够根据上下文进行推理,从而更有效地应用这些安全规则。

OpenAI采取了更严格的安全评估机制,以确保新模型在面对复杂场景时依然能够遵守安全规则。例如,在用户试图绕过安全限制(即“越狱”)的情况下,OpenAI对模型进行了专门的测试。根据测试结果,上一代的GPT-4o在越狱测试中的得分仅为22(满分100分),而o1-preview模型则取得了84的高分。

为了进一步增强这些模型的安全保障,OpenAI还强化了内部治理体系,并加强了与政府的合作。这包括使用准备框架进行的全面测试、顶级的红队测试,以及由安全与安保委员会主持的董事会级别的审查流程。

o1适用人群

o1系列模型所具备的增强推理能力,特别适合那些需要处理复杂问题的专业领域,无论是科学研究代码开发,还是数学运算等相关领域。这一新一代模型能够通过其强大的推理能力解决此前难以处理的复杂任务。

举例来说,o1可以帮助医疗研究人员标注细胞测序数据,这在生命科学领域中的基因研究、药物研发等方面尤为重要。对于物理学家来说,o1能够生成量子光学所需的复杂数学公式,大幅提升研究过程中的计算效率和准确性。同时,o1还可以支持各类开发者,帮助他们构建和执行多步骤的工作流程,自动化和优化工作任务。无论是处理大规模数据集,还是编写复杂算法,o1都能够以其卓越的推理能力为开发者提供支持。

这也意味着,在这些需要精确计算和严密推理的领域,o1将能够显著提升生产力,减少人为错误,并大幅加快科研进程和开发速度。不仅如此,随着o1模型的持续改进和功能拓展,它未来将有望在更多领域中发挥作用,帮助从事各类复杂任务的专业人员提升工作效率和成果质量。

o1-mini:更经济高效的选择

o1系列模型在复杂代码生成和调试方面表现出色,为了给开发者提供更高效的解决方案,OpenAI还推出了o1-mini。相比于o1-previewo1-mini速度更快,且成本更低,特别适合那些需要推理但不需要广泛世界知识的应用场景。作为一个较小的模型,o1-mini的价格比o1-preview便宜80%,因此在需要强大推理能力的同时,又考虑成本的应用中,o1-mini可能是一个更好的选择。

如何使用o1模型

从今天(9月12日)起,ChatGPT PlusTeam用户可以在ChatGPT中手动选择o1系列模型,包括o1-preview还是o1-mini。在当前阶段,o1-preview消息限额为每周30条o1-mini则为每周50条。是的,你没有看错,30条和50条是每周的限额。

从下周开始,ChatGPT EnterpriseEdu用户也将获得访问这两个模型的权限。

对于API用户,符合使用等级5(usage tier 5)的开发者今天就可以开始使用这两个模型,初期API速率限制为每分钟20次请求。目前API版本不支持函数调用、流式传输和系统消息等功能,但这些功能的增加和限制的提升正在进行测试,OpenAI也将在后续扩展更多功能。

值得一提的是,OpenAI还计划将o1-mini开放给所有ChatGPT免费用户,让更多用户能够享受到这个新推理模型。

未来展望

目前,o1系列模型仍处于早期预览阶段,用户可以通过ChatGPTAPI体验其推理能力。随着模型的持续改进,OpenAI计划为o1系列增加更多实用功能,如网页浏览、文件上传、图片处理等,进一步提升模型的实用性。

与此同时,OpenAI表示,除了o1系列,OpenAI并未停止对GPT系列的开发。未来,GPT系列模型也将继续更新和发布,与o1系列共同发展。


精选推荐

  1. ChatGPT Pro都来了,ChatGPT Pro Max还会远吗?

  2. OpenAI提出从AI到AGI通用人工智能的五级分类系统!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2130721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【android10】【binder】【2.servicemanager启动——全源码分析】

系列文章目录 可跳转到下面链接查看下表所有内容https://blog.csdn.net/handsomethefirst/article/details/138226266?spm1001.2014.3001.5501文章浏览阅读2次。系列文章大全https://blog.csdn.net/handsomethefirst/article/details/138226266?spm1001.2014.3001.5501 目录 …

登山第九梯:稀疏点云实例分割——又快又准

文章:Fast Range Image-Based Segmentation of Sparse 3D Laser Scans for Online Operation 代码:https://github.com/PRBonn/depth_clustering 1)摘要 从 3D 距离数据中分割对象是移动机器人领域的一个重要主题。在动态环境中导航的机器人需…

C51单片机-单按键输入识别,键盘消抖

【实验目的】 独立按键的识别方法、键盘消抖等。 【实验现象】 每按一次独立键盘的S2键,与P1口相连的八个发光二极管中点亮的一个往下移动一位。 【实验说明】 关于按键去抖动的解释,我们在手动按键的时候,由于机械抖动或是其它一些非人为的因…

NR PDSCH/PUSCH支持的maxMIMO layers

这里不考虑UE支持的具体MIMO能力,仅仅讨论协议上定的maxMIMO layers。 PDSCH 根据上面38.331中的结构,PDSCH max MIMO layers 为8 layers,进行8 layers传输时 要enable two codewords,因为 one codeword只能支持4 layers传输&…

【信创】Linux系统如何配置USB存储禁用及例外 _ 统信 _ 麒麟 _ 方德

原文链接:【信创】Linux系统如何配置USB存储禁用及例外 | 统信 | 麒麟 | 方德 Hello,大家好啊!今天给大家带来一篇关于如何在Linux系统中配置USB存储禁用及例外的文章。禁用USB存储可以有效防止未经授权的人员从系统中复制数据或注入恶意软件…

CSS——盒子模型

首先CSS将所有的元素都看成一个盒子 盒子的组成: content —— 内容区域padding —— 内边距(边框与内容间的距离)border —— 边框线margin —— 外边距(盒子盒子间的距离) 这里着重说一下margin: 水平方向&#xff…

Kafka 基础与架构理解

目录 前言 Kafka 基础概念 消息队列简介:Kafka 与传统消息队列(如 RabbitMQ、ActiveMQ)的对比 Kafka 的组件 Kafka 的工作原理:消息的生产、分发、消费流程 Kafka 系统架构 Kafka 的分布式架构设计 Leader-Follower 机制与…

新品|瑞芯微RK3588工控机IPC8801适用AI算力、边缘计算、工业视觉

深圳触觉智能重磅推出旗舰级工控机IPC8801,搭载瑞芯微RK3588 ⼋核处理器;全铝紧凑机身、支持无风扇被动散热低噪音,确保设备在恶劣工业环境下稳定运行。 作为AI算力、边缘计算及工业视觉领域的高性能工控机,在国产化智能硬件与系统…

Axure PR 9 标签 设计交互

大家好,我是大明同学。 这期内容,我们将深入探讨Axure中可编辑标签元件设计与交互技巧。 可移除标签元件 创建可移除标签所需的元件 1.打开一个新的 RP 文件并在画布上打开 Page 1。 2.在元件库中拖出一个文本框元件。 3.选中文本框元件&#xff0c…

视频服务器:GB28181网络视频协议

一、前言 某项目中需要集成视频管理平台,实现分布在各省公司的摄像及接入,对视频进行统一管理。本项目中视频管理平台采用GB/T28181实现的监控设备接入管理平台,支持在开放互联网和局域网对监控设备进行远程接入、远程管理、远程调阅、录像回…

【文件包含】——日志文件注入

改变的确很难,但结果值得冒险 本文主要根据做题内容的总结,如有错误之处,还请各位师傅指正 一.伪协议的失效 当我们做到关于文件包含的题目时,常用思路其实就是使用伪协议(php:filter,data,inpput等等)执行…

【NOI-题解】1407. 图像相似度1330. 求最大梯形的面积1384. 靶心数1398. 奇偶统计

文章目录 一、前言二、问题问题:1407. 图像相似度问题:1330. 求最大梯形的面积问题:1384. 靶心数问题:1398. 奇偶统计 三、感谢 一、前言 欢迎关注本专栏《C从零基础到信奥赛入门级(CSP-J)》 本章节主要对…

优秀的安防视频监控平台应该具备怎样的视频编解码能力?

随着安防技术的飞速发展,监控平台作为保障公共安全、维护社会秩序的重要工具,其性能与效率日益成为行业关注的焦点。其中,监控平台的视频编码能力在视频监控系统中扮演着至关重要的角色,视频编码技术作为监控系统的核心组成部分&a…

200美元/月的ChatGPT Pro版上线?OpenAI草莓模型曝两周内发布,但模型表现要打个问号?

夕小瑶科技说 原创 作者 | 海野 现在看到“草莓”两个字,我已经条件反射了,已经不再是之前单纯的香香甜甜的草莓了。 一早醒来,又发生了两件“大事”: 一个是OpenAI的草莓(strawberry)被曝要提前了&#xf…

Xorbits Inference(Xinference):一款性能强大且功能全面的大模型部署与分布式推理框架

大模型部署与分布式推理框架Xinference Xinference的基本使用概述安装启动服务模型部署模型参数配置说明 API接口概述对话接口模型列表嵌入模型Rerank模型使用Xinference SDK使用OpenAI SDK 命令行工具概述启动模型引擎参数其他操作 集成LoRA启动时集成LoRA应用时集成LoRA 部署…

Stable Diffusion绘画 | ControlNet应用-Tile(分块)—tile_resample(分块-重采样)

要想使用 SD 生成高品质图片,放大增加分辨率是必不可少的环节。 tile_resample(分块-重采样) 主要是将图片切分成很多个分块,并识别每个分块的信息,最终通过特定算法把分块的信息重组起来。 能有效避免直接对一整张图片统一处理&#xff0c…

TensorFlow深度学习框架改进K-means聚类、SOM自组织映射算法及上海招生政策影响分析研究...

全文链接:https://tecdat.cn/?p37652 分析师:Chen Zhang 在教育政策研究领域,准确评估政策对不同区域和学生群体的影响至关重要。2021 年上海市出台的《上海市初中学业水平考试实施办法》对招生政策进行了调整,其中名额分配综合…

LSS可视化分析

1 完整 2 去掉plt.imshow(img_show) 3 去掉plt.axis(‘off’) 4 去掉plt.annotate(cams_text[img_id].replace(‘_’, ’ ), (0.01, 0.92), xycoords=‘axes fraction’)

3C电子胶黏剂在手机制造方面有哪些关键的应用

3C电子胶黏剂在手机制造方面有哪些关键的应用 3C电子胶黏剂在手机制造中扮演着至关重要的角色,其应用广泛且细致,覆盖了手机内部组件的多个层面,确保了设备的可靠性和性能。以下是电子胶在手机制造中的关键应用: 手机主板用胶&…

【蓝桥杯省赛真题52】Scratch猪八戒落地 蓝桥杯scratch图形化编程 中小学生蓝桥杯省赛真题讲解

scratch猪八戒落地 第十五届青少年蓝桥杯scratch编程省赛真题解析 一、题目要求 编程实现 1)点击绿旗,猪八戒在空中踩着一朵云,如图所示; 2)1秒后,猪八戒踩着云向地面移动,如图所示; 3)猪八…