OpenAI发布o1预览模型:推理能力更强可达理科博士生水准

news2024/11/18 9:25:02

近日OpenAI宣布推出了新一代 AI 模型系列 OpenAI o1,按照官方技术博客说法,o1 在推理能力上代表了人工智能最强的水平。

那究竟是怎么一回事呢?
在这里插入图片描述

OpenAI CEO Sam Altman 表示:o1 系列的推出代表了 AI 能力的新起点,能够处理科学、编程、数学等领域中的复杂问题。

OpenAI o1 训练测试

在复杂的推理任务上,这款新模型是一次重要突破,代表了 AI 能力的新水平。基于此,OpenAI 选择将此系列重新命名为 OpenAI o1,并从头开始计数。

它也被业界称为"草莓(Strawberry)项目",它是 OpenAI 内部用于开发 o1 模型的代号,实际上就是后来发布的 o1-preview 模型。
这个代号在公司内部广泛使用,因为"草莓"象征着这个项目带来的突破性推理能力。(此前发文的神秘帖子也在此暗示了)

至于网传GPT5,它并不是,o1 系列实际上是一个新范式的开始,是一个新命名和重新定位的 AI 发展方向,专注于复杂推理任务,并且与 GPT-4 系列有明显的提升。

与之前的模型相比,OpenAI o1 能够像人类一样在回答问题前进行深度思考,解决多步复杂任务。比如,在测试中,o1 的表现达到了博士生的水准,尤其是在物理、化学、生物等学科的难题上。而在编程方面,o1 模型在 Codeforces 竞赛中的表现优于之前的 GPT-4o。

Altman指出,虽然 o1 仍然有缺陷,并在长期使用后表现出一些局限,但这是一个新的范式的开端,预示了 AI 能够进行复杂推理的未来

OpenAI o1 测试表现

o1 系列模型经过训练,可以在做出反应之前花更多时间思考,从而改进推理过程并提高解决问题的能力。在初步测试中,推理模型的下一次更新在物理、化学和生物学任务上的表现与博士生相当,在数学和编码竞赛中取得了显著的成功。

在国际数学奥林匹克竞赛的资格考试中,该模型得分为 83%,而 GPT-4o 得分为 13%。

尽管 o1-preview 模型具有先进的推理能力,但它缺少 GPT-4 中的一些实用功能,例如浏览网页和文件上传。

不过,OpenAI 强调该模型在处理复杂任务方面的潜力,特别是在需要多步骤工作流程的领域。 作为发布的一部分,OpenAI 实施了一种新的安全训练方法,使模型能够更好地遵守安全规则。在越狱测试中,o1-preview 的表现优于 GPT-4o,得分为 84 分(满分 100 分),而 GPT-4o 得分为 22 分。

除了 o1-preview,OpenAI 还发布了一款更小、更经济的模型,名为o1-mini,专为需要高级编码能力但又不具备广泛世界知识的开发人员而设计。o1-mini 比 o1-preview 便宜 80%。

从今天开始,ChatGPT Plus 和 Team 用户可以从模型选择器中手动选择 o1-preview 和 o1-mini,o1-preview 的速率限制为 30 条消息,o1-mini 的速率限制为 50 条消息。

OpenAI 计划扩大 ChatGPT Free 用户对 o1-mini 的访问权限,并将继续为 o1 系列添加新功能,包括浏览和文件上传。

新模型简要特点

  • OpenAI o1:性能强大,适用于处理各个领域推理的复杂任务。
  • OpenAI o1 mini:经济高效,适用于需要推理但不需要广泛世界知识的应用场景。

主要特点和进步

  1. 思路链推理

o1 模型可以在给出答案之前生成详细的推理步骤。这有助于它们遵循特定的指导方针和政策,确保满足安全期望。

  1. 增强安全性和稳健性

作为 OpenAI 最强大的模型,o1 系列在生成非法建议、避免刻板反应和抵抗已知越狱相关的基准测试中取得了最先进的性能。

  1. 基准测试性能提升

o1-preview模型在编码、数学和安全合规等各个领域均表现良好。它在具有挑战性的任务中表现优于 GPT-4o,并且在避免不允许的内容和幻觉方面表现出显著的进步。

安全挑战与评估

虽然 o1 模型提供了巨大的优势,但由于其智能程度的提高,它们也带来了新的安全挑战。OpenAI 进行了广泛的安全评估,包括内部测试和外部红队测试,以识别和减轻潜在风险。

这些评估侧重于:

  • 不允许的内容:确保模型不会产生有害或不适当的内容。
  • 越狱鲁棒性:测试模型对旨在绕过安全措施的对抗提示的抵抗力。
  • 幻觉:减少模型生成不正确或无意义信息的情况。
  • 偏见评估:评估并尽量减少模型响应中的任何不公平偏见。

适合对象

如果你正在解决科学、编码、数学和类似领域的复杂问题,这些增强的推理能力可能特别有用。

例如,医疗研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

最后有话说

Sam Altman也坦承,虽然o1模型有些不足,比如在首次体验时感觉特别惊艳,但用久了之后,问题就会显现得更明显。不过,总体上来说,o1模型的表现还是很不错的。

而且这次o1的发布,感觉像是为下半年AI大战点燃了导火索。估计接下来,像Anthropic、Meta AI、xAI这些公司,还有一些隐藏的黑马,都会纷纷亮相了。

从GPT-4开始,OpenAI每次发布新模型,都不仅是为了展现性能的强大,更是在引领大家走向技术探索的更深水域。o1也不例外,它同样希望推动这样的变革。

如果你想升级chatgpt4、开通Claude的话,也可以看看往期文章👇
(2024 最新 GPT4、GPT4.0 升级教程)ChatGPT 升级银行卡被拒绝,教你 5 分钟快速升级 chatgpt4
觉得升级费用暂时承担不起,也可以看看ChatGPT、Claude镜像站,1:1还原,国内访问不怕被封,有售后,最重要的是!价格会比官方便宜很多很多👇
ChatGPT4.0账号被封了怎么办?gpt4怎么买更便宜?先试试这个国内最新替代镜像站吧
详情可联系下方vx号,添加时请注明"镜像站"

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2133076.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用Python设置PDF中图片的透明度

在PDF文档的设计与内容创作过程中,图像的透明度设置是一个重要的操作。尤其是在处理图文密集型PDF文档时,设置适当的图片透明度能够极大地提升视觉表达的层次感与专业性。设置PDF图像的透明度能够让图像更好地融入背景,实现平滑过渡的效果&am…

PAT甲级-1028 List Sorting

题目 题目大意 输入给出学生数目和C值,以及每个学生的信息。要求按照C值对学生信息作出不同的排序,如果C为1,就将学号升序排列;如果C为2,将学生姓名非递减排序;如果C为3,将学生分数非递减排序。…

SldWorks问题1: 在装配体中获取零件的面

问题 我为零件的某个面进行了命名,以此查找,进行配合。 在使用先前写好的查找方法时,有时会出现找不到的情况。 然后捣鼓了半天,发现: 只有当“零件文档显示的配置,和已放置的零件配置一致”时&#xff…

《C++PrimerPlus》第10章:类和对象

文章目录 文章介绍目录重点知识10.2 抽象和类10.3 类的构造函数和析构函数10.4 this指针10.5 对象数组10.6 类作用域 文章介绍 目录 重点知识 10.2 抽象和类 类开发人员:设计类 类调用人员:使用类 10.3 类的构造函数和析构函数 10.4 this指针 10.5 对…

微服务杂谈

几个概念 还是第一次听说Spring Cloud Alibaba ,真是孤陋寡闻了,以前只知道 SpringCloud 是为了搭建微服务的,spring boot 则是快速创建一个项目,也可以是一个微服务 。那么SpringCloud 和 Spring boot 有什么区别呢?S…

dirty pages , swapiness 查看SWAP占用进程

文章说了这么多的意思 就是不要过度分配不用的内存。虽然脏块不会写入swap,但是占了物理内存,浪费空间,可能导致进行了很多不必要的交换(虽然判断很少要进swap,判断要不要也要时间。。。)。 To verify whic…

(机器学习必看视频)机器学习-吴恩达笔记汇总

最近将吴恩达老师在网易课程上的机器学习视频看了第二遍,同时整理了一下笔记,仅供学习实用,也放到了Github。主要是参考了下面几位大佬的书籍和作品,表示感谢! 李航《统计学习方法》周志华 《机器学习》黄海广博士 ima…

NAS黑群晖7.21折腾笔记

黑群晖引导制作 https://post.smzdm.com/p/a96d62xe/ 黑群晖基本使用教程 https://www.bilibili.com/video/BV1A3411f7WK/?spm_id_from333.337.search-card.all.click 重点: 1,存储管理器 --创建存储池 RAID类型选择: 2&#xff0c…

【2024.08】图模互补:知识图谱与大模型融合综述-笔记

阅读目的:假设已有一个知识图谱,如何利用图谱增强模型的问答,如何检索知识图谱、知识图谱与模型的文本如何相互交互、如何利用知识图谱增强模型回答的可解释性。 从综述中抽取感兴趣的论文进一步阅读。 来源:图模互补&#xff1…

天下苦英伟达久矣!PyTorch官方免CUDA加速推理,Triton时代要来?

在做大语言模型(LLM)的训练、微调和推理时,使用英伟达的 GPU 和 CUDA 是常见的做法。在更大的机器学习编程与计算范畴,同样严重依赖 CUDA,使用它加速的机器学习模型可以实现更大的性能提升。 虽然 CUDA 在加速计算领域占据主导地位,并成为英伟达重要的护城河之一。但其他…

AV1 Bitstream Decoding Process Specification--[4]:语法结构

原文地址:https://aomediacodec.github.io/av1-spec/av1-spec.pdf没有梯子的下载地址:AV1 Bitstream & Decoding Process Specification摘要:这份文档定义了开放媒体联盟(Alliance for Open Media)AV1视频编解码器…

动态规划:汉诺塔问题|循环汉诺塔

目录 1. 汉诺塔游戏简介 2.算法原理 3.循环汉诺塔 1. 汉诺塔游戏简介 汉诺塔游戏是一个经典的数学智力游戏,其目标是将塔上不同大小的圆盘全部移动到另一个塔上,且在移动过程中必须遵守以下规则: 每次只能移动一个圆盘较大的圆盘不能放在…

linux cmake版本升级教程(Centos7)

有时候,当前系统的cmake版本,并一定能满足编译要求,所以需要进行升级到高于某个版本才能正常编译。本章教程,主要在centos7上进行升级cmake版本。 一、查看当前的cmake版本 cmake --version二、下载指定版本的cmake wget https://github.com/Kitware/CMake/releases/down…

2.2 vc-align源码分析 -- ant-design-vue系列

vc-align源码分析 源码地址:https://github.com/vueComponent/ant-design-vue/tree/main/components/vc-align 1 基础代码 1.1 名词约定 需要对齐的节点叫source,对齐的目标叫target。 1.2 props 提供了两个参数: align:对…

华为ensp中vlan与静态路由技术的实现

vlan 同一网段的设备,可以互通; 虚拟局域网:将局域网从逻辑上划分为多个局域网,不同通过vlan编号区分; 实现网络隔离。提高了网络安全性; vlan编号为12位; 范围1-4094可以用来配置 默认处于…

3.2 Upload源码分析 -- ant-design-vue系列

Upload源码分析 – ant-design-vue系列 源码地址:https://github.com/vueComponent/ant-design-vue/blob/main/components/upload/Upload.tsx 1 概述 本篇是对Upload组件的分析,这个组件调用了vc-upload,是对vc-upload的封装。 作用包括&…

【【通信协议之ICMP协议】】

【【通信协议之ICMP协议】】 下面先展示出ICMP协议的数据格式 用户数据打包在 ICMP 协议中,ICMP 协议又是基于 IP 协议之上的,IP 协议又是走 MAC 层发送的,即从包含关系来说:MAC 帧中的数据段为 IP 数据报,IP 报文中…

LCSS—最长回文子序列

思路分析 关于”回文串“的问题,是面试中常见的,本文提升难度,讲一讲”最长回文子序列“问题,题目很好理解: 输入一个字符串 s,请找出 s 中的最长回文子序列长度。 比如输入 s"aecda"&#xff0c…

【数据结构】字符串与JSON字符串、JSON字符串及相应数据结构(如对象与数组)之间的相互转换

前言&#xff1a; 下面打印日志用的是FastJSON依赖库中的 Log4j2。依赖&#xff1a; <!-- Alibaba Fastjson --> <dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>1.2.80</version> …

prometheus 集成 grafana 保姆级别安装部署

前言 本文 grafana 展示效果只需要 prometheus node_exporter grafana 其他的选择安装 环境和版本号 系统: CentOS 7.9 prometheus: 2.54.1 pushgateway: 1.9.0 node_exporter: 1.8.2 alertmanager: 0.27.0 grafana:11.2.0 官网:https://prometheus.io/ 下载地址:h…