一文彻底搞懂大模型 - OpenAI o1(最强推理模型)

news2025/1/23 3:55:22

最近这一两周看到不少互联网公司都已经开始秋招提前批面试了。

不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。

最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

总结链接如下:

《大模型面试宝典》(2024版) 发布!

喜欢本文记得收藏、关注、点赞。


OpenAI o1于2024年9月13日正式发布,作为OpenAI最新发布的最强推理模型,标志着AI行业进入了一个新时代。o1在测试化学、物理和生物学专业知识的基准GPQA-diamond上,全面超过了人类博士专家,OpenAI宣称“通用人工智能(AGI)之路,已经没有任何阻碍”。

以往的大模型都是在“卷”NLP,语义理解、文本生成,而有点忽略逻辑推理。虽然GPT系列也集成了“In Context Learning(上下文学习)”、“Chain of Thought(思维链)”,但更多在Prmpt Engineering(提示词工程),目的是为了挖掘大模型的能力。这次发布OpenAI o1,开启了模型“卷”逻辑推理之路。

我一直坚信OpenAI还有很多秘密武器没有亮相,山姆·奥特曼果然是投资出身,懂得有节奏推出新产品,完美拿捏用户和投资者的情绪。每当大家觉得OpenAI快不行的时候,一个重磅炸弹丢出,大家认为他又行了,AGI又近了。-- 架构师带你玩转AI

图片

OpenAI o1

一、OpenAI o1

什么是OpenAI o1?我们即将推出OpenAI o1,这是一种经过强化学习训练的新型大型语言模型,用于执行复杂的推理。o1在回答之前会进行思考——它可以在回应用户之前生成一个长长的内部思路链。 – Open AI 官方定义

图片

  1. 强化学习训练:o1模型的核心在于其采用了强化学习的方法进行训练。这种方法使模型能够在不断试错的过程中优化其决策策略,从而提升其在复杂推理任务中的表现。

  2. 内部思维链生成:不同于传统的语言模型,o1在回答之前会生成一个内部的思维链。这个思路链是一个逐步推导、逐步分解问题的过程,它模拟了人类思考的方式,使得模型能够更深入地理解问题并给出更准确的答案。

  3. 复杂推理能力:通过强化学习和内部思维链的生成,o1在复杂推理能力上实现了显著提升。它能够在数学、编码、科学等多个领域表现出色,解决一些传统模型难以应对的复杂问题。

图片

OpenAI o1 vs GPT-4o:为了强调在推理能力上对GPT-4o的改进,我们在一系列不同的人类考试和机器学习基准测试中测试了我们的模型。我们证明了o1在绝大多数推理密集型任务上显著优于GPT-4o。除非另有说明,否则我们对o1的评估采用最大测试时间计算设置。 – Open AI 官方Evals

图片

在具有挑战性的推理基准测试中,o1相对于GPT-4o有了大幅提升。实线条表示“一次通过”(pass@1)的准确性,而阴影区域则表示64个样本中的多数投票(共识)表现。

图片

Benchmark测评结果:o1在多个高难度推理基准测试中表现出色,包括超越人类专家和GPT-4o,展示了其强大的推理能力和在某些领域的专业知识。

在许多需要大量推理的基准测试中,o1的表现与人类专家不相上下。最近的前沿模型1在MATH2和GSM8K上的表现非常出色,以至于这些基准测试已无法有效区分不同模型。我们评估了AIME上的数学表现,AIME是一项旨在挑战美国最优秀高中生的数学考试。在2024年的AIME考试中,GPT-4o平均只能解决12%(1.8/15)的问题。而o1在每个问题上使用一个样本平均解决了74%(11.1/15)的问题,使用64个样本的共识解决了83%(12.5/15)的问题,并使用学习到的评分函数对1000个样本进行重新排序后解决了93%(13.9/15)的问题。13.9的分数使其位列全国前500名学生之列,并超过了美国数学奥林匹克竞赛的入围分数线。 – Open AI 官方测评结果

我们还在GPQA钻石上评估了o1,这是一个测试化学、物理和生物学专业知识的困难智能基准测试。为了将模型与人类进行比较,我们招募了拥有博士学位的专家来回答GPQA钻石问题。我们发现,o1的表现超过了这些人类专家,成为首个在该基准测试中做到这一点的模型。这些结果并不意味着o1在所有方面都比拥有博士学位的人更强大——而只是表明该模型在解决一些博士学位获得者预期会解决的问题上更为熟练。在其他一些机器学习基准测试中,o1也超过了最先进的模型。启用视觉感知能力后,o1在MMMU上获得了78.2%的分数,成为首个与人类专家具有竞争力的模型。同时,在MMLU的57个子类别中,o1有54个的表现优于GPT-4o。 – Open AI 官方测评结果

图片

o1在包括54/57个MMLU子类别在内的广泛基准测试中表现优于GPT-4o。这里展示了七个作为示例。

图片

二、思维链 + 强化学习

Chain of Thought(思维链):与人类在回答难题前可能需要长时间思考类似,o1在尝试解决问题时会使用一系列的思考过程。通过强化学习,o1学会了优化其思考过程并改进其使用的策略。它学会了识别和纠正自己的错误,将复杂的步骤分解成更简单的步骤,并在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。为了说明这一飞跃,我们展示了o1预览版在几个难题上的思考过程。 – Open AI 官方Chain of Thought

图片

OpenAI o1的技术细节如何解读?OpenAI 从GPT3开始转向闭源,很多技术细节都没有公布,OpenAI o1这次也不例外,网上很多人反馈想通过使用o1一步步去debug它的Chain of Thought(思维链),从而去了解o1的思维链思考过程,结果被封号了。

OpenAI o1官方公布的技术概念:Reinforcement Learning(强化学习)、Chain of Thought(CoT,思维链)、Post-training(后训练),这些都不是新技术,但是OpenAI强就强在如何将这些已有技术进行排列组合,进行技术创新,进行灵活应用。我预测未来一段时间,各大模型厂商又会开启新的一轮庖丁解牛,进行你追我赶。-- 架构师带你玩转AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2153176.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

举例说明:自然语言处理实战项目

自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要分支,旨在使计算机能够理解、解释和生成人类语言。以下是一些NLP实战项目的示例: 1. 情感分析(Sentiment Analysis) 项目描述: …

用 HTML + JavaScript DIY 一个渐进式延迟法定退休年龄测算器

为减轻社会和个人因退休年龄变化带来的冲击,近日,全国人民代表大会常务委员会正式发布了关于实施渐进式延迟法定退休年龄的重要决定。 根据该决定,我国将同步启动对男、女职工法定退休年龄的延迟计划。这一调整将采取渐进式的方式进行&#…

09年408考研真题-数据结构

数据结构 10.【2009统考真题】为解决计算机主机与打印机之间速度不匹配的问题,通常设置一个打印数据缓冲区,主机将要输出的数据依次写入该缓冲区,而打印机则依次从该缓冲区中取出数据。该缓冲区的逻辑结构应该是(B)。 A.栈 …

unix中如何查询和修改进程的资源限制

一、前言 一个进程在运行时,会用到各种资源,比如cpu的使用时间、内存空间、文件等等。那么,一个进程能够占用多少资源呢?cpu使用的时间有多长?进程空间有多大?能够创建多少个文件?这个就是本文…

数字IC设计\FPGA 职位经典笔试面试整理--基础篇1

注: 资料都是基于网上一些博客分享和自己学习整理而成的 1:什么是同步逻辑和异步逻辑? 同步逻辑是时钟之间有固定的因果关系。异步逻辑是各时钟之间没有固定的因果关系。 同步时序 逻辑电路的特点:各触发器的时钟端全部连接在一…

蚁群算法(ACO算法)求解实例---旅行商问题 (TSP)

目录 一、采用ACO求解 TSP二、 旅行商问题2.1 实际例子:求解 6 个城市的 TSP2.2 **求解该问题的代码,代码(完整代码关注底部微信公众号获取)**2.3 代码运行过程截屏2.4 代码运行结果截屏(后续和其他算法进行对比&#…

Acwing数据结构:单链表

单链表 主要思想:使用数组实现链表(而不用结构体,结构体代码更长,后续图论也是基于数组实现),即静态链表。因为动态链表使用new申请空间需要较多的时间,而算法要求的是以较少的时间完成任务。 单链表&…

软件测试八股文

Part1 1、你的测试职业发展是什么? 测试经验越多,测试能力越高。所以我的职业发展是需要时间积累的,一步步向着高级测试工程师奔去。而且我也有初步的职业规划,前3年积累测试经验,按如何做好测试工程师的要点去要求自…

appimage 软件创建桌面快捷图标

1、appimage 软件创建桌面快捷图标 1)下载 AppImage 文件 首先,确保你已经下载了 AppImage 文件,并且该文件具有可执行权限。你可以通过以下命令为 AppImage 文件添加可执行权限: chmod x /path/to/your-app.AppImage2&#xff…

大模型入门 ch04:实现一个GPT模型

本文是github上的大模型教程LLMs-from-scratch的学习笔记,教程地址:教程链接 LLM大模型主要是参数量大,而不是代码量大。 这是本节的具体内容 首先实现一个GPT的骨架分别实现GPT骨架内的各个部分,包括LayerNorm,GELU,…

shopro前端 短信登录只显示模板不能正常切换

删掉 换成下面的代码 // 打开授权弹框 export function showAuthModal(type smsLogin) {const modal $store(modal);setTimeout(() > {modal.$patch((state) > {state.auth type;});}, 100); }

docker操作的基本命令加容器的基本命令(仅供自己参考)

1、docker build:本地将一个docker文件打包成镜像 2、docker push:将自己打包的镜像传到镜像服务器上 3、docker pull:将镜像服务器上的镜像拉取到本地 4、docker images: 查看镜像服务器上的镜像 5、docker rmi:删…

编译成功!QT/6.7.2/Creator编译Windows64 MySQL驱动(MSVC版)

相邻你找了很多博文,都没有办法。现在终于找到了正宗。 参考 GitHub - thecodemonkey86/qt_mysql_driver: Typical symptom: QMYSQL driver not loaded. Solution: get pre-built Qt SQL driver plug-in required to establish a connection to MySQL / MariaDB u…

伊犁云计算22-1 raid 5 linux 配置

1  添加四块sata 硬盘  2  设置启动项为原来scsi 的硬盘 3  四块盘都是  fd   li&…

仓颉编程入门2,启动HTTP服务

上一篇配置了仓颉sdk编译和运行环境,读取一个配置文件,并把配置文件简单解析了一下。 前面读取配置文件,使用File.readFrom(),这个直接把文件全部读取出来,返回一个字节数组。然后又创建一个字节流,给文件…

Redis——持久化策略

Redis持久化 Redis的读写操作都是在内存上,所以Redis性能高。 但是当重启的时候,或者因为特殊情况导致Redis崩了,就可能导致数据的丢失。 所以Redis采取了持久化的机制,重启的时候利用之间持久化的文件实现数据的恢复。 Redis提…

python怎么打开编辑器

1、在电脑开始菜单中点击所有程序,找到Python程序,点击其中idle。 2、然后点击左上角的“File”,打开菜单,在下拉菜单中选择“New File”选项,就可打开python编辑器了。 3、在打开的python编辑器中就可以输入自己想写的…

Qwen大型语言模型系列的最新成果 ----Qwen2.5

通义千问2.5-7B-Instruct-GGUF 模型库 (modelscope.cn) apt install git-lfsgit lfs installgit clone https://www.modelscope.cn/qwen/Qwen2.5-7B-Instruct-GGUF.git

从源码到平台:食堂采购系统与供应链管理平台的开发详解

本篇文章,小编将从技术角度探讨如何基于源码开发一个食堂采购系统,并结合供应链管理平台的实现策略,帮助开发者与企业深入了解该系统的开发流程与关键要点。 一、食堂采购系统源码开发概述 食堂采购系统作为餐饮企业管理食材采购、库存以及…

综述论文“Towards Personalized Federated Learning”分享

综述论文“Towards Personalized Federated Learning”分享 文章目录 综述论文“Towards Personalized Federated Learning”分享I. 引言A. 联邦学习的分类B. 个性化联邦学习的动机C. 贡献 II. 个性化联邦学习的策略策略I:全局模型个性化策略II:学习个性…