ChatGPT 主流模型GPT-4/GPT-4o mini的参数规模是多大?

news2025/1/8 6:50:10

微软论文又把 OpenAI 的机密泄露了??在论文中明晃晃写着:

  • o1-preview 约 300B;o1-mini 约 100B
  • GPT-4o 约 200B;GPT-4o-mini 约 8B
  • Claude 3.5 Sonnet 2024-10-22 版本约 175B
  • 微软自己的 Phi-3-7B,这个不用约了就是 7B

英伟达 2024 年初发布 B200 时,就摊牌了 GPT-4 是 1.8T MoE 也就是 1800B,这里微软的数字更精确,为 1.76T

除此之外,论文中给 OpenAI 的 mini 系列,Claude3.5 Sonnet 也都附上了参数,总结如下:

  • o1-preview 约 300B;o1-mini 约 100B

  • GPT-4o 约 200B;GPT-4o-mini 约 8B

  • Claude 3.5 Sonnet 2024-10-22 版本约 175B

  • 微软自己的 Phi-3-7B,这个不用约了就是 7B

虽然论文中后面也有免责声明:

确切数据尚未公开,这里大部分数字是估计的。

但还是有不少人觉得事情没这么简单。

比如为什么唯独没有放谷歌 Gemini 模型的参数估计?或许他们对放出来的数字还是有信心的。

也有人认为,大多数模型都是在英伟达 GPU 上运行的,所以可以通过 token 生成速度来估计。

只有谷歌模型是在 TPU 上运行的,所以不好估计。

而且微软也不是第一次干这事了。

2023 年 10 月,微软就在一篇论文里“意外”曝出 GPT-3.5-Turbo 模型的 20B 参数,在后续论文版本中又删除了这一信息。

微软这篇论文说了什么

实际上,原论文介绍了一项与医学相关的 benchmark——MEDEC。

12 月 26 日就已经发布,不过是比较垂直领域的论文,可能非相关方向的人都不会看,年后才被列文虎克网友们发现。

研究起因是,据美国医疗机构调查显示,有 1/5 的患者在阅读临床笔记时报告发现了错误,而 40% 的患者认为这些错误可能影响他们的治疗。

而且另一方面,LLMs (大语言模型)被越来越多的用于医学文档任务(如生成诊疗方法)。

因此,MEDEC 此番有两个任务。一是识别并发现临床笔记中的错误;二是还能予以改正。

为了进行研究,MEDEC 数据集包含 3848 份临床文本,其中包括来自三个美国医院系统的 488 份临床笔记,这些笔记之前未被任何 LLM 见过。

它涵盖五种类型的错误(诊断、管理、治疗、药物治疗和致病因子),这些错误类型是通过分析医学委员会考试中最常见的问题类型选择的,并由 8 位医疗人员参与错误标注。

而参数泄露即发生在实验环节

按照实验设计,研究者将选取近期主流的大模型和小模型来参与笔记识别和纠错。

而就在介绍最终选定的模型时,模型参数、发布时间一下子都被公开了。

对了,省去中间过程,这项研究得出的结论是:Claude 3.5 Sonnet 在错误标志检测方面优于其他 LLM 方法,得分为 70.16,第二名是 o1-mini。

网友:按价格算合理

每一次,ChatGPT 相关模型架构和参数泄露,都会引起轩然大波,这次也不例外。

2023 年 10 月,微软论文声称 GPT-3.5-Turbo 只有 20B 参数的时候,就有人感叹:难怪 OpenAI 对开源模型这么紧张。

2024 年 3 月,英伟达确认 GPT-4 是 1.8T MoE,而 2000 张 B200 可以在 90 天内完成训练的时候,大家觉得 MoE 已经且仍将是大模型架构趋势。

这一次,基于微软估计的数据,网友们主要有几个关注点:

值得一提的是Claude!!

如果 Claude 3.5 Sonnet 真的比 GPT-4o 还小,那 Anthropic 团队就拥有技术优势。

PS真的觉得claude不错,特别是写代码真的爽:需要升级的童鞋可以参考教程:国内如何使用支付宝注册Claude账号和升级订阅开通Claude Pro - AI is all your need!

以及不相信 GPT-4o-mini 只有 8B 这么小。

不过此前也有人根据推理成本来算,4o-mini 的价格是 3.5-turbo 的 40%,如果 3.5-turbo 的 20B 数字准确,那么 4o-mini 刚好是 8B 左右。

不过这里的 8B 也是指 MoE 模型的激活参数。

总之,OpenAI 大概是不会公布确切数字了。

此前阿尔特曼征集 2024 年新年愿望,最后公布的清单中还有“开源”。2025 年的最新版本里,开源已经被去掉了。

论文地址:https://arxiv.org/pdf/2412.19260

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2272491.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

某纪检工作委员会视频监控网络综合运维项目

随着某纪检工作委员会信息化建设的不断深入,网络基础设施的数量持续增加,对网络设备的运维管理提出了更为复杂和艰巨的要求。为了确保这些关键信息基础设施能够安全稳定地运行,该纪检工作委员会决定引入智能化运维管理系统,以科技…

显示器太薄怎么用屏幕挂灯?使用前先了解屏幕挂灯的最佳角度

人们对用眼健康的重视以及数字化办公和娱乐的普及,屏幕挂灯作为一种能够有效减少屏幕反光、保护眼睛的照明设备,受到了越来越多消费者的青睐。随着科技的进步,显示器设计日益轻薄,为我们的桌面节省了空间并带来了美观的视觉效果。…

HTTP/HTTPS ②-Cookie || Session || HTTP报头

这里是Themberfue 上篇文章介绍了HTTP报头的首行信息 本篇我们将更进一步讲解HTTP报头键值对的含义~~~ ❤️❤️❤️❤️ 报头Header ✨再上一篇的学习中,我们了解了HTTP的报头主要是通过键值对的结构存储和表达信息的;我们已经了解了首行的HTTP方法和UR…

excel快速计算周数的方法

业务中经常要通过周汇总计算&#xff0c;为方便后续汇总在源数据引入“周”列 公式&#xff1a; "W"&IF((ROW()1)/7<1,1,ROUNDUP((ROW()1)/7,0))函数释义&#xff1a; ①一周有7天&#xff0c;如果1月1号刚好是从周一开始&#xff0c;那么计算周数可以简单得…

redis各种数据类型介绍

Redis 是一种高性能的键值存储数据库&#xff0c;它支持多种数据类型&#xff0c;使得开发者可以灵活地存储和操作数据。以下是 Redis 支持的主要数据类型及其介绍&#xff1a; 1. 字符串&#xff08;String&#xff09; 字符串是 Redis 中最基本的数据类型&#xff0c;它可以存…

Python 模块,包(详解)

一. 引用变量 引用变量&#xff1a;值的传递通常可以分为两种方式&#xff0c;一种是值的传递&#xff0c;一种是引用地址传递&#xff0c;在Python中一般都是用引用地址传递 变量名和对象&#xff1a;变量名&#xff08;如 a&#xff09;和它指向的对象&#xff08;如整数 5&a…

RabbitMQ发布确认高级篇(RabbitMQ Release Confirmation Advanced Edition)

系统学习消息队列——RabbitMQ的发布确认高级篇 简介 ‌RabbitMQ是一个开源的消息代理软件&#xff0c;实现了‌高级消息队列协议&#xff08;AMQP&#xff09;‌&#xff0c;主要用于在分布式系统中进行消息传递。RabbitMQ由‌‌Erlang语言编写&#xff0c;具有高性能、健壮…

封装/前线修饰符/Idea项目结构/package/impore

目录 1. 封装的情景引入 2. 封装的体现 3. 权限修饰符 4. Idea 项目结构 5. package 关键字 6. import 关键字 7. 练习 程序设计&#xff1a;高内聚&#xff0c;低耦合&#xff1b; 高内聚&#xff1a;将类的内部操作“隐藏”起来&#xff0c;不需要外界干涉&#xff1b…

【代码随想录】刷题记录(89)-分发糖果

题目描述&#xff1a; n 个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。 你需要按照以下要求&#xff0c;给这些孩子分发糖果&#xff1a; 每个孩子至少分配到 1 个糖果。相邻两个孩子评分更高的孩子会获得更多的糖果。 请你给每个孩子分发糖果&#xff0…

Ae:合成设置 - 3D 渲染器

Ae菜单&#xff1a;合成/合成设置 Composition/Composition Settings 快捷键&#xff1a;Ctrl K After Effects “合成设置”对话框中的3D 渲染器 3D Renderer选项卡用于选择和配置合成的 3D 渲染器类型&#xff0c;所选渲染器决定了合成中的 3D 图层可以使用的功能&#xff0…

掌握RabbitMQ:全面知识点汇总与实践指南

前言 RabbitMQ 是基于 AMQP 高级消息队列协议的消息队列技术。 特点&#xff1a;它通过发布/订阅模型&#xff0c;实现了服务间的高度解耦。因为消费者不需要确保提供者的存在。 作用&#xff1a;服务间异步通信&#xff1b;顺序消费&#xff1b;定时任务&#xff1b;请求削…

react构建项目报错 `npm install --no-audit --save @testing-l

这应该是我们想构建 react18 的项目&#xff0c;但是 通过 npx create-react-app my-app进行构建时&#xff0c;给我们安装的依赖是 react 19 下面提供一下我的解决方法&#xff1a; 第一步&#xff1a;在 package.json 中把依赖 react19 改为 react 18 第二步&#xff1a;添…

App窗口创建流程(Android12 )

有关的窗口对象 PhoneWindowActivityThread#performLaunchActivity {Activity.attach}Surface new ViewRootImpl 创建null对象mSurface.transferFrom(getOrCreateBLASTSurface())//填充内容创建native层的SurfaceLayerSurfaceFlinger::createLayerRenderSurfaceSurfaceFlinger…

LLM之Agent(十三)| 使用 PydanticAI 框架构建多代理LLM 系统(保姆教程)

Pydantic 是 Python 生态系统中的强大平台,每月下载量超过 2.85 亿次。现在,Pydantic的创始人也正在通过 Pydantic AI 涉足 AI 的前沿领域,Pydantic AI 是一个专为构建由生成式 AI 提供支持的生产级应用程序的框架。在本文中,我们将深入探讨 Pydantic AI 的独特之处、它的主…

常用的数据结构API概览

List ArrayList 1、在初始化一个ArrayList的时候&#xff0c;如果我想同时set一些值 比如存放int[ ] List<int[]> list new ArrayList(Arrays.asList(new int[]{intervals[0][0],intervals[0][1]}));//或者int[] temp new int[]{intervals[0][0],intervals[0][1]}…

年会游戏大全 完整版见考试宝

企业年会游戏大全&#xff08;35个&#xff09; 1.泡泡糖 游戏准备&#xff1a;主持人召集若干人上台&#xff0c;人数最好是奇数。 游戏规则&#xff1a;当大家准备好时&#xff0c;主持人喊“泡泡糖”大家要回应“粘什么”&#xff0c;主持人随机想到身体的某个部位&#x…

用豆包去除文章Ai味和重复率,实操教程

用AI生成的文章总是有“AI味”或者重复率高的问题&#xff1f; 今天就教你如何使用豆包轻松去除这些问题 让你的文章更自然、更具个人风格&#xff01;✍️✨ 详细版指令教程都整理了&#xff0c;纯粹F享啦~

【论文复现】改进麻雀搜索算法优化冷水机组的最优负载调配问题

目录 1.摘要2.麻雀搜索算法SSA原理3.改进策略4.结果展示5.参考文献6.代码获取 1.摘要 为了应对暖通空调&#xff08;HVAC&#xff09;系统由于不当负荷分配导致的高能源消耗问题&#xff0c;本文提出了一种改进麻雀搜索算法&#xff08;ISSA&#xff09;。ISSA算法旨在在满足负…

分布式ID生成-雪花算法实现无状态

雪花算法这里不再赘述&#xff0c;其缺点是有状态&#xff08;多副本隔离时&#xff0c;依赖手动配置workId和datacenterId&#xff09;&#xff0c;代码如下&#xff1a; /*** 雪花算法ID生成器*/ public class SnowflakeIdWorker {/*** 开始时间截 (2017-01-01)*/private st…

四、对象图

对象图 、对象图概述 含义&#xff1a; 对象图显示了某一时刻的一组对象及它们之间的关系。 作用&#xff1a; 对象图可以看做是类图的实例&#xff0c;用来表达各个对象在某一时刻的状态。 组成&#xff1a; 对象图中的建模元素主要有对象和链&#xff0c;对象是类的实…