英特尔淡化混合 CPU-GPU 引擎,将 NNP 合并到 GPU 中

news2024/10/7 16:17:57

早在 2022 年 2 月,当英特尔宣布其“Falcon Shores”项目以构建混合 CPU-GPU 计算引擎时,该项目允许在单个插槽中独立扩展 CPU 和 GPU 容量,看起来这家芯片制造商正准备与竞争对手 Nvidia 较量AMD 开始使用混合计算电机,Intel 称之为 XPU,AMD 称之为 APU,而 Nvidia 并没有真正拥有,如果你想严格了解它的“超级芯片”是什么,什么不是。

正如我们当时指出的那样,这种“插槽中的极光”方法将 CPU 和 GPU 小芯片的可变组合放入 Xeon SP 插槽中,具有完全相同的主内存和小芯片之间的极低延迟链接允许更复杂的与 Xeon SP 中的 AMX 矩阵数学单元相比,AI 推理可以处理比 AVX-512 向量单元中更多的 HPC 浮点处理,而不会使客户求助于 Max 系列产品线中的延迟更高的离散 GPU,甚至来自 Nvidia 或 AMD 的独立 GPU。

当英特尔加速计算系统和图形业务总经理宣布时,在今年 3 月 Koduri 离开英特尔后该业务已停止,英特尔承诺 Falcon Shores 将提供超过 5 倍的性能每瓦性能,X86 插槽中的计算密度提高 5 倍以上,内存带宽和容量提高 5 倍以上,所谓的“极限带宽共享内存”。

我们假设将这些数字与“Ice Lake”Xeon SP 服务器插槽进行了比较,并且两者都是当时的顶级零件。

Falcon Shores 定于 2024 年推出,人们普遍预计将直接插入未来“Granite Rapids”Xeon SP 使用的相同“Mountain Stream”服务器平台。

我们推测英特尔可以做一些疯狂的事情,比如给 GPU 一个仿真层,让它看起来像一个大而胖的 AVX-512 矢量数学单元,以简化编程。

到今年 3 月,随着 Koduri 离开英特尔,该公司开始倒退,不仅在 Xeon SP 插槽内提供看起来像是五种不同 CPU-GPU 小芯片的组合,而且还取消了“Rialto Bridge”启动器“Ponte Vecchio”Max 系列 GPU 将在阿贡国家实验室的“Aurora”超级计算机中完成大部分 2 exaflops 峰值处理。

当时有传言称,第一批 Falcon Shores 设备将于 2025 年问世,而且上面只有 GPU 小芯片,这使得该设备基本上是 Ponte Vecchio 的独立 GPU 替代品,代替了 Rialto Bridge。Rialto Bridge 之所以被刷新,是因为英特尔希望在其路线图上采用两年 GPU 节奏这是合理的,因为这正是 Nvidia 和 AMD 正在做的事情。

在最近于汉堡举行的 ISC23 超级计算会议上,英特尔阐明了其对 Falcon Shores 的意图,确认该设备不仅将成为纯 GPU 计算引擎,而且混合 XPU 的时机还不成熟。

超级计算组总经理在 ISC23 活动的简报中解释说:“我之前关于将 CPU 和 GPU 集成到 XPU 中的推动和强调还为时过早。” 坦率地说,McVeigh 可能要为 Koduri 甚至 Jim Keller 做出的决定承担责任,Koduri 两年多前离职成为 AI 初创公司 Tenstorrent 的首席执行官,现任首席技术官。

原因是我们觉得我们所处的市场比我们一年前想象的要活跃得多,所有的创新都围绕着生成 AI 大型语言模型。虽然其中大部分已经在商业领域,但我们看到它在科学努力中也得到了更广泛的采用。

当您置身于工作负载瞬息万变的动态市场中时,您真的不想强迫自己走固定 CPU 与 GPU 比率的道路。你不想固定供应商,甚至 X86 和 Arm 之间使用的架构,哪些是最好的,因为它允许灵活性,允许它们之间的良好软件支持,与你在成熟市场中相比。

当工作量固定下来,当你非常清楚它们时,他们不会发生巨大变化,整合很棒。我们已经做了很多很多次整合。它有助于降低成本,降低功耗。但你是固定的。您与这两个组件的供应商是固定的,您与它们的配置方式是固定的。我们只是觉得我们对今天的市场状况进行了真正的清算,现在还不是整合的时候。

鉴于 Nvidia 将销售大量“Grace”CPU 和“Hopper”GPU 超级芯片,而 AMD 至少有一个大客户(劳伦斯利弗莫尔国家实验室)购买了大量其“Antares”Instinct MI300A 混合 CPU-GPU 计算引擎,我们确信 Nvidia 和 AMD 会完全不同意这种评估。

也许这样的 XPU 集成不适合英特尔,它必须削减成本并专注于在其核心服务器 CPU 市场上赚钱,就像自 1990 年代末和 2000 年代初安腾崩溃以来它一直没有关注的那样。或者更准确地说可能不适用于 Intel CPU 内核和 Intel GPU 内核。

或许 Intel CPU 内核和 Nvidia GPU 内核会更受市场欢迎?直到现在,Nvidia 还没有服务器 CPU 业务,所以也许这种潜在合作伙伴关系的时间已经过去,它可能已经看到 NVLink 端口添加到“Sapphire Rapids”和一个巨大的 HBM3 复合体。

无论如何,这并不是英特尔第一次考虑在其至强服务器芯片中的 X86 内核之外进行辅助计算的“frankenchip”设计。这也不是它第一次撤回这些努力。

英特尔于 2014 年 6 月透露混合 CPU-FPGA 设备正在开发中,并于 2016 年 3 月在开放计算峰会上展示了混合 15 核 Broadwell-Arria 10 GX 原型。2018 年 5 月,混合 CPU-FPGA 产品正式推出,CPU 端升级为 20 核 Skylake chiplet,Arria 10 GX 为封装的 FPGA 端。

当然,英特尔多年来一直在单一芯片上销售带有 CPU 和 GPU 的英特尔至强 E3 处理器,但很少谈论集成 GPU 中固有的潜在浮点数学功能不仅价格低廉,而且基本上免费。

Intel 多年前就不再谈论混合 CPU-FPGA 设计,也从未谈论过其低端 CPU-GPU 的可能性,更不用说它如何做一些事情了,比如原定于 2024 年与 Granite Rapids Xeon 一起推出的 Falcon Shores SP。

现在,Falcon Shores 多芯片 GPU 定于 2025 年推出,与“Clearwater Forest”Xeon SP kicker 一起用于 Granite Rapids。

谈到科学芯片,McVeigh 在 ISC23 简报会上的路线图介绍中说了一些非常有趣的话。一、路线图:

自 2022 年 5 月以来,英特尔一直在出货 Gaudi2 矩阵数学引擎,这些引擎来自于 2019 年 12 月以 20 亿美元收购 Habana Labs。而我们几乎一无所知并于今年 3 月录制的 Gaudi3 后续作品,看起来将在 2024 年初问世。

之后,在 Falcon Shores 多芯片 GPU 在 2025 年达到路线图时,高迪与 Ponte Vecchio 和 Falcon Shores GPU 之间的分界线消失了。

如果您有一个具有大量混合精度矩阵数学的 NNP 和一个具有大量混合精度矩阵数学的 GPU,如果您可以指望 Falcon Shores 具有同等的魅力,那么您可能不需要 Gaudi4。

特别是如果你需要像英特尔那样削减成本以实现其在 2023 年削减 30 亿美元成本并在 2024 年和 2025 年(含)期间再削减 50 亿至 70 亿美元成本的目标。

McVeigh 表示,Falcon Shores 将同时针对 HPC 和 AI 工作负载,升级到 HBM3 内存,并将“汇集我们 Gaudi 产品的最佳优势,其中包括标准以太网交换”和“为规模设计的 I/O”。

I/O 看起来像是 CXL over PCI-Express 将 CPU 连接到 Falcon Shores GPU,但如果我们没看错的话,它将使用 Habana Labs 创建的增强版以太网结构将 GPU 连接在一起。

Gaudi1 芯片可以扩展到 128 个与运行 RoCE 的以太网结构互连的设备。每个 Gaudi1 都有十个 100 Gb/秒以太网端口,您可以在一个节点中放置四个设备或八个设备,并扩展到 32 个节点或 16 个节点以达到 128 个完全互连的节点。

Gaudi2 设备可扩展到 24 个以 100 Gb/秒的速度运行的集成以太网端口,这些端口以全对全、非阻塞拓扑将八台设备相互连接:

为了创建八路 Gaudi2 系统,每个设备上的 24 个端口中的 21 个用于在矩阵引擎之间建立全对全链接。

每个设备的三个端口以交错方式聚合到总共六个 QSFP-DD 端口,从 Gaudi2 机箱出来,提供互连以扩展 16 或 32 个 Gaudi 外壳,正如我们所说,这是通过常规以太网交换机完成的。

不难想象,这种 Gaudi 以太网结构将升级到 400 Gb/秒甚至 800 Gb/秒的端口,这些端口来自 Falcon Shores GPU,并使用类似的快速以太网交换机将更多设备连接在一起。

更令人遗憾的是,英特尔不再拥有以太网交换业务,因为它已经将其收购的 Barefoot Networks 的 Tofino 产品线搁置起来。客户将不得不选择基于 Broadcom、Nvidia、Marvell 或 Cisco Systems 芯片的以太网交换。

看起来英特尔也将从 Gaudi 设备中获取脉动阵列,我们称之为矩阵数学引擎并使用它们来代替 Ponte Vecchio 设计中使用的 X e 矩阵数学引擎。所以,Gaudi4 不要指望它是一个独特的产品。

收购 Nervana Systems 和 Habana Labs 所产生的价值 23.5 亿美元的 NNP 实验就这么多了。未来的 NNP 是英特尔的 GPU。

唯一会购买 Gaudi2 和 Gaudi3 的公司是那些迫切需要任何矩阵数学功能并且还致力于英特尔未来的 Falcon Shores GPU 的公司。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/665565.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Flask框架和Vue框架搭建一个Web端的深度学习检测系统(从模型训练,界面设计到服务器部署实现一个完整项目实战)

从Pytorch框架下YOLOv5的模型训练,到Flask框架的模型加载,再到Vue框架的界面设计到最后的服务器部署。 实验环境 1.Windows10系统 2.编辑器pycharm 3.GPU 1080Ti 4.anaconda虚拟环境安装相应的安装包 5.pytorch版本1.7.1 6.Python3.7.15 实验数据集 …

C++初阶—stackqueue

目录 1. stack的介绍和使用 1.1 stack的介绍 1.2 stack使用及OJ 1.2.1 最小栈 1.2.2 栈的弹出压入顺序 1.2.3 逆波兰表达式求值 1.2.4 用两个栈实现一个队列 2. queue的介绍和使用 2.1 queue的介绍 2.2 queue的使用及OJ 2.2.1 用队列实现栈 2.3 queue的模拟实现 3…

用户测试:确保产品质量的关键一环

用户测试:确保产品质量的关键一环 在当今竞争激烈的市场中,产品的质量是企业脱颖而出的关键因素之一。为了确保产品的质量,用户测试成为了开发过程中不可或缺的一环。用户测试是通过让真实用户使用产品并提供反馈意见来验证产品的功能、易用性…

【系统开发】尚硅谷 - 谷粒商城项目笔记(四):JSR303数据校验

文章目录 JSR303数据校验引入依赖和简介配置验证规则开启验证BindResult校验的统一异常处理JSR303分组校验自定义校验注解 JSR303数据校验 引入依赖和简介 引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-bo…

Python和c语言爬虫如何选择?

Python是最受欢迎的爬虫语言之一&#xff0c;因为它易于学习和使用&#xff0c;有大量的库和框架可供选择。JavaScript通常用于Web爬虫&#xff0c;因为它可以直接在浏览器中运行&#xff0c;可以轻松地从动态网站中提取数据。java是一种广泛使用的语言&#xff0c;它有很多强大…

提高电商平台精准营销效果的IP定位离线库应用场景

随着电子商务的快速发展&#xff0c;越来越多的人们选择在线购物。随之而来的是消费者数量的增加和商品竞争的激烈。如何精准地找到目标客户&#xff0c;并进行有效的营销&#xff0c;成为了电商平台需要攻克的难题。在这种情况下&#xff0c;IP定位离线库技术的应用成为了电商…

Python基础语法第一章、认识Python

一、计算机基础概念 1.1什么是计算机? 很多老一辈的人, 管下面这个叫做计算机. 然鹅, 它只是 "计算器", 和计算机是有很大区别的. 现在我们所说的计算机, 不光能进行算术运算, 还能进行逻辑判断, 数据存储, 网络通信等等功能, 以至于可以自动的完成非常复杂的工作…

SerDes的原理解析

01 SerDes简介 首先我们要了解什么是SerDes&#xff0c;SerDes的应用场景又是什么呢&#xff1f;SerDes又有哪些常见的种类&#xff1f;做过FPGA的小伙伴想必都知道串口&#xff0c;与并行传输技术相比&#xff0c;串行传输技术的引脚数量少、扩展能力强、采 用点对点的连接方式…

从uCOSii中抠出来的内存管理程序

从uCOSii中抠出来的内存管理程序 1、学习uCOSii的内存管理的原因 操作系统和内存管理是分不开的&#xff0c;每个操作系统都有自己的一套内存管理方法。在实际应用中&#xff0c;我们尽量使用其自带的内存管理。学习和使用uCOSii也有一段时间了&#xff0c;觉得它的内存管理方…

高效处理报表,掌握原生JS打印和导出报表为PDF的顺畅技巧!

摘要&#xff1a;本文由葡萄城技术团队于CSDN原创并首发。转载请注明出处&#xff1a;葡萄城官网&#xff0c;葡萄城为开发者提供专业的开发工具、解决方案和服务&#xff0c;赋能开发者。 前言篇 在日常工作中&#xff0c;报表打印和导出为PDF是经常要处理的任务之一。除了方…

管理类联考——写作——素材篇——论说文——写作素材02——志篇:毅力·坚持

管理类专业学位联考 (写作能力) 论说文素材 02——志篇&#xff1a;毅力坚持 论文说材料: 骐骥一跃&#xff0c;不能十步&#xff1b;驽马十驾&#xff0c;功在不舍。 ——《荀子劝 学》 一&#xff1a;道理论据 咬住青山不放松&#xff0c;立根原在破岩中&#xff1b;千磨…

gitLens插件简单使用(默认上传github)

1.安装 在vscode中的插件管理输入如下后下载 GitLens — Git supercharged 2.配置 点击文件--首选项--设置 点击右上角设置小图标 3.github使用 首先仓库文件一定是要git init是git所管理的 1.在代码文件夹下使用git init创建仓库 2.打开vscode的git管理 3.点击添加暂存区…

如何使用ArcGIS加载天地图

天地图是自然资源部主管&#xff0c;国家基础地理信息中心负责建设的国家地理信息公共服务平台&#xff0c;于2011年1月18日上线。 有的时候可能需要将在线的天地图加载到ArcGIS内&#xff0c;但是加载方式越来越复杂&#xff0c;很多方法都需要申请key&#xff0c;这里为大家…

C++基础(3)——类和对象(2)

前言 本文主要介绍了C中类和对象的基本知识。 4.2.5&#xff1a;深拷贝和浅拷贝 浅拷贝&#xff1a;编译器给我们提供的拷贝函数就是等号复制操作 深拷贝&#xff1a;自己手动重写一个拷贝构造函数&#xff0c;重新new 浅拷贝会出现的问题&#xff1a;如果使用编译器提供的…

AI是什么?AI工具集网站大全

AI是什么&#xff1f; AI 是人工智能的缩写&#xff0c;指的是通过计算机技术和算法来实现智能的能力。我们人类的智能是基于我们的大脑所实现的&#xff0c;而 AI 因此也常被称为机器智能。AI技术需要机器能够感知、推理和行动&#xff0c;这些都需要底层算法的支持&#xff…

2.2C++公有继承与私有继承

C公有继承 C中的公有继承是指一个类可以从另一个类继承公有成员&#xff0c;包括公有成员函数和变量。 公有继承是面向对象编程中最基本的继承方式&#xff0c;它表示父类的公有成员在子类中仍然是公有成员&#xff0c;可以被外部访问。 我写一个 Animal 的基类&#xff0c;…

哪些公司里面有高性能计算方向cuda方向岗位?

CUDA可以为高性能计算、科学计算、深度学习和人工智能、图形渲染和游戏开发、并行数据处理等领域提供了强大的并行计算能力和编程模型。它加速了计算任务的执行&#xff0c;推动了科学研究和创新的进程&#xff0c;同时也为开发者提供了更多的工具和资源&#xff0c;促进了开放…

留个档,Unity Animator state节点的Motion动态替换AnimationClip

前言 由于Unity没有提供直接替换的API&#xff0c;所以在仅限的API下进行逻辑操作。 替换的原理是差不多的&#xff0c;利用AnimatorOverrideController&#xff0c;进行运行时的覆盖。 网上搜索很多文章是利用 名字字符串作为hash的key来进行替换。不满足我自己项目中的需求…

【系统开发】尚硅谷 - 谷粒商城项目笔记(五):分布式缓存

文章目录 分布式缓存缓存使用场景redis作缓存中间件引入redis依赖配置redis堆外内存溢出 缓存失效问题缓存穿透缓存雪崩缓存击穿 Redisson分布式锁导入依赖redisson配置类可重入锁读写锁缓存一致性解决 缓存-SpringCache简介Cacheable自定义缓存配置CacheEvictCachePut原理与不…

【网络】协议的定制与Json序列化和反序列化

文章目录 应用层初识TCP协议通讯流程定制协议再谈协议网络版本计算器Protocal.hppCalServerCalClient Json的安装 应用层 我们程序员写的一个个解决我们实际问题, 满足我们日常需求的网络程序, 都是在应用层 初识TCP协议通讯流程 建立链接和断开链接 基于TCP协议&#xff0c…