存算一体架构或成为AI处理器技术发展关键

news2024/11/25 12:43:57

©作者|坚果

来源|神州问学

 引言

马斯克巨资60亿美元打造的“超级算力工场”,通过串联10万块顶级NVIDIA H100 GPU,不仅震撼了AI和半导体行业,促使英伟达股价应声上涨6%,还强烈暗示了AI大模型及芯片需求的急剧膨胀。这一行动不仅是马斯克对AI未来的大胆押注,也成为了全球企业加速布局AI芯片领域的催化剂,预示着一场科技革新竞赛的全面升级,各方竞相提升算力,争夺AI时代的战略高地。观察近期Blackwell与Gaudi 3芯片的设计优化路径,不难发现GPU芯片制造商已在不同程度上汲取了存算一体技术的精髓,尤其侧重于近存计算架构的采纳,以此直面大模型对高算力与高存储需求的挑战。

存算一体技术详解

存算一体(Computational Memory或In-Memory Computing)的概念并非新近才出现,而是计算机科学领域一个长期的研究方向。它的起源可以追溯到早期计算机架构的探索,旨在克服冯·诺依曼架构的局限性,特别是数据传输带宽瓶颈(通常称为“内存墙”)的问题。

存算一体技术的过去和现在

追溯至上世纪80年代,存算一体的概念初现端倪,彼时研究者开始探讨如何在存储器内部直接进行计算,以减少数据在处理器与内存之间频繁移动带来的延迟与能耗。然而,受限于当时的材料科学与制造工艺,早期的尝试多停留在理论探索与初步原型阶段。进入21世纪,随着纳米科技、新材料与先进制造技术的飞速发展,存算一体技术迎来了突破性进展。新型非易失性存储器,如相变存储器(PCM)、磁阻随机存取存储器(MRAM)和电阻式随机存取存储器(RRAM),因其具备高速度、低功耗及非易失性等特点,成为实现存算一体的关键载体。这些存储技术不仅能够存储信息,还能在其存储单元上直接执行基本逻辑运算,从而大幅缩短数据传输距离,显著提升整体计算效能。近年来,存算一体技术在学术界与产业界均获得了广泛关注与投资,多家科研机构与企业已研发出原型产品。例如,英特尔的Optane DC持久内存结合了DRAM的高速度与NAND闪存的非易失性,展现了存算一体的部分潜力;而IBM、三星、惠普实验室等也在探索将存算一体应用于人工智能、大数据分析等领域,以期构建更高效能的计算平台。

存算一体技术原理和分类

存算一体芯片基本架构图所示,神经网络模型的权重可以映射为子阵列中存储单元的电导率,而输入特征图(Feature map)作为行电压并行加载(图中WL方向),然后以模拟方式进行乘法(即输入电压乘以权重电导),并使用列上的电流求和(图中BL方向)来生成输出向量。

图片

图源:

https://www.bilibili.com/video/BV1hF411a7wt/?from=search&seid=3978061323598318972&spm_id_from=333.337.0.0

按照计算单元和存储单元的距离,存算一体技术大致分为近存计算(PNM)、存内处理(PIM)、存内计算(CIM)。

存内处理 则主要侧重于将计算过程尽可能地嵌入到存储器内部。这种实现方式旨在减少处理器访问存储器的频率,因为大部分计算已经在存储器内部完成。这种设计有助于消除冯·诺依曼瓶颈带来的问题,提高数据处理速度和效率。

近存计算 是一种较为成熟的技术路径。它利用先进的封装技术,将计算逻辑芯片和存储器封装到一起,通过减少内存和处理单元之间的路径,实现高I/O密度,进而实现高内存带宽以及较低的访问开销。近存计算主要通过2.5D、3D堆叠等技术来实现,广泛应用于各类CPU和GPU上。

存内计算 同样是将计算和存储合二为一的技术。它有两种主要思路。第一种思路是通过电路革新,让存储器本身就具有计算能力。这通常需要对SRAM或者MRAM等存储器进行改动,以在数据读出的decoder等地方实现计算功能。这种方法的能效比通常较高,但计算精度可能受限。

存算一体技术的最终目标是提供一种计算平台,它能够显著降低数据搬运的成本,提高计算效率,特别是在大规模并行计算和机器学习任务中展现出巨大的潜力。然而,这一领域的研究和开发仍面临诸多挑战,包括技术成熟度、可扩展性、成本和标准化等问题。

AI处理器架构参考近存计算原则

今年推出性能优化的两款高性能AI芯片,都不同程度优化了内存模块以拓展显存容纳更大规模的参数。

NVIDIA Blackwell

今年3月18日NVIDIA 在GTC宣布推出 NVIDIA Blackwell 架构以赋能计算新时代。

图源:

https://www.nvidia.cn/data-center/technologies/blackwell-architecture/

Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。Blackwell架构的GPU,作为高性能计算和AI加速器,参考近存计算的架构高度集成计算单元和存储单元。

Blackwell GPU以集成的 HBM3E内存为核心,实现8Gbps速度与8TB/s带宽,大幅缩减数据传输至计算单元的时间,有效降延迟、控能耗。其计算单元与内存的协同设计,确保了数据的快速访问与高效利用,破解数据传输瓶颈。结合Grace CPU的系统集成,更促进了计算与内存管理的无缝衔接,共享数据机制减少了跨资源传输,虽非存内计算,却通过内存与计算的紧密融合,实现了减少数据移动、提升计算效能的目标,与存算一体架构理念不谋而合。

Gaudi

今年4月9日晚,英特尔在美国召开了“Intel Vision 2024”大会发布了Gaudi 3 AI芯片。Gaudi 3 拥有 8 个矩阵数学引擎、64 个张量内核、96MB SRAM(每个Tile 48MB,可提供12.8 TB/s的总带宽) 和 128 GB HBM2e 内存,16 个 PCIe 5.0 通道和 24 个 200GbE 链路 。在计算核心的周围,则是八个HBM2e内存堆栈,总容量为128 GB,带宽为3.7 TBps。训练性能比英伟达H100快了40%,推理快了50%。

图片

图源:

https://www.intel.com/content/www/us/en/content-details/817486/intel-gaudi-3-ai-accelerator-white-paper.html

Gaudi 3 AI加速器通过一系列优化,深刻诠释了近存计算的精髓。其搭载的128GB HBM2e内存,以超高的数据传输速率削减访问延迟;双计算集群Chiplet设计让计算贴近数据,减少移动距离;增强的网络带宽优化了分布式计算中的数据交换,有效降低节点间通信延迟;AI专用计算单元针对矩阵与卷积运算进行高效优化,间接促进数据访问效率。所有这些设计,均致力于减少数据移动,提升计算效能,完美呼应了近存计算减少延迟、降低能耗的核心目标。

其他

除了以上厂家其他厂家也采用了近存计算或类似架构原则。

AMD MI200系列 GPU:

AMD的Instinct MI200系列GPU采用了3D V-Cache技术,以及HBM2e内存,提供了高带宽数据访问,旨在减少数据传输延迟。

Groq Tensor Processing Unit (TPU):

Groq的TPU采用了独特的架构设计,其中包括了大规模的片上SRAM,以及高度并行的计算单元,旨在提供低延迟和高吞吐量的计算环境。

Graphcore IPU:

Graphcore的Intelligence Processing Units (IPUs) 设计有大规模的片上内存,以及分布式内存架构,以减少数据移动,提高机器学习模型的训练和推理速度。

存算一体架构解决大模型高算力高存储的需求

大模型高算力高存储需求的挑战

大模型计算任务对高算力的依赖源于其参数量的天文数字——如GPT-3的1750亿参数——以及数据密集型训练需求,后者涉及处理570GB规模的文本数据集。模型的深度与宽度、高维特征的处理、训练迭代中的权重更新,乃至分布式训练的协调,无一不在考验着系统的计算极限。此外,模型优化和探索阶段的资源消耗也不容小觑。为此,现代数据中心装备了高性能GPU、TPU及配套基础设施,旨在支撑这一计算盛宴。

高存储挑战则聚焦于显存的极限。大模型的海量参数,即便是采用FP16或BF16低精度表示,也需占用大量存储空间。前向与反向传播产生的中间结果、优化器状态维护、混合精度训练中的精度转换,以及批量处理和数据预处理阶段的临时数据生成,均显著提升了显存需求。尤其是模型推理阶段,面对长序列或高分辨率数据,显存消耗尤为突出。因此,诸如NVIDIA A100 GPU配备的80GB HBM2显存成为必要,以应对大规模模型的训练与推理需求。

存算一体架构优势

存算一体架构针对大模型运算的高算力和高存储需求,展现出了显著优势,通过在存储单元本地执行计算,极大地减少了数据在CPU和内存之间传输的延迟和能量损耗,从而大幅度提升了计算效率。这种架构特别适合处理拥有海量参数和大规模数据集的大模型,如深度神经网络,因为它能有效地解决“存储墙”问题,确保即使在处理高维特征空间和进行复杂的模型优化时,也能保持高性能和低功耗,是实现未来高性能计算的关键技术之一。

结论

随着数字化程度的日益加深,数字资产随之累积,导致大模型所需的数据源愈发丰富,模型参数量亦呈指数级增长。这无疑对AI处理器提出了更高的要求,不仅需要更强大的存储能力来容纳这些海量数据,还必须具备更快的运算能力以实现高效处理。当前,AI处理器的研发正从多方面展开创新,除了持续优化科学计算的基本处理单元结构,还积极探索借鉴存算一体架构中的近存计算设计理念,旨在通过缩短数据读取路径,扩大存储规模并减少数据传输中的能耗,从而大幅提升效率。显然,存算一体架构已成为驱动AI芯片技术进步的关键因素。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1898092.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【信息学奥赛】CSP-J/S初赛07 排序算法及其他算法在初赛中的考察

本专栏👉CSP-J/S初赛内容主要讲解信息学奥赛的初赛内容,包含计算机基础、初赛常考的C程序和算法以及数据结构,并收集了近年真题以作参考。 如果你想参加信息学奥赛,但之前没有太多C基础,请点击👉专栏&#…

研0学习Python基础4

1.数组是一种存储大量同性质数据的连续内存空间,只要使用相同的变量名称,便可以连续访问 每一组数据。由于数组元素的便利性,使得大多数程序中都可以看到数组的身影。数组是一 个带有多个数据且模式相同的元素集合。比如,数值所…

cmake编译源码教程(一)

1、介绍 本次博客介绍使用cmake编译平面点云分割的源代码,其对室内点云以及TLS点云中平面结构进行分割,分割效果如下: 2、编译过程 2.1 源代码下载 首先,下载源代码,如下所示,在该文件夹下新建一个build文件夹,用于后续生成sln工程。 同时,由于该库依赖open…

【基于R语言群体遗传学】-6-表型计算等位基因频率、最大似然估计方法

到目前为止,我们主要讨论了等位基因和基因型频率,以及我们如何可以从一个推断出另一个。但是,如果我们不知道等位基因频率,只知道种群中存在哪些表型呢?如果我们足够幸运,知道哪些表型对应哪些基因型&#…

散度的可视化

散度的可视化 flyfish 向量场和散度 假设我们有一个简单的向量场: F ( x , y , z ) \mathbf{F} (x, y, z) F(x,y,z)在这里,向量场 F \mathbf{F} F 是由三个分量组成的向量,每个分量是空间坐标 x x x、 y y y、 z z z 的函数&#xff…

详细的讲解一下网络变压器应用POE ,AT BT AF BF的概念,做电路连接指导分析

网络变压器在应用POE(Power over Ethernet)技术时,承担着重要的角色。它不仅负责数据的传输,同时也为网络设备提供电力。在IEEE 802.3标准中,定义了几个与POE相关的标准,包括802.3af、802.3at、802.3bt等&a…

分享6个自己每天都会打开的网站

分享6个自己每天都会打开的网站,有实用办公网站,也有休闲摸鱼网站,链接直达,速看~ 1、鸠摩搜索 https://www2.jiumodiary.com/ 一个免费的电子书下载网站,页面干净无广告,只有一个搜索框,输入…

力扣双指针算法题目:复写零

1.题目 . - 力扣(LeetCode) 2.解题思路 本题要求就是对于一个数组顺序表,将表中的所有“0”元素都向后再写一遍,且我们还要保证此元素之后的元素不受到影响,且复写零之后此数组顺序表的总长度不可以改变,…

微信开发者工具报错 Error: module ‘xxx.js‘ is not defined, require args is ‘xxx.js‘

背景 报错如下 检查 代码逻辑和写法都是ok的微信开发者工具重新打开项目又是可以的 解决方案 先确保微信开发者工具和uniapp的将js编译成es5都开着(这个是默认开的) 然后把微信开发者工具关了重开 一般做这一步就会好了,但是只是临时解…

基于python 的动态虚拟主机

将自己电脑上的Python脚本文件上传到虚拟机/var/www/cgi-bin/目录下 [rootlocalhost conf.d]# cd /var/www/cgi-bin/ [rootlocalhost cgi-bin]# rz -E rz waiting to receive.编辑vhost.conf配置文件 [rootlocalhost conf.d]# vim vhost.conf<virtualhost 192.168.209.140…

10元 DIY 一个柔性灯丝氛围灯

之前TikTok上特别火的线性氛围灯Augelight刚出来的时候一度卖到80多美金&#xff0c;国内1688也能到400多人民币。 随着各路国内厂商和DIY创客的跟进&#xff0c;功能变多的同时价格一路下滑&#xff0c;虽然有的质感的确感人&#xff0c;但是便宜啊。 甚至关注的up有把成本搞到…

vxe-table合并行数据;element-plus的el-table动态合并行

文章目录 一、vxe-table合并行数据1.代码 二、使用element-plus的el-table动态合并行2.代码 注意&#xff1a;const fields 是要合并的字段 一、vxe-table合并行数据 1.代码 <vxe-tableborderresizableheight"500":scroll-y"{enabled: false}":span-m…

实验三 图像增强—灰度变换

一、实验目的&#xff1a; 1、了解图像增强的目的及意义&#xff0c;加深对图像增强的感性认识&#xff0c;巩固所学理论知识。 2、学会对图像直方图的分析。 3、掌握直接灰度变换的图像增强方法。 二、实验原理及知识点 术语‘空间域’指的是图像平面本身&#xff0c;在空…

使用Session实现单点登录(SSO)

仅仅是一种思路&#xff0c;细节不做具体说明。

servlet学校会场预约系统-计算机毕业设计源码72972

摘要 学校会场预约是学校管理中的重要环节&#xff0c;但传统的手工预约方式存在效率低下和信息不准确等问题。为了提高预约效率和减少管理成本&#xff0c;许多学校开始采用基于Servlet技术的会场预约系统。本论文旨在设计和实现一种高效的Servlet学校会场预约系统&#xff0c…

已经安装deveco-studio-4.1.3.500的基础上安装deveco-studio-3.1.0.501

目录标题 1、执行exe文件后安装即可2、双击devecostudio64_3.1.0.501.exe2.1、安装Note (注意和4.1的Note放不同目录)2.2、安装ohpm (注意和4.1版本的ohpm放不同目录)2.3、安装SDK (注意和4.1版本的SDK放不同目录) 1、执行exe文件后安装即可 2、双击devecostudio64_3.1.0.501.e…

pycharm如何使用jupyter

目录 配置jupyter新建jupyter文件别人写的方法&#xff08;在pycharm种安装&#xff0c;在网页中使用&#xff09; pycharm专业版 配置jupyter 在pycharm终端启动一个conda虚拟环境&#xff0c;输入 conda install jupyter会有很多前置包需要安装&#xff1a; 新建jupyter…

Docker:二、常用命令

&#x1f341;docker常用命令 官方帮助文档&#xff1a;https://docs.docker.com/reference/ &#x1f332;帮助命令&#xff08;版本信息&#xff09; docker -v # 显示docker版本 docker version # 显示docker版本信息 docker info # 显示docker系统信息 docker 命…

Excel多表格合并

我这里一共有25张表格: 所有表的表头和格式都一样,但是内容不一样: 现在我要做的是把所有表格的内容合并到一起,研究了一下发现WPS的这项功能要开会员的,本来想用代码撸出来的,但是后来想想还是找其他办法,后来找到"易用宝"这个插件,这个插件可以从如下地址下载:ht…

Python中frozenset,秒变不可变集合,再也不用担心多线程了!

目录 1、Frozenset基础介绍 🌐 1.1 Frozenset定义与创建 1.2 不可变集合特性 1.3 与Set的区别对比 2、Frozenset操作实践 🧩 2.1 初始化与添加元素尝试 2.2 成员测试: in & not in 2.3 集合运算: 并集、交集、差集 2.4 使用场景示例: 字典键、函数参数默认值 …