数据中心:AI范式下的内存挑战与机遇

news2024/11/24 12:04:12

在过去的十年里,数据中心和服务器行业经历了前所未有的扩张,这一进程伴随着CPU核心数量、内存带宽(BW),以及存储容量的显著增长。这种超大规模数据中心的扩张不仅带来了对计算能力的急剧需求,也带来了前所未有的内存功率密度挑战,类似于移动设备中遇到的问题。因此,提高DRAM的能效成为当务之急,以应对数据中心内不断上升的能耗压力。(扩展阅读:一文读懂DDR内存基础知识|值得收藏)

图片

云技术的出现彻底改变了我们对大规模计算的观念和部署方式,而人工智能(AI)更是从根本上重塑了计算的本质。AI性能直接与内存带宽挂钩,简而言之,AI性能=内存带宽=每比特能量消耗(pj/bit)=AI性能。在这个等式中,存储容量和可靠性虽然重要性有所下降,但仍需考虑其长期的可持续性和扩展性。

图片

目前,主流DRAM作为行业发展的驱动力,其体积解决方案对于引导工艺节点和技术发展至关重要。HBM(High Bandwidth Memory,高带宽内存)技术的Bit增长依赖于基础DRAM技术的持续进步。

图片

然而,DDR5系统的带宽和容量扩展并没有出现预期的指数级增长,在DDR5的情况下,这种快速增长的拐点并未出现,意味着其带宽与容量的增长较为线性和渐进,而非呈现陡峭的上升曲线。这样凸显了优化DRAM带宽与容量比率以及降低DRAM接口能耗的重要性

图片

这一现象背后的两个核心衡量指标是“BW/capacity ratio”(带宽与容量比率)和“DRAM + interface pj/bit”(DRAM及其接口每比特能量消耗)。这两个指标共同构成了加速DRAM扩展的关键绩效指标。

  • BW/Capacity Ratio:这个比率体现了系统带宽与存储容量之间的平衡。在数据中心和AI应用中,高效的计算不仅需要足够的存储空间(容量),还需要快速的数据访问速度(带宽)。一个理想的配置是两者保持适当比例,以避免带宽瓶颈或过度投资于不被充分利用的容量。因此,维持合理的BW/Capacity比率对于优化系统性能至关重要。

  • DRAM + Interface pj/bit:这里的“pj/bit”是指每传输一位数据所消耗的能量单位。降低这个值意味着提高了能效,这对于数据中心运营来说至关重要,因为这直接影响到电力消耗和冷却成本。DRAM及其接口的能耗优化是提升整体系统能效的关键。尤其是在高密度、高性能的环境中,如AI计算,减少每比特能耗对于持续运行的大型服务器集群来说,能显著降低成本并提高环境可持续性。

随着AI技术的不断演进,2028年及之后的AI营收预测显示,无论是训练还是峰值推理任务,HBM仍将是必要的选择预计推理工作负载将更加细分,不同的应用场景将需要不同的内存技术。特别是主流和基础推理应用,它们对带宽的需求超过了DDR5所能提供的,同时要求在更低功耗下运行,这提示了一个新解决方案的需求正在浮现。(扩展阅读:深度剖析AI存储架构的挑战与解决方案)

图片

  • 训练与峰值推理继续需要HBMAI模型的训练阶段通常涉及大量数据的处理,需要极高的内存带宽来快速读取和写入数据。HBM因其高带宽特性,成为满足这一需求的理想选择。即使在模型训练完成后,进行高负载的峰值推理时,HBM的高性能依旧不可或缺,以确保快速响应和处理能力。

  • 推理工作负载细分将要求不同的内存技术随着AI应用的多样化,推理任务不再是单一类型,而是根据场景和需求被细分为多个类别。例如,主流推理可能在大多数日常应用中进行,而基线推理可能涉及对延迟不太敏感的任务。这些不同类型的推理负载可能对内存的带宽、功耗、容量等有各自特定的需求,促使业界探索和采用多样化的内存技术。(扩展阅读:是谁?阻止CXL在AI场景大展身手~)

尽管DDR5作为新一代内存标准,在带宽和能效方面相比前代已有显著提升,但在某些主流和基线推理场景下,其带宽和功耗表现仍不足以满足需求。这些场景要求比DDR5更高的带宽,同时还要保持或优于DDR5的能效水平,这意味着需要在现有技术之外寻找新的解决方案。

鉴于上述挑战,开发一种既能提供更高带宽,又能保持良好能效比的新内存技术成为必然。这暗示着业界正在探索HBM之外的其他技术或HBM技术的进一步演进,以满足不同AI推理场景的需求。例如,可能涉及更先进的内存架构设计、新材料的应用、或是对现有HBM技术进行改进,以突破现有的堆叠层数限制和密度瓶颈,同时优化功耗。

图片

随着人工智能(AI)解决方案对数据处理速度的不断追求,其最大峰值带宽(Max peak BW)持续快速提升,这对内存技术提出了更高要求。特别是对于高带宽内存(HBM),其容量扩展受到了多方面因素的限制,主要包括超过16层堆叠(>16Hstacking)、基础DRAM技术节点的密度限制,以及封装技术的制约。这些限制意味着单纯依靠增加HBM堆叠层数或提高单个DRAM芯片的密度来扩大容量并非长久之计,因为这些方法都面临着物理和材料科学上的极限。

在此背景下,大规模的AI和服务器市场期待着一种全新的长期发展路径,该路径旨在同时提升带宽和容量,从而弥补当前市场上带宽与容量之间存在的缺口(BW/capacity gap)。这样的发展策略对于确保AI应用的持续增长和数据中心效率的提升至关重要,因为它不仅解决了性能瓶颈,还能引入更强大、更可靠的RAS(Reliability, Availability, Serviceability,即可靠性、可用性和可维护性)选项。

图片

特别是对 3D DRAM 的探索,通过将存储单元垂直堆叠而非水平排列,可以在不大幅改变单个单元尺寸的情况下显著增加单位体积内的存储比特数,从而在一定程度上克服 2D 缩放的局限。尽管 3D DRAM 技术尚处于早期研发阶段,且面临诸多技术挑战(如专利布局、工艺复杂性、架构选择等),但因其巨大的潜力,已成为业界关注的焦点。

图片

目前3D DRAM 的公开技术文献数量极少。行业主要厂商在公开交流上保持沉默,但在背后却在积极申请大量与 3D DRAM 相关的专利。这种现象表明,尽管企业不愿意公开分享技术细节,但他们对 3D DRAM 技术的开发投入巨大,并且通过专利保护的方式为未来的市场竞争和技术主导权做准备。这种策略反映出 3D DRAM 技术的战略重要性和潜在的巨大商业价值。

可以公开查询的关于3D DRAM的论文,比如来自 国内长鑫存储CXMT(2023 IMW Conf.)和三星(2023 VLSI Symp.),都是DRAM厂商在专业会议上发布的针对 1T1C(一晶体管一电容)结构的 3D DRAM。

• 2023 IMW Conf. “A 3D Stackable 1T1C DRAM: Architecture, Process…” by CXMT

• 2023 VLSI Symp. “ Ongoing Evolution of DRAM Scaling via 3rd Dimension: V-DAM” by Samsung

除了主流的 1T1C 3D DRAM 研究,还有其他创新的无电容 DRAM 方法在探索中。其中,2T0C Gain Cell 主要集中在学术研究层面,而 Gate-controlled-thyristor DRAM 则由 Macronix 开发。这两种无电容方案旨在通过简化结构、减少或取消电容元件来降低制造复杂度,提高集成度,可能是 3D DRAM 发展的另一种可能路径。

从 2D DRAM 向 3D DRAM 转变过程中将面临无数技术挑战。这些挑战涵盖工艺技术的各个方面,如硬掩模刻蚀(HAR etch)、横向刻蚀、原子层沉积(ALD)、原子层刻蚀(ALE)、外延生长、沉积技术、掺杂、硅化物形成、接触形成以及应力管理等。这些复杂且精密的工艺步骤需要相应的设备支持和技术创新,为半导体设备供应商提供了技术服务和设备升级的市场空间。

图片

三星(Samsung)和SK海力士(SK hynix)作为在高带宽内存(HBM)领域快速发展的企业,根据最新报告,这两家公司确认计划在即将推出的3D DRAM技术中采用混合键合技术。当前技术主要利用微凸点连接DRAM模块,而混合键合技术则可以通过硅通孔(TSV)实现芯片的垂直堆叠,从而避免使用微凸点,大幅减小芯片厚度

图片

早前《韩国经济日报》的报道指出,当前的DRAM技术在一个基板上集成了高达620亿个单元,基板上密集排列着晶体管,形成了平面结构,这导致了电流泄漏和干扰等问题。相比之下,3D DRAM通过将晶体管堆叠成多层,增加了它们之间的间隔,从而减少了泄漏和干扰

为了替代传统的横向布局,3D DRAM通过垂直堆叠存储单元,实现了单位面积存储容量的三倍提升。这与HBM有所不同,HBM是通过垂直连接多个DRAM芯片来实现高带宽。

在最近于首尔举行的2024国际内存研讨会(International Memory Workshop)上,SK海力士宣布了其在3D DRAM生产中实施混合键合的计划。而三星则据《韩国经济日报》之前的报道,计划在2025年推出3D DRAM

与此同时,三星还在探索4F²DRAM技术,并计划将其与混合键合技术整合到生产过程中。如果成功,与目前商业化生产的6F² DRAM相比,三星可以将裸片表面积减少30%。三星预计将使用10纳米或更精细的工艺节点来实现4F²结构的DRAM。

此外,三星认为混合键合技术对于16层堆叠的HBM至关重要,这标志着3D DRAM市场份额争夺战的悄然开始。这些动向显示出存储巨头们正积极布局未来,通过技术创新解决数据存储的带宽、容量、能效以及可靠性等挑战,为数据中心和人工智能等高需求应用提供更为先进的解决方案。

图片

展望2030年及以后,AI解决方案的峰值带宽将持续快速增长,而HBM的容量扩展因技术节点密度和封装的限制而受限。为了解决当前带宽与容量之间的缺口,并允许更强大的RAS(可靠性、可用性、可服务性)选项,大规模的AI和服务器市场需要探索新的长期发展路径,这条路径能够同时提升带宽和容量,确保AI和数据中心行业的可持续发展。

扩展阅读:

  • IEEE RAS 2024: 大厂阿里、字节、腾讯都在关注这个事情!

  • 深度好文|如何实现服务器内存故障监控与预测?

行业正面临从带宽驱动的内存需求转向,这为解决带宽与容量差距及提升内存韧性的挑战提供了契机。基础技术的发展对于HBM和DDR5/LPDDR技术的持续演进至关重要,且在提升带宽和容量的同时,还需关注能效、成本优化以及大规模部署下的RAS特性。未来,数据中心和AI领域的内存技术革新将是应对这些挑战、把握新机遇的关键。

参考文献: 

  • JEDEC-Server & Data Center Memory (& the AI paradigm shift)

  • https://www.trendforce.com/news/2024/06/20/news-samsung-and-sk-hynix-to-implement-hybrid-bonding-with-3d-dram/


如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • WDC西部数据闪存业务救赎之路,会成功吗?

  • 属于PCIe 7.0的那道光来了~

  • 深度剖析:AI存储架构的挑战与解决方案

  • 浅析英伟达GPU NCCL P2P与共享内存

  • 3D NAND原厂:哪家芯片存储效率更高?

  • 大厂阿里、字节、腾讯都在关注这个事情!

  • 磁带存储:“不老的传说”依然在继续

  • 浅析3D NAND多层架构的可靠性问题

  • SSD LDPC软错误探测方案解读

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1847207.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【HarmonyOS NEXT】鸿蒙 如何在包含web组件的页面 让默认焦点有效

页面包含web组件Button组件等,把页面的默认焦点放到Button组件上,不起效果。 因为web组件默认会在组件加载完成后获取焦点; 可以在web的网页加载完成时onPageEnd回调中,将设置默认获焦的组件通过focusControl.requestFocus方法主…

微信发布分班查询结果

亲爱的老师们!期末考完,新学期就快要来了,还在为分班查询头疼吗?别担心,今天我要和大家分享一个超级实用的小技巧——如何通过微信发布分班查询结果,让家长们和学生们都能掌握新学期的动态? 分…

Manim本地安装

目录 背景Manim安装及配置一个上手例子参考文献 背景 通过上一期的介绍,我们对Manim有了初步的认识也知道Manim版本的区别,这一期,我们来给自己的计算机安装一个社区版ManimCE,方便以后玩Manim。笔者的硬件配置是联想笔记本Windo…

Google Gemini API 打造翻译助手

API申请 https://aistudio.google.com/app/apikey 目前API可以免费受限使用,大概一分钟60次调用 https://ai.google.dev/pricing prompt编写 您是一位精通各种语言的专业翻译家,尤其擅长【替换成你想翻译的文本类别,比如:农业、…

【挑战100天首通《谷粒商城》】-【第一天】06、环境-使用vagrant快速创建linux虚拟机

文章目录 课程介绍1、安装 linux 虚拟机2、安装 VirtualBoxStage 1:开启CPU虚拟化Stage 2:下载 VirtualBoxStage 2:安装 VirtualBoxStage 4:安装 VagrantStage 4-1:Vagrant 下载Stage 4-2:Vagrant 安装Stag…

表组装示例

代码; #include <gtk-2.0/gtk/gtk.h> #include <glib-2.0/glib.h> #include <stdio.h>int main(int argc, char *argv[]) {gtk_init(&argc, &argv);GtkWidget *window;window gtk_window_new(GTK_WINDOW_TOPLEVEL);gtk_window_set_title(GTK_WINDO…

实战18:基于tkinter+jupyter notebook开发的情感分析系统

项目演示: 完整代码: import pandas as pd import numpy as np from collections import Counter import re import jieba from tqdm import tqdm from sklearn.metrics import roc_curve, auc import joblib import gensim from sklearn.svm import SVC from gensim.mode…

34.构建核心注入代码

上一个内容&#xff1a;33.获取入口点 以 33.获取入口点 它的代码为基础进行修改 实现的功能是把LoadLibrary函数注入到目标进程实现加载我们的模块。LoadLibrary只有有程序使用过了它的代码就会加载到内存中&#xff08;因为动态链接库是内存加载&#xff09;就是a程序要用L…

基于JSP技术的固定资产管理系统

开头语&#xff1a;你好呀&#xff0c;我是计算机学长猫哥&#xff01;如果有相关需求&#xff0c;文末可以找到我的联系方式。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;JSPServlet 工具&#xff1a;MyEclipse、Tomcat 系统展示 首页 注册界面…

全排列(C++)

2024年6月16日1&#xff1a;48&#xff0c;正式开启每日一题~ 题目要求&#xff1a;给定正整数n&#xff08;n≥1&#xff09;&#xff0c;给出1~n的全排列&#xff0c;例如&#xff0c;当n3时全排列是{{1&#xff0c;2&#xff0c;3}&#xff0c;{1&#xff0c;3&#xff0c;…

数字化物资管理系统的未来:RFID技术的创新应用

在信息化和智能化不断发展的背景下&#xff0c;物资管理系统的数字化转型已成为各行各业关注的焦点。RFID技术作为一种先进的物联网技术&#xff0c;通过全面数字化实现物资信息的实时追踪和高效管理&#xff0c;为企业的物资管理提供了强有力的支持。 首先&#xff0c;RFID技…

docker将容器打包提交为镜像,再打包成tar包

将容器打包成镜像可以通过以下步骤来实现。这里以 Docker 为例&#xff0c;假设你已经安装了 Docker 并且有一个正在运行的容器。 1. 找到正在运行的容器 首先&#xff0c;你需要找到你想要打包成镜像的容器的 ID 或者名字。可以使用以下命令查看所有正在运行的容器&#xff…

SQLite扩展插件终极集合

作为一个嵌入式数据库引擎&#xff0c;SQLite 与其他数据库管理系统相比&#xff0c;缺少了一些功能。不过 SQLite 提供了一个扩展机制&#xff0c;因此我们可以在网络上找到大量的 SQLite 插件。 今天我们介绍的这个插件叫做 sqlean&#xff0c;它打包了许多流行的 SQLite 扩…

Go微服务: redis分布式锁保证数据原子操作的一致性

概述 随着云计算和大数据技术的飞速发展&#xff0c;分布式系统已经成为现代IT架构的重要组成部分在分布式系统中&#xff0c;数据的一致性是一个至关重要的挑战&#xff0c;特别是在并发访问和修改共享资源的场景下分布式锁是一种跨进程、跨机器节点的互斥锁&#xff0c;用于…

Python web 开发 flask 实践

1、前言 前文已经介绍了很多关于 python 的算法和脚本的写法&#xff0c;在本文将开启python的 web 的开发&#xff0c;和java 类似的&#xff0c;对于 web 开发也需要引入框架&#xff0c;对于 python 的 web 开发来说常见的有 flask 和 django 两种&#xff0c;在本文中将要…

Comparison method violates its general contract! 神奇的报错

发生情况 定位到问题代码如下&#xff08;脱敏处理过后&#xff09;&#xff0c;意思是集合排序&#xff0c;如果第一个元素大于第二个元素&#xff0c;比较结果返回1&#xff0c;否则返回-1&#xff0c;这里粗略的认为小于和等于是一样的结果 List<Integer> list Arr…

【Android14 ShellTransitions】(六)SyncGroup完成

这一节的内容在WMCore中&#xff0c;回想我们的场景&#xff0c;是在Launcher启动某一个App&#xff0c;那么参与动画的就是该App对应Task&#xff08;OPEN&#xff09;&#xff0c;以及Launcher App对应的Task&#xff08;TO_BACK&#xff09;。在确定了动画的参与者后&#x…

C#.net6.0语言+B/S架构+前后端分离 手术麻醉信息管理系统源码

C#.net6.0语言&#xff0b;B/S架构前后端分离 手术麻醉信息管理系统源码 什么是手术麻醉信息管理系统 满足医院等级评级需求 满足电子病历评级需求 满足科室需求 术前 1、患者术前评估/诊断 2、术前讨论制定手术方案 3、手术准备 4、术前准备 术中 1、送手术室 2、麻…

openlayers 轨迹回放(历史轨迹),实时轨迹

本篇介绍一下使用openlayers轨迹回放&#xff08;历史轨迹&#xff09;&#xff0c;实时轨迹 1 需求 轨迹回放&#xff08;历史轨迹&#xff09;实时轨迹 2 分析 主要是利用定时器&#xff0c;不断添加feature 轨迹回放&#xff08;历史轨迹&#xff09;&#xff0c;一般是…

Ubuntu安装qemu-guest-agent

系列文章目录 Ubuntu-24.04-live-server-amd64安装界面中文版 Ubuntu-24.04-live-server-amd64启用ssh Ubuntu乌班图安装VIM文本编辑器工具 文章目录 系列文章目录前言一、安装二、启用服务三、效果总结 前言 QEMU Guest Agent&#xff08;简称QEMU GA或QGA&#xff09;在虚拟…