内存:生成式AI带来全新挑战与机遇

news2024/9/21 17:29:40

之前小编也写过多篇AI存储相关的文章,包括AI背景与分层存储的分析,以及AI存储重点从训练转向推理等内容。具体参考:

  • 深度剖析:AI存储架构的挑战与解决方案

  • 存储正式迈入超大容量SSD时代!

  • 这可能是最清晰的AI存储数据流动图解

  • 机器学习中的内存优化


一、生成式人工智能对存储市场的影响

生成式人工智能(Generative AI)是近年来发展迅猛的领域之一,其能够根据提示生成文本、图像、视频、音频、代码及三维模型等多种类型的内容。生成式AI背后的技术基础包括机器学习(ML)、深度神经网络(DNN)以及转换器模型等,这些技术共同推动了自然语言处理(NLP)领域的进步,使得如生成、总结及翻译文字等应用得以实现。

图片

  • 人工智能(Artificial Intelligence, AI)的主要目标是创建一个能够自主运作的系统。为了实现这个目标,大量的研究集中在使系统能够理解和在环境中导航。这包括感知环境中的物体、理解其动态以及规划路径等能力,以便系统能够有效地在物理或虚拟空间中移动和互动。

  • 机器学习(Machine Learning, ML)是实现上述目标的关键领域之一。机器学习的核心理念是通过向算法展示解决方案的例子来教导算法如何解决问题,而不是直接解释解决问题的具体步骤。这种方法允许算法从示例中学习并识别模式,从而找到解决问题的方法。

  • 人工神经网络是由被称为神经元的基本单元构成的网络,它是机器学习的一种方法。神经元按照层级组织,当网络包含多个层级时,就称之为深度神经网络(Deep Neural Network, DNN)。当我们把机器学习的原则应用于DNN时,就进入了深度学习(Deep Learning, DL)的领域。深度学习通过多层神经网络捕捉输入数据中的复杂特征,从而实现更高级的任务处理能力。

  • 转换器(Transformer)神经网络是一种使用自注意力机制(Self-Attention Mechanism)的深度神经网络架构。这种架构专为处理顺序输入数据而设计,由两个主要组件构成:编码器网络(Encoder Network)和解码器网络(Decoder Network)。编码器负责处理输入序列并提取其特征,而解码器则根据编码器传递的信息生成输出序列。

  • 大型语言模型(Large Language Models, LLMs)是一类具有转换器架构并且包含大量参数的网络。它们通过无监督或半监督学习方法,在大量的未标注文本上进行训练。这类模型支持多种自然语言处理(Natural Language Processing, NLP)应用,如文本生成、摘要生成和机器翻译等。

  • 生成式AI是一种能够根据提示生成文本、图像、视频、音频、代码、三维模型等内容的人工智能。这种类型的AI可以根据需求创造出新的、原创的内容。生成式AI的应用场景十分广泛,从艺术创作到软件开发,再到娱乐产业,都有着广泛的应用潜力。

二、AI处理器需求的增长与市场变化

随着生成式AI模型复杂度的增加,训练这些模型所需的计算资源也呈指数级增长。从AlexNet到GPT-4等模型的发展过程中,可以看到用于训练模型的浮点运算次数(FLOPs)从2009年的1E+14增长到了接近1E+27。这一增长不仅体现在算法复杂度上,还体现在所需的处理器性能、训练时间和成本上。

图片

例如,对于某些大型语言模型(LLM),如PaLM-2或Llama2-70B,它们需要成千上万的高性能GPU进行几个月的训练,并且耗资巨大,达到数百万美元。此外,这些模型的训练还会消耗大量的电力,这在环境可持续性方面提出了新的挑战。

随着技术的发展,数据中心AI处理器的性能不断提高,同时功耗也逐渐降低。未来的处理器将会拥有更高的性能和更低的功耗,以满足日益增长的数据中心需求。

图片

  • Google TPU v2:早期的谷歌张量处理单元,性能较低。

  • AMD MI250X:AMD的MI250X处理器,性能比Google TPU v2要好。

  • Intel Gaudi 2:英特尔的第二代海豚ICP处理器,性能更高。

  • Nvidia A100 80GB SXM:英伟达A100 80GB SXM处理器,性能更强。

  • Tesla Dojo:特斯拉的Dojo超级计算机,性能更高。

  • Nvidia H100 SXM:英伟达的H100 SXM处理器,性能强。

  • Nvidia B200:英伟达的B200处理器,性能最高。

还有一些其他的处理器,如AMD MI210、Google TPU v3、Google TPU v4、Baidu Kunlun I、Baidu Kunlun II等,它们的位置都在Google TPU v2和AMD MI250X之间,表示它们的性能介于两者之间。

GPU的内存容量对人工智能至关重要。内存主要有两个作用:存储AI模型参数、存储K-V缓存。

图片

这两个功能都是AI运行过程中必不可少的部分,因此GPU的内存容量越大,能够处理的模型规模也就越大,能够支持更多的并发用户数。

图片

三、数据中心GPU和AI ASIC市场预测

从2019年至2029年,数据中心GPU和AI ASIC的收入预计将持续增长。特别是AI ASIC,其收入将从2019年的32亿美元增长至2029年的711亿美元,复合年增长率CAGR为35.0%,而GPU的收入则预计在2029年达到162亿美元,CAGR为26.9%。总体而言,数据中心GPU和AI ASIC的总收入预计将超过230亿美元,并在2029年前保持29.0%的CAGR。

图片

四、AI服务器将成为服务器市场的主导力量

2022年至2029年期间,AI服务器与传统服务器的需求对比:可以看到,AI服务器的需求增速明显快于整体服务器市场,其复合年增长率(CAGR)达到43%,而传统服务器仅为21%。这意味着AI服务器将在未来几年内成为服务器市场的主导力量,并且其需求的增长速度远超其他类型的服务器。此外,从2022年开始,AI服务器的需求量就已经超过了所有其他类型服务器的总和,预计到2029年将达到近250艾字节(Eb),而传统服务器则保持在150至200 Eb之间。这一趋势表明AI正在推动整个服务器市场的发展,并且在未来几年内将继续引领市场增长。

图片

五、AI对存储市场的影响

HBM(高带宽内存)的生产相比DDR5更为复杂,因为它需要几乎三倍的晶圆启动次数来获得相同的位输出。这是由于以下几个原因:

  • Die尺寸:HBM的Die尺寸较大,需要更多的晶圆来制造。

  • TSV区域和TSV工艺良率:TSV(硅通孔)是HBM的关键技术之一,它使得多层堆叠成为可能。然而,TSV的制作过程较为复杂,导致了较低的良率。

  • 封装良率和累积良率效应:HBM的封装过程也比DDR5复杂,因为要实现多层堆叠,所以封装良率较低。而且,随着层数的增加,累积良率效应也会变得更加显著,进一步增加了生产难度。

这些因素共同导致了HBM的生产成本较高,同时也要求更高的技术水平和更严格的品质控制。

图片

在HBM生产过程中,即使很小的良率变化也可能大大影响产品成本。例如,在8层高的封装中,如果良率下降1个ppm(百万分之1),那么每比特的成本就会增加9%;而在16层高的封装中,同样的良率下降会导致每比特成本增加18%。这就意味着HBM的生产必须非常精确和稳定,以确保成本可控并满足市场需求。

图片

AI发展对内存需求的巨大影响,特别是随着模型规模的扩大和精度要求的变化,对高性能内存的需求也在不断增加。

图片

训练通常需要大量的浮点运算能力,因此消耗的内存资源更多,例如使用FP32精度进行训练时,需要40TB的内存。通过量化(Quantization)技术,可以在一定程度上降低内存需求,但仍然需要较大的内存空间。推理阶段则可以根据应用的不同选择不同的精度级别,如INT8或INT4,对应的内存需求也随之减少。例如,使用INT8精度进行推理时,所需内存约为训练阶段的十分之一左右。

参考文献:FMS2024-Generative AI – Memory Market Impacts | www.yolegroup.com 


如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • 这可能是最清晰的AI存储数据流动图解

  • DWPD指标:为何不再适用于大容量SSD?

  • 突破内存墙:DRAM的过去、现在与未来

  • E1.S接口如何解决SSD过热问题?

  • ZNS SSD是不是持久缓存的理想选择?

  • 存储正式迈入超大容量SSD时代!

  • FMS 2024: 带来哪些存储技术亮点?

  • IEEE报告解读:存储技术发展趋势分析

  • 什么?陶瓷也可以用来存储数据了?

  • 都说固态硬盘寿命短,那么谁把使用寿命用完了吗?

  • 内存原生CRAM技术将会颠覆计算存储的未来?

  • 浅析SSD性能与NAND速率的关联

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2152903.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多线程篇七

多线程篇七 若笔者理解有误,欢迎交流指正⭐ 定时器 什么是定时器 听到定时器,首先想到的是“闹钟”.到一个设置好的时间之后就执行某个指定好的代码.(在实际开发中非常常用,如网络通信【邮件发送】) 你在抢演唱会门票,已经到了…

使用madExcept检测内存泄漏

代码异常堆栈跟踪:Mad Except 一、安装 官网 运行,选择madExcept5然后安装。 输入yes继续 二、使用 新建一个VCL项目 在project中多了一项设置 选择OK后会发现项目多了几个引用单元。 此时运行程序,再退出,会显示没有任何内存…

prober found high clock drift,Linux服务器时间不能自动同步,导致服务器时间漂移解决办法。

文章目录 一、场景二、问题三、解决办法(一)给服务器添加访问网络能力(二)手动同步1. 检查有没有安装ntp2. 没有安装ntp则离线安装ntp2.1 下载安装包2.2 安装2.3 启动 ntp 3. 设置内部时钟源3.1 编辑/etc/ntp.conf3.1 重启ntp服务…

2010-2020年全国30个省以GDP为核心的区域经济韧性数据(含原始数据+代码+结果)

2010-2020年全国30个省以GDP为核心的区域经济韧性数据(含原始数据代码结果) 1、时间:2010-2022年 2、来源:统计年鉴、各省年鉴、国家统计局 3、指标:地区生产总值 4、范围:30省 5、参考文献: 数字经济及其内部耦…

页面关键路径渲染详解

关键路径渲染 浏览器不会等待全部资源都下载完后才进行渲染,而是采用渐进式的渲染方式,本文就介绍一下这种渐进式的渲染方式。 当浏览器获取到用于呈现网页的资源后,通常就会开始渲染网页。那么究竟是在什么时候就会开始渲染? …

Visual Studio 2022 - QT 环境中文字符乱码问题

Visual Studio 2022 - QT 环境中文字符乱码问题 一、Visual Studio 2022 - Qt 环境 在 QT 中使用中文字符串常会出现乱码现象&#xff0c;如下&#xff1a;以下提供了几个解决方法&#xff0c;仅供参考 QString str "百香果真是一直可爱的小猫咪"; qDebug() <…

RK3568笔记六十:V4L2命令测试

若该文为原创文章,转载请注明原文出处。 测试V4L2是想移植韦老师的相机程序,但他使用的是V4L2方式采集摄像头。 而正点原子的rknn使用的是opencv。 这里记录测试过程 一、常用调试命令 1、抓取图像 使用 v4l2-ctl 抓取一帧图像:v4l2-ctl -d /dev/video0 --set-fmt-video…

EmptyDir-数据存储

1.EmptyDir EmptyDir是最基础的Volume类型&#xff0c;一个EmptyDir就是Host上的一个空目录。 EmptyDir是在Pod被分配到Node时创建的&#xff0c;它的初始内容为空&#xff0c;并且无须指定宿主机上对应的目录文件&#xff0c;因为kubernetes会自动分配一个目录&#xff0c;当…

vulnhub(12):bob 1.0.1(gpg文件解密)

端口 nmap主机发现 nmap -sn 192.168.72.0/24 ​ Nmap scan report for 192.168.72.169 Host is up (0.00020s latency). ​ 169是新出现的机器&#xff0c;他就是靶机 nmap端口扫描 nmap -Pn -sV 192.168.72.169 -p- --min-rate 10000 -oA nmap/scan 扫描开放端口保存到 nmap…

【Verilog学习日常】—牛客网刷题—Verilog快速入门—VL17

用3-8译码器实现全减器 描述 请使用3-8译码器和必要的逻辑门实现全减器&#xff0c;全减器接口图如下&#xff0c;A是被减数&#xff0c;B是减数&#xff0c;Ci是来自低位的借位&#xff0c;D是差&#xff0c;Co是向高位的借位。 3-8译码器代码如下&#xff0c;可将参考代码添…

论文阅读:Omni-Kernel Network for Image Restoration

论文地址&#xff1a;https://ojs.aaai.org/index.php/AAAI/article/view/27907 项目地址&#xff1a;https://github.com/c-yn/OKNet 发表时间&#xff1a;2024 图像恢复的目的是从一个退化的低质量的观测中重建一个高质量的图像。最近&#xff0c;Transformer模型由于其强大…

upx魔改壳大全

一&#xff0c;ELF程序 &#xff08;一&#xff09;overlay_offset被修改 将此标志修改为正确的***F4 00 00 00***即可用工具正常脱壳 二&#xff0c;EXE程序 &#xff08;一&#xff09;upx标志位被修改 将三个错误标志修改为正确的***UPX0***UPX1***UPX!***即可用工具正常…

利用JAVA写一张纸折叠珠穆拉玛峰高度

public class zhumulama {public static void main(String[] args) {double height 8848860;double zhi 0.1;int count 0;while(zhi < height){zhi*2;//每次折完厚度count;//计数}System.out.println("一共需要折"count"次");System.out.println(&qu…

灵当CRM系统index.php存在SQL注入漏洞

文章目录 免责申明漏洞描述搜索语法漏洞复现nuclei修复建议 免责申明 本文章仅供学习与交流&#xff0c;请勿用于非法用途&#xff0c;均由使用者本人负责&#xff0c;文章作者不为此承担任何责任 漏洞描述 灵当CRM系统是一款功能全面、易于使用的客户关系管理&#xff08;C…

C++ ——日期类的实现和注释浅解

目录 日期类实现 1. 日期天数 2. 日期天数 3. 日期-天数 3.1 日期-天数 4. 比较运算符 5. 日期-日期 6. 代码汇总 Date.h Date.cpp Test.cpp 日期类实现 1. 日期天数 // d1 100 //可以改变d1&#xff0c;所以可以直接相加 Date& Date::operator(int day) {//如…

2024年中国研究生数学建模竞赛F题思路代码模型文章——X射线脉冲星光子到达时间建模

2024年中国研究生数学建模竞赛F题 X射线脉冲星光子到达时间建模 脉冲星&#xff08;Pulsar&#xff09;是高速自转的中子星&#xff0c;具有体积小、密度大的特征。脉冲星的高速自转会形成脉冲&#xff0c;而脉冲的周期其实就是脉冲星的自转周期 。在旋转过程中&#xff0c;脉…

2024年华为杯研赛(B题)数学建模竞赛解题思路|完整代码论文集合

我是Tina表姐&#xff0c;毕业于中国人民大学&#xff0c;对数学建模的热爱让我在这一领域深耕多年。我的建模思路已经帮助了百余位学习者和参赛者在数学建模的道路上取得了显著的进步和成就。现在&#xff0c;我将这份宝贵的经验和知识凝练成一份全面的解题思路与代码论文集合…

CleanClip --- 为Mac用户打造的智能剪贴板管理利器

CleanClip是一款专为Mac用户设计的强大剪贴板管理工具&#xff0c;旨在提升用户的工作效率和数据管理体验。它通过智能化的剪贴板内容管理&#xff0c;实现了Mac系统与用户操作之间的无缝衔接。CleanClip支持多种连接方式&#xff0c;包括系统级的快捷操作和自定义快捷键&#…

虚拟机VMware安装+centos8

1、安装虚拟机 这里以VMware-workstation-full-14.1.1-7528167.exe为例进行安装虚拟机。 注意win11&#xff0c;不能安装14的版本&#xff0c;新建虚拟机打开会崩的。建议换成16版本的。 此处安装的为centos7版本&#xff0c;双击就可以开始安装了。 选择下一步 勾选我接受&a…

Node.js官网无法正常访问时安装NodeJS的方法

目录 一、使用 nvm 进行安装二、通过阿里云开源镜像站进行安装 一、使用 nvm 进行安装 此时如果直接使用 nvm install 命令进行安装会报错&#xff1a; nvm install 16.14.0Could not retrieve https://nodejs.org/dist/latest/SHASUMS256.txt. Get “https://nodejs.org/dis…