AI存储解决案例分享

news2024/11/27 8:35:04

AI数据管道(Data Pipeline)是指在AI项目中,数据从原始状态到最终可用模型的整个处理流程,包括数据采集、清洗、转换、分析、训练模型、验证模型直至部署和监控等多个环节。

图片

  • 在AI训练和推理过程中,多个管道可能同时读取大量数据用于训练或写入处理后的数据,这会显著增加存储系统的I/O(输入/输出)负载,可能导致存储性能瓶颈。

  • 随着AI模型和数据集的规模不断扩大,存储容量需求急剧增长,尤其是考虑到模型版本管理、历史数据保留和备份需求。

  • 模型训练和推理需要快速访问数据以保持计算资源(如GPU)的高效利用,低效的存储访问会导致GPU空闲等待,影响整体处理速度。

  • 分布式存储和数据并行处理策略要求存储系统能够高效地跨多个节点分配和同步数据,这对存储的网络带宽和一致性协议提出更高要求。

图片

AI应用程序在处理大规模数据集和复杂模型训练时,往往展现出独特的IO模型,特别是当提到"数百万个小IO读写操作"时,AI工作负载,尤其是在深度学习训练阶段,经常涉及对大量小块数据的频繁读取和写入操作。这些小I/O操作可能是由于以下几个原因:

  • 模型参数更新:在训练过程中,模型的权重和偏置等参数需要不断微调,每次调整可能只涉及到模型参数的一小部分,导致频繁的小数据块写入。

  • 数据预处理:AI应用通常需要对原始数据进行预处理,如图像裁剪、标准化等,这个过程可能产生大量的小I/O操作。

  • 批次处理:为了高效利用计算资源,AI训练通常采用批次处理,每个批次可能只包含少量样本,导致对数据集的连续小批量读取。

小IO请求相比大块连续读写更容易造成存储设备的随机访问压力,降低IOPS和吞吐量。AI训练对数据访问延迟非常敏感,频繁的小I/O可能会累积延迟,影响训练效率和模型收敛速度。大量并发的小I/O请求可能导致存储资源过度碎片化,影响存储空间的有效利用率。

此外,训练数据存储的读取带宽需求存在巨大差异,这一现象主要取决于两个关键因素:模型的计算约束程度(compute boundness)和输入数据的大小。

1. 模型的计算约束程度(Compute Boundness)

  • 定义与影响:计算约束指的是模型在运行过程中,其计算能力(CPU或GPU等处理器的算力)相对于数据读取速度的限制程度。如果一个模型的计算密集度非常高,意味着它的大部分执行时间都花在了复杂的数学运算上,而不是等待数据从存储中读取出来。反之,如果模型较为依赖数据输入,且计算相对简单,则可能更多受限于数据读取速度。

  • 读带宽需求:对于计算密集型的模型,即使数据读取速度稍慢,对整体训练速度的影响也可能相对较小,因此对存储读取带宽的需求较低。相反,如果模型不是特别计算密集,而是频繁等待数据输入,那么就需要高速的存储读取能力,以减少I/O等待时间,进而提高训练效率。因此,计算约束程度低的模型对存储读带宽的要求通常更高。

2. 输入数据的大小

  • 影响因素:输入数据的大小直接影响了模型训练过程中每次迭代需要从存储中读取的数据量。大型模型或者处理高分辨率图像、长序列文本等复杂数据的任务,往往需要处理更大体积的数据集,这自然就要求存储系统能提供更高的读取带宽。

  • 读带宽需求:随着输入数据大小的增加,为了保证数据能够及时供给计算单元,避免计算资源空闲等待,对存储系统读取带宽的需求也随之上升。例如,在处理高分辨率图像分类或大规模语言模型训练时,由于每次迭代需要从存储中加载大量数据,因此对读带宽的需求远高于处理小规模或低维度数据的模型。

图片

鉴于上述因素,为了优化训练效率,实践中可能采取以下策略:

  • 分层存储:采用多层次存储方案,将频繁访问的数据或活跃数据缓存在高速存储(如SSD)中,而较少访问的数据则存储在低成本但容量大的存储(如HDD)中。(扩展阅读:深度剖析-大容量QLC SSD为何遭疯抢?)

  • 数据预处理:在训练前进行数据预处理,如数据压缩、数据增强等,减少实际需要从存储中读取的数据量。

  • I/O优化:利用软件层面的优化,如异步I/O、数据预读取策略,减少I/O等待时间,提高数据读取效率。

  • 分布式训练:采用分布式训练策略,将数据集分割到多个计算节点上,每个节点独立处理一部分数据,这样可以分散对单一存储系统的读取压力,同时利用多个存储设备的总带宽。

  • 分布式存储:采用分布式文件系统或对象存储解决方案,通过并行处理小I/O请求来分散负载,提高整体系统吞吐量。

  • 数据预加载和预处理:提前将数据加载到内存或更快的存储层,并进行必要的预处理,减少实时I/O需求。

针对AI场景的存储方案,我们来举几个案例:

1.服务器厂商Supermicro提出的优化的存储解决方案:分层存储

图片

提供由10-20%的闪存和80-90%的数据湖组成的存储方案,平衡了性能与成本。提到的解决方案已在一家跨国高科技制造企业的环境中成功部署,支持了25PB的存储需求,证明了其在实际应用中的可行性和效率。

图片

2.云厂商-全栈AI解决方案

(1)阿里云

在实际生产过程中,AI 场景分为训练和推理两个流程。其中训练环节需要消耗大量的算力,为了提升算力资源的生产效率,对于数据集和 checkpoint 的读写加速至关重要。阿里云文件存储 CPFS 采用全并行 IO 架构,数据和元数据分片存储在所有节点上,单文件读写可以利用所有节点带宽,同时 CPFS 的弹性文件客户端可以利用近计算端缓存,进一步加速数据集和 checkpoint 读写。产品性能指标最高提供 20TB/s 吞吐和 3 亿 IOPS,在超大规模训练场景下,也能快速完成 checkpoint 读写,加速 AI 训练。

在大规模推理环节时,需要多台 GPU 协同处理,需要短时间内加载模型文件至所有 GPU 服务器的内存。阿里云对象存储 OSS 推出加速器 2.0 功能,以应对存储在对象存储 OSS 中大模型的加载需求。

在整个大模型的业务流程当中,存储数据量庞大,且面对不同流程阶段时,上层应用需要使用不同的数据格式,极为容易发生数据孤岛的情况。阿里云利用对象存储 OSS 的能力,构建统一的数据湖存储,利用对象存储 OSS 的海量扩展、低成本的存储能力,搭建 AI 场景数据存储底座。

图片

(2)腾讯云

腾讯云宣布云存储解决方案面向AIGC场景全面升级,能够针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。数据显示,采用腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

图片

据介绍,腾讯云AIGC云存储解决方案主要由对象存储COS、高性能并行文件存储CFS Turbo、数据加速器GooseFS和数据万象CI等产品组成。目前,已经有80%的头部大模型企业选择了腾讯云AIGC云存储解决方案,包括百川智能、智谱、元象等明星大模型企业。


参考文献:

  • CMSS24-Cardente-Storage-Requirements-for-AI

  • CMSS24-McLeod-Storage-Architectures-Optimized-for-AI-Workloads

  • white_paper_SMCI_AMD_Accelerating_AI_Data_Pipelines

  • https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

  • https://scoop.market.us/artificial-intelligence-market-news/

  • https://developer.nvidia.com/zh-cn/blog/tips-on-scaling-storage-for-ai-training-and-inferencing/

  • https://developer.aliyun.com/article/1390479


如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • 浅析英伟达GPU NCCL P2P与共享内存

  • 3D NAND原厂:哪家芯片存储效率更高?

  • 大厂阿里、字节、腾讯都在关注这个事情!

  • 磁带存储:“不老的传说”依然在继续

  • 浅析3D NAND多层架构的可靠性问题

  • SSD模拟器MQSim简介与资料分享

  • 孙凝晖院士万字长文|人工智能与智能计算的发展

  • 探究NVMe SSD HMB应用场景与影响

  • 深度剖析:大容量QLC SSD为何遭疯抢?

  • SSD突然掉电,是谁保护了用户数据?

  • 漫谈HAMR硬盘的可靠性

  • 万物皆可计算|下一个风口:近内存计算

  • SSD数据错误如何修复?

  • CXL与PCIe世界的尽头|你相信光吗?

  • 全景剖析SSD SLC Cache缓存设计原理

  • 存储革新:下一代低功耗PCM相变存储器

  • 3D DRAM虽困难重重,最快明年到来

  • 字节跳动入局存储内存SCM

  • PCIe 7.0|不要太卷,劝你先躺平

  • SSD LDPC软错误探测方案解读

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 对于超低延迟SSD,IO调度器已经过时了吗?

  • 浅析CXL P2P DMA加速数据传输的原理

  • 浅析LDPC软解码对SSD延迟的影响

  • 为什么QLC NAND才是ZNS SSD最大的赢家?

  • SSD在AI发展中的关键作用:从高速缓存到数据湖

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1833352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企业社会责任认证:提升品牌价值的关键

社会责任认证(Social Responsibility Certification)是现代企业在经营过程中主动履行社会责任、尊重人权、保护环境等方面所获得的认证。这不仅是企业管理的要求,更是企业赢得社会信任和支持的关键。 社会责任认证是企业在经营过程中&#xf…

示例:WPF中TreeView自定义TreeNode泛型绑定对象来实现级联勾选

一、目的&#xff1a;在绑定TreeView的功能中经常会遇到需要在树节点前增加勾选CheckBox框&#xff0c;勾选本节点的同时也要同步显示父节点和子节点状态 二、实现 三、环境 VS2022 四、示例 定义如下节点类 public partial class TreeNodeBase<T> : SelectBindable<…

基于Java技术“漫画之家”系统

开头语&#xff1a;你好呀&#xff0c;我是计算机学姐码农小野&#xff01;如果有相关需求&#xff0c;可以私信联系我。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;Java技术&#xff0c;B/S结构&#xff0c;SpringBoot框架 工具&#xff1a;MyEc…

【机器学习300问】122、RNN面临哪些问题?

循环神经网络&#xff08;RNN&#xff09;主要面临梯度消失和梯度爆炸两个核心问题&#xff0c;这严重影响了其处理长期依赖的能力。此外&#xff0c;还存在一些其他的技术挑战。 一、两个主要问题 &#xff08;1&#xff09;梯度消失和梯度爆炸问题 这是RNN中最显著的问题之…

⭐ ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch3 贝尔曼最优公式 【压缩映射定理】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 学堂在线 习题 2、过 电子书&#xff0c;补充 【下载&#xff1a;本章 PDF 电子书 GitHub 界面链接】 [又看了一遍视频] 3、总体 MOOC 过一遍 习题 学堂在线 课程页面链接 中国大学MOOC 课程页面链接 B 站 视频链…

【蜂窝物联】物联网智能控制器助力各种自动化控制领域科学管控

【蜂窝物联】4G远程温湿度传感器科学管理利器&#xff0c;应用无处不在 2024-06-17 14:09 发布于&#xff1a;福建省 随着信息化的不断推进&#xff0c;对各行各业都是一次现代化升级的契机&#xff0c;比如工厂的温湿度监测工作&#xff0c;完全可以由无线温湿度监控方案…

C#知识|模块化分层学习笔记

哈喽&#xff0c;你好&#xff0c;我是雷工&#xff01; 01 基本分层 典型的两层结构&#xff1a;由UI层 数据访问层 实体类构成。 其中实体类不算一层&#xff0c;本质是一个数据载体。 02 模块化分层 模块概念&#xff1a;在.NET平台中&#xff0c;模块主要是指类库项目。…

AI时代的数据治理:挑战与策略

随着人工智能&#xff08;AI&#xff09;技术的突飞猛进&#xff0c;我们已迈进智能时代的大门。在这个新时代里&#xff0c;数据无疑成为推动AI创新与进步的核心力量。然而&#xff0c;与此同时&#xff0c;数据治理的紧迫性也日益凸显&#xff0c;它成为确保AI系统有效、公正…

晨持绪科技:抖音开网店能不能赚钱

在当今社交媒体时代&#xff0c;抖音作为一款流行的短视频平台&#xff0c;不仅为用户提供了展示才艺、分享生活的空间&#xff0c;也逐渐成为电子商务的新兴战场。不少商家和个人通过开设抖音网店寻求盈利机会。 抖音网店的赚钱可能性与多个因素密切相关。它提供了一个庞大的潜…

英特尔 “AI” 科通:英特尔AI大模型应用前瞻

亲爱的科技探险家、前沿探索者、对未来深具好奇心的您&#xff0c; 身处人工智能引领的时代&#xff0c;我们目睹着行业的革命性变革。技术的创新不仅改变着我们的日常&#xff0c;更重新定义着我们对未来的期许。今天&#xff0c;怀着无限激情和期待&#xff0c;我们邀请您参…

全面了解三大 AI 绘画:Midjourney、Stable Diffusion、DALL·E 的区别和特点

大家好&#xff0c;我是设计师阿威 在当前&#xff0c;比较流行的 AI 绘画软件主要有三个&#xff0c;分别是&#xff1a;StabilityAI 公司的 Stable Diffusion&#xff0c;OpenAI 公司的 DALLE2&#xff0c;以及更为大众所熟知的&#xff0c;Leap Motion公司创始人 David Hol…

2024年6月10日~2024年6月16日周报

文章目录 一、前段时间工作二、完成情况2.1 可变形卷积的学习2.1.1 Introduction-介绍2.1.2 Related Work-相关工作2.1.3 Method-方法2.1.3.1 可变形卷积动态属性的重认识2.1.3.2 Speeding up DCN—加速DCN 2.2 部署可变形卷积 三、假期计划 一、前段时间工作 在之前一段时间主…

【多视图感知】BEVFormer: Learning Bird’s-Eye-View Representation

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers 论文链接:http://arxiv.org/abs/2203.17270 代码链接:https://github.com/fundamentalvision/BEVFormer 一、摘要 本文提出了一种名为BEVFormer的新框架&am…

Marin说PCB之orcad-capture原理图封装库的创建总结----01

今天是个不错的日子&#xff0c;我早上一出门刚骑车到半路就开始下大雨了&#xff0c;可是天气预报上明明说的没有雨啊&#xff0c;所以说天气预报就像是女人的脾气一样&#xff0c;难以揣摩啊&#xff0c;也尽量少去揣摩吧。 小编我刚刚到公司&#xff0c;就收到美国分部同事J…

Nginx + KeepAlived高可用负载均衡集群

目录 一、Keepealived脑裂现象 1.现象 2.原因 3.解决 4.预防 二、实验部署 1.两台nginx做初始化操作并安装nginx 2.四层反向代理配置 3.配置高可用 4.准备检查nginx运行状态脚本 5.开启keepalived服务并测试 一、Keepealived脑裂现象 1.现象 主服务器和备服务器都同…

喜讯 | 全视通获得珠海市第七届“市长杯”工业设计大赛三等奖

近日&#xff0c;在珠海市举行的第七届“市长杯”工业设计大赛颁奖典礼上&#xff0c;珠海全视通信息技术有限公司&#xff08;以下简称“全视通”&#xff09;凭借创新的“医护对讲一体终端机”产品&#xff0c;历经激烈的竞争和严格的评选流程&#xff0c;包括大赛宣传发动、…

移植案例与原理 - startup子系统之syspara_lite系统属性部件 (2)

系统属性部件syspara_lite负责提供获取与设置操作系统相关的系统属性&#xff0c;包括默认系统属性、OEM厂商系统属性和自定义系统属性。为满足OpenHarmony产品兼容性规范&#xff0c;产品解决方案需要实现获取设备信息的接口&#xff0c;如&#xff1a;产品名、品牌名、厂家名…

手持气象仪:科技与自然交汇的奇妙工具

TH-SQ5在广袤无垠的大自然中&#xff0c;天气总是瞬息万变&#xff0c;让人难以捉摸。然而&#xff0c;随着科技的进步&#xff0c;人类已经能够借助各种先进的仪器来预测和监测天气变化&#xff0c;其中&#xff0c;手持气象仪便是其中的佼佼者。 手持气象仪&#xff0c;顾名…

聚焦 Navicat 17 新特性 | 查询与配置的革新之处

随着 Navicat 17 的发布&#xff0c;引起业界热烈讨论与关注&#xff0c;这也标志着 Navicat 的产品力再次飞跃。新版本引入的众多创新特性极大地提升了用户在数据库管理和数据分析方面的体验&#xff0c;涵盖模型设计与同步、数据字典、数据分析&#xff08;data profiling&am…

安卓手机删除文件怎么找回?2个方法,一键救援错过的数据

我们通过手机拍照、录音、录像、浏览网页、社交互动等方式记录和分享生活中的每一个瞬间。然而&#xff0c;手机中的数据也是我们最容易误删的。 当我们不小心删除了重要的文件或数据时&#xff0c;将给生活和工作带来不小的困扰。那么&#xff0c;删除文件怎么找回呢&#xf…