聊聊 AI 平台存储方案和选型

news2025/1/19 8:19:09

最近火爆全网的 ChatGPT 再次带来一股 AI 热潮。 过去的五年,AI 快速发展并应用到很多领域中。作为一家存储企业,我们也感受到了 AI 行业的活力,和我们交流团队中,AI 企业越来越多,有自动驾驶、蛋白质结构预测、量化投资等不同行业。

AI 场景给数据存储带来新挑战,原有的存储方案并不能完好地满足。今天借这篇文章抛砖引玉,和大家分享我们看到的AI场景的特点和趋势,以及现有的解决方案有哪些,他们的优劣势分别是什么。在文末,我们比较了 12 款共享文件系统,欢迎一起讨论交流。

01- AI 数据工程的存储挑战

高吞吐的数据访问挑战。 在 AI 场景中,随着企业使用 GPU 越来越多,底层存储的 IO 已经跟不上计算能力。 企业希望存储系统能提供高吞吐的数据访问能力,充分发挥 GPU 的计算性能。举个例子,在智能制造生产线上通过高精度相机给物品拍照,用缺陷识别模型自动找出质量问题。这类模型的训练集只有 1~2 万张图片,但每张都是 GB 大小的高精度照片,总容量有 10TB 了。训练过程中,如果存储系统吞吐不足,会成为 GPU 训练的瓶颈。

AI 场景对于 10 亿以上文件规模的存储管理和高性能访问的需求越来越强。在自动驾驶领域,用于模型训练的是百 KB 的小图片,一个训练集由数千万张百 KB 图片组成,一张图片就是一个文件,总的训练数据多达几十亿、甚至一百亿文件。海量小文件管理一直是文件存储领域的难题。

为热点数据提供吞吐扩展能力。 在量化投资领域,用于模型训练的金融市场数据量相比 CV 领域小了很多,但是需要被多个研究团队共享,这会带来数据热点问题,就是数据存储的磁盘吞吐已经用满,但是仍然不能满足应用端的需求。

除了由 AI 场景带来了新的数据模式,基础的计算环境也发生了巨大的变化。

如今在资源建设中,上云几乎已经是默认选项。虽然很多团队会建设自己的 IDC,但也会做私有云的设计。同时,Kubernetes,已经成为了云原生架构的事实标准。 我们看到在 AI 业务中,整个 Data Pipeline 都构建在 Kubernetes 上,算法工程师在平台上申请资源,使用 Notebook 编写代码完成算法调试,使用 Argo、Airflow 等工作流引擎编排数据处理工作流,使用 Fluid 管理数据集,使用 BentoML 部署模型到应用中。云原生技术栈也是企业在建设存储平台时,普遍会考量的一个因素。 随着云计算的成熟,AI 业务更多转向大规模分布式集群完成。集群中的节点数大幅度增加,存储系统如何面对 Kubernetes 集群中上万 Pod 的并发访问是新的挑战

基础架构的IT人员面临来自业务场景、计算环境的巨变,反观现有的存储方案,软硬一体机普遍存在这样的痛点:1)不弹性;2)没有分布式高可用;3)集群规模受限,已经越来越少被使用;而分布式文件系统,比如 GlusterFS,CephFS,还有面向 HPC 设计的 Lustre, BeeGFS 和 GPFS。它们都是面向物理机、裸磁盘设计的存储系统,虽然可以部署大容量的集群,但是在云环境中同样不能提供弹性容量,更无法提供弹性的吞吐能力,在上百亿文件的存储需求上也已经力不从心。

结合上文提到的这些挑战,我们罗列了对AI场景至关重要的存储能力,方便企业在选择存储产品时进行比较。

02- AI 数据存储需要的关键能力

第一: POSIX 兼容性和数据一致性

在 AI/ML 领域,POSIX 是数据访问最普遍的接口。上一代分布式文件系统,除了 HDFS,也都兼容 POSIX,但是近几年云上的产品在 POSIX 支持上的做法并不一致,有几点需要大家特点注意。

  1. 兼容度。用户不能只是通过「产品兼容 POSIX」这样的描述判断,可以使用 pjdfstest 和 LTP 框架进行测试,我们做过一次云文件系统的 POSIX 兼容性测试供大家参考。

  2. 数据强一致性保证,这是保证计算正确性的基础。存储系统有多种不同的一致性实现,比如对象存储通常是最终一致性(Eventually Consistency),文件系统通常是强一致性(Strong Consistency),我们做存储系统选型时需要注意。

  3. 用户态还是内核态的选择。早期开发者选择内核态,因为这种方式 I/O 路径有可能做到最极致的优化。但是这几年,我们遇到了越来越多「逃离内核态」的开发者,原因有这样几个:第一,使用内核态需要文件系统客户端与内核版本绑定,然后 GPU 和高性能网卡的驱动往往也需要适配特定的内核版本,几样东西排列组合对内核版本的选择和运维是很大的负担。第二,内核态客户端的异常会宕住宿主机操作系统,这一点对于 Kubernetes 平台是非常不友好的。第三,用户态的 FUSE 库也在持续迭代,性能有了很大提升,在 JuiceFS 的客户中已经很好的支持了自动驾驶感知模型训练、量化投资策略训练等业务需求,可见在 AI 场景中已经不是性能瓶颈。

第二:吞吐的线性扩展能力

不同的文件系统,在扩展吞吐能力时的原理是截然不同的。上一代分布式存储系统的设计中,比如 GlusterFS,CephFS,还有面向 HPC 领域的 Lustre, BeeGFS 和 GPFS ,大多采用全闪方案构建。这类存储系统的吞吐峰值等于集群中的磁盘总性能,用户需要提高集群的吞吐能力,只能为集群扩容,增加更多的磁盘

但是,当有些用户对容量的需求和对吞吐的需求并不平衡,如对少量热点数据有非常高的吞吐需求。这些传统的文件系统,此时也只能为整个集群扩容,造成容量的浪费

举个例子,一个 500TB 容量的集群,如何使用 8TB 一块的 HDD(磁盘),2副本需要 126 块盘,每块盘的吞吐是 150MB/s,集群的理论最大吞吐是 126x150 = 18GB/s。如果业务需要 60GB/s 的吞吐,有两个方案:

1)换 2TB 一块的 HDD 盘(吞吐也是 150MB/s),总共需要 504 块盘;
2)换 8TB 一块的 SATA SSD(吞吐是 500MB/s),还是 126 块盘。
第一个方案因为多出 4 倍磁盘数量,集群的节点数要相应增加。第二个方案由 HDD 换成 SSD,成本也会大幅上升。

可见,在容量、性能和成本三角上很难去平衡,基于这三个角度的容量规划也就成为了一个难题。因为事先规划,我们无法预测真正业务的发展、变化和其中的细节。因此,如果能将存储容量与性能的扩展解耦,对企业来说将是一件事半功倍的方法,这也是 JuiceFS 在设计时就考虑到的需求

同时,热点数据也是 AI 场景中的一个常见问题, JuiceFS 缓存分组机制,就可以把热数据自动分配到不同的缓存组中,相当于在计算过程中可以自动将热点数据复制多份,来获得更高的磁盘吞吐,计算完成后又可以自动回收这些缓存空间。

第三:海量文件

管理 100 亿文件,对存储系统有三方面要求:

  1. 弹性扩展。JuiceFS 用户的真实场景就是从数千万扩展到数亿,再到数十亿,这个过程靠给几台机器加配置是不行的,一定是存储集群增加节点实现横向扩展,才能最好的支持用户业务成长。

  2. 横向扩展时的数据分布。在系统扩展的过程中,很多系统的数据分布设计是基于目录名前缀做哈希分布的,这种规则在真实业务数据中可能会造成分布不均衡。

  3. 扩缩容复杂度。 随着文件数的增加,系统扩容是否简单,运维是否简单稳定并且有足够的工具来掌控存储集群,是海量文件存储系统一直的挑战。有些系统在文件数量增长到几十亿之后会越来越「脆弱 」。容易运维,稳定性高一定是业务增长需要的。

第四:在 Kubernetes 环境中的并发负载能力与功能支撑

当我们查看存储系统的规格,有一部分存储系统会明确告知并发访问上限,用户需要结合业务去做实际的压测。同时,客户端多了,也需要进行 QoS 治理,包括每个客户端的流量控制,对读写进行临时封禁策略等,这样才能保证整个平台的管理可行性。

在 Kubernetes 中还要注意 CSI 的设计和支持的功能。比如挂载进程的部署方式,是否支持 ReadWriteMany,Subpath 挂载,Quota 配额,热更新等等。

第五:成本

成本是一个非常综合的概念,软硬件的采购成本是容易计算的,人们容易忽略的是运行和维护成本。
AI 业务规模从小到大,数据量的增长跨越了两个、甚至三个数量级。存储系统容量和吞吐要有足够的扩展能力,而且要方便调整。

在过去机房中建设 Ceph、Lustre、BeeGFS 等系统时,因为集群扩容不方便,一般都按年度规划用量,然后采购机器,等待到位上架,再完成软件配置的变更,整个时间周期一般需要 2-3 个月,单单服务器准备好,完成软件上的扩容配置,也需要 1 周左右。这里的时间成本往往是企业中最昂贵的成本,而且往往不容易被关注。如果存储系统在容量和性能上可以弹性配置,容易扩展,意味着业务也能更快推向市场

再看第二个容易被忽视的效率成本。从 AI 业务流程看,它是一个非常长的 Data Pipeline,每个环节都需要和存储系统打交道,包括数据的采集、清晰转换,标注、特征提取、训练、回测,到上生产环境。在 Data Pipeline 中,存储系统会影响到每一个环节的效率。而企业在一个业务阶段内使用的数据往往不超过全部数据的 20%,对于这部分热数据有很高的性能需求,其他温冷的数据偶尔访问或不访问。对热数据的需求是高性能,对温冷数据的需求是低成本。在 Ceph、Lustre、BeeGFS 等系统中很难同时满足这两点

所以我们可以看到很多团队会构建多套存储系统应对不同的需求,常见的方案是用一套对象存储做全部数据的归档,做到大容量低成本,但性能不高,在 Data Pipeline 上承担数据摄取和预处理、清洗环节。在对象存储完成数据的预处理并不是最高效的方式,但因为数据量太大,出于成本原因往往是不得已的选择。然后工程师又需要等待大量时间把数据复制到训练用的文件存储中,完成模型训练环节。

所以,除了存储系统的软硬件成本,集群运维(包括采购供应链)投入的时间成本,业务在多个存储系统之间管理数据所投入的时间成本都应该计算在总成本中

03- 存储系统选型比较

最后部分,我们把前文提到的存储产品做个比较,方便大家选型时参考。

在过去 10 年里,云计算快速发展。上一代在机房中设计的存储系统并不能集成云带来的优势,比如弹性伸缩。这期间,对象存储从无到有,为我们带来了极致的扩展性、可用性和低成本,但是它在 AI 场景中也有明显的短板。

文件存储在 AI 和其他计算场景中有着不可替代的便利性和优势,如何利用好云和云上基础设施,设计新一代文件存储是新课题,这也是 JuiceFS 过去 5 年所做的。

如有帮助的话欢迎关注我们项目 Juicedata/JuiceFS 哟! (0ᴗ0✿)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/161661.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【HTML】【消失的花木兰】花木兰:三兔蹦迪走,安能辨我是兔子?

前言 (改编)  某日,参军后的花木兰刚回到家乡,却不料遇上抓拿自己的官兵… 因此,花木兰变成兔子躲了起来,你能否找到躲起来的花木兰呢?一起来拭目以待… 一、游戏名称与游戏规则&#xff08…

joinquant量化数据精准吗?

在股票量化投资中,joinquant量化数据起到很大的作用,因为joinquant量化平台的数据能够从众多只股票数据中,能够一一罗列出来,也就是说,joinquant量化数据可以在计算和分析数据模型中,能够帮助投资者找到他们…

【SpringBoot1】创建第一个SpringBoot项目

创建SpringBoot项目可以通过两种方式: 1、通过访问:https://start.spring.io/,SpringBoot的官方网站进行创建SpringBoot项目; 2、通过工具(例如:Idea)创建SpringBoot项目。本次使用IDEA创建第一…

数据结构进阶 红黑树

作者:小萌新 专栏:数据结构进阶 作者简介:大二学生 希望能和大家一起进步! 本篇博客简介:介绍高阶数据结构: 红黑树 红黑树红黑树的概念红黑树的性质红黑树节点的定义红黑树的插入情况一情况二情况三红黑树的验证红黑…

远程监控网络摄像头通用指南

一、引言 随着物联网技术的发展,越来越多的场景需要我们通过技术手段去感知。画面和声音相当于机器的眼睛和耳朵,有了这些实时数据我们可以做很多事情,比如车牌识别、人脸识别、体温识别等等。本文将全方位介绍网络摄像头如何接入软件的实现…

2022.12 青少年机器人技术等级考试理论综合试卷(四级)

2022年12月 青少年机器人技术等级考试理论综合试卷(四级) 分数: 100 题数: 30 一、 单选题(共 20 题, 共 80 分) 1.以下关于 Arduino C 语言的说法, 正确的是?( ) A.setup() 函数和…

SpringMVC Interceptor拦截器

SpringMVC中的拦截器用于拦截控制器方法的执行,执行在Controller前后,和视图渲染完成后。如下图所示: 一、创建拦截器 继承HandlerInterceptor 接口,并实现其中的方法 public class FirstInterceptor implements HandlerInter…

儿子小伟刚刚再婚,大衣哥就河南新乡商演,这是给孙子攒奶粉钱吗

现如今的社会,因为人们的攀比心理,结一次婚能让人脱一层皮,尤其是农村赚钱难,结婚花钱就更难了。其实不只是普通老百姓,强如农民歌唱家大衣哥这样的人,也架不住儿子一而再,再而三的结婚。 大衣哥…

Qt基础之二十一:QtRO(Qt Remote Object)实现进程间通信

这里将QtRO单独从上一篇Qt基础之二十:进程间通信拎出来,因为它是Qt5.9以后新加入的模块,专门用于进程间通信。其使用步骤有点类似之前介绍过的RPC(Remote Procedure Call)框架:gRPC和thrift,关于这两个框架详见 Qt中调用thrift和Qt中调用gRPC QtRO基于Socket封装,不仅支…

小程序开发——模板与配置

一、WXML 模板语法 1.数据绑定的基本原则 ① 在 data 中定义数据 ② 在 WXML 中使用数据2.在 data 中定义页面的数据 在页面对应的 .js 文件中,把数据定义到 data 对象中即可:3. Mustache 语法的格式 把data中的数据绑定到页面中渲染,使用…

【测试】java+selenium环境搭建

努力经营当下,直至未来明朗! 文章目录一、下载安装谷歌浏览器二、下载谷歌驱动三、常见问题&解决方法1. SessionNotCreatedException2. The version of ChromeDriver only support xxxxxxxxx3. The path to the driver executable the path to普通小…

5-2输入/输出管理-I/O核心子系统

文章目录一.I/O调度二.设备保护三.SPOOLing技术(假脱机技术)四.设备的分配与回收1.设备分配时应该考虑的因素2.静态分配和动态分配3.设备分配管理中的数据结构(1)设备控制表DCT(Device Control Table)&…

MySQL进阶篇之Linux安装MySQL8.0.26

Linux安装MySQL 需要更多安装MySQL的教程,请查阅Linux学习笔记——MySQL数据库管理系统安装部署 1、MySQL下载地址:https://downloads.mysql.com/archives/community/ 2、在FinalShell中输入rz,然后选择下载好的MySQL安装包,进行上…

【数据质量】一起聊聊数据质量

Garbage In, Garbage Out ​ 数据质量关注的是数据的健康,数据健康和人的健康很相似,人的健康会影响人的生活品质,同样数据的健康会影响数据的使用品质。为了保证我们健康,我们需要养成良好的生活习惯,膳食平衡&#x…

Open3D DBSCAN聚类(Python版本)

文章目录 一、简介二、算法步骤三、实现代码四、实现效果参考资料一、简介 DBSCAN算法,全称为“Density-Based Spatial Clustering of Applications with Node”,也就是“基于密度的聚类”。此类算法是假设聚类结构能通过样本分布的紧密程度确定,从样本密度的角度来考察样本…

亿发浅析:财务一体化功能与管理流程

在信息时代的背景下,企业信息化已成为中小企业降低成本、提高效率、提高竞争力的重要手段,也是中小企业实现长期可持续发展的有效途径。 信息化对企业管理的好处是显而易见的,如加快信息流,提高信息资源利用率,促进企业…

STM32使用FSMC驱动LCD

关于FSMC驱动LCD的函数LCD_WR_REG的理解首先你需要理解使用结构体LCD_BASE若有错误,请各位师兄师姐指点原理框图重要的函数理解关于LCD_BASE和函数LCD_WR_REG(u16 regval)的理解至于0X6C00 0802地址也是一样的。首先要说的是这是我个人的理解…

数字IC设计、验证、FPGA笔试必会 - Verilog经典习题 (五)位拆分与运算

数字IC设计、验证、FPGA笔试必会 - Verilog经典习题 (五)位拆分与运算 🔈声明: 😃博主主页:王_嘻嘻的CSDN博客 🧨未经作者允许,禁止转载 🔑系列专栏:牛客Veri…

Burp Suite Professional 2023.1 (macOS, Linux, Windows) - Web 应用安全、测试和扫描

Burp Suite Professional, Test, find, and exploit vulnerabilities. 请访问原文链接:https://sysin.org/blog/burp-suite-pro-2023,查看最新版。原创作品,转载请保留出处。 作者主页:www.sysin.org Burp Suite Professional&a…

《后端技术面试 38 讲》学习笔记 Day 07

《后端技术面试 38 讲》学习笔记 Day 07 21丨分布式架构:如何应对高并发的用户请求 原文摘抄 当同时访问系统的用户不断增加的时候,需要消耗的系统计算资源也不断增加,需要更多的 CPU 和内存去处理用户的计算请求,需要更多的网络…