MinIO DataPOD 目标锁定 GPU Direct 并行文件系统

news2024/9/22 7:30:01

MinIO 推出针对 AI 应用的 DataPOD 参考架构

MinIO 设计了一种旨在为 AI 训练提供数据的 exascale DataPOD 参考架构。这家开源对象存储软件供应商正将其可扩展至100 PiB(即大约112.6 PB)的单元定位为一种替代方案,以取代使用 GPU Direct 技术快速向 Nvidia 的高性能GPU供应数据的并行文件存储系统——同时借鉴了 Nvidia 的 SuperPOD 概念。MinIO 称其覆盖了 AI 数据管道的所有阶段:数据收集与摄入、预处理、向量化、模型训练与检查点、模型评估与测试以及模型部署与监控。

解决网络瓶颈问题

MinIO 指出:“AI 工作负载部署中的网络基础设施已经标准化为每秒 100 吉比特(Gbit/sec)带宽链接。现代 NVMe 驱动器平均提供 7 GBit/sec 的吞吐量,这使得存储服务器和 GPU 计算服务器之间的网络带宽成为 AI 管道执行性能的瓶颈。”这就是 Nvidia 发明 GPU Direct 的原因所在。

MinIO 认为无需使用复杂的 InfiniBand:“我们建议企业利用现有的基于行业标准的以太网解决方案(例如 HTTP over TCP),这些方案开箱即用,能够为 GPU 提供高吞吐量的数据。”这些解决方案具有:“高速互联(800GbE 以上)和 RDMA over Ethernet 支持(例如 RoCEv2)”。

对象存储的优势

根据 MinIO 的说法:“对象存储擅长处理各种数据格式和大量非结构化数据,并且可以轻松扩展以容纳不断增长的数据而不影响性能。”此外,MinIO 认为其对象存储可以轻松扩展到 exabyte 级别,以满足 AI 管道存储的需求,并且具有足够的性能。其中一个方面是 MinIO 具有:“分布式内存缓存,非常适合 AI 模型检查点使用案例。”

性能特点

一份名为“面向 AI 数据基础设施的高性能对象存储”的白皮书指出:“MinIO 的性能特性意味着您可以运行多个 Apache Spark、Presto/Trino 和 Apache Hive 查询,或者快速测试、训练和部署 AI 算法,而不会遇到存储瓶颈。”

该白皮书声称:“在模型训练过程中,MinIO 的分布式设置允许并行数据访问和 I/O 操作,减少了延迟并加速了训练时间。对于模型部署,MinIO 的高吞吐量数据访问确保了 AI 模型的快速检索和部署,并能够在最小的延迟下做出预测。更重要的是,MinIO 的性能可以线性地从数百 TB 扩展到数百 PB 甚至更多。”

根据性能基准测试,一个分布式的 MinIO 设置在一个 8 节点集群中实现了平均 46.54 GBit/sec 的读取吞吐量(GET)和 34.4 GBit/sec 的写入吞吐量(PUT)。一个 32 节点集群则达到了 349 GBit/sec 的读取吞吐量和 177.6 GBit/sec 的写入吞吐量。

MinIO 表示,它拥有达到 2.75 TBit/sec 读取速度的 300 台服务器的客户部署实例。我们可以认为 MinIO 设置可以实现与 GPU Direct 类似的整体速度,但没有找到 MinIO 系统与支持 GPU Direct 的并行文件系统在提供相同总体带宽方面的直接比较。因此,我们无法直接比较 MinIO 与例如 VAST Data 系统在服务器、存储和网络组件的数量和成本方面的差异,即使两者都能提供 349 GBit/sec 的读取吞吐量和 177.6 GBit/sec 的写入吞吐量。

DataPOD 重复单元

DataPOD 白皮书称:“企业客户使用 MinIO 进行 AI 项目构建 exabyte 级别的数据基础设施作为重复单元,每个单元为 100 PiB。”这些单元包含 30 个机架,每个机架包含 11 台 2RU 存储服务器、2 个 Layer 2 顶部机架交换机、一个管理交换机,以及 10 个 64 端口网络脊交换机。

存储服务器是一个 2RU、单插槽 64 核 CPU 系统,具有 128 个 PCIe 4 通道、256 GB 内存、双端口 200GbE 网络接口卡、24 个 U.2 驱动器托架,每个托架安装一个 30 TB NVMe SSD,总共提供 720 TB 的原始容量。参考架构文档指定了 Supermicro A+ 2114SWN24RT、Dell PowerEdge R761 机架服务器和 HPE ProLiant DL345 Gen 11 作为有效的服务器选项。

据估算,这样的设置每月硬件成本为每 TB 1.5 美元,软件成本为每 TB 3.54 美元——即每月硬件费用为 1,500 美元,软件费用为 3,540 美元,总计为 5,040 美元。

MinIO 认为:“特定供应商的一体化硬件设备用于 AI 将导致高昂的总体拥有成本(TCO),并且从单位经济效益角度来看,在大规模数据 AI 项目中不具备可扩展性。”

他们还主张:“公共云中的 AI 数据基础设施都是基于对象存储构建的。这是因为公共云提供商不想保留与 POSIX 相关的复杂性和繁琐性。对于私有云/混合云部署来说,同样的架构也应该如此。”

MinIO 进一步断言:“随着高性能 GPU 的发展和网络带宽标准化为 200/400/800 Gbit/sec 及以上,专门构建的对象存储将是唯一能够满足 AI 工作负载性能 SLA 和规模要求的解决方案。”

DDN(Lustre)、IBM(StorageScale)、NetApp、PEAK:AIO、Pure Storage、Weka 以及 VAST Data ——这些支持 GPU Direct 的并行文件存储供应商——可能会不同意这一观点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2043412.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

新中地2402期GIS特训营学员圆满结业,解锁GIS开发的无限可能!

GIS开发了解 24年8月5日,新中地GIS开发特训营2402期学员迎来了属于自己的结业典礼。 初入特训营,教与学双向奔赴 从24年3月4日开班,面对全新的领域,大家新中既有对未知的忐忑,更有对掌握GIS开发技术的期待 在本期学员…

车辆车载客流统计系统解决方案

车辆车载客流统计系统是一种用于实时监测和分析乘客流量的技术解决方案,它可以帮助公交公司、地铁运营商等交通管理部门优化运营计划、提高服务效率和乘客满意度。以下是一个详细的车载客流统计系统解决方案: 一、系统组成 传感器与设备 摄像头&#xf…

C库函数signal()信号处理

signal()是ANSI C信号处理函数&#xff0c;原型如下&#xff1a; #include <signal.h>typedef void (*sighandler_t)(int); sighandler_t signal(int signum, sighandler_t handler); signal()将信号signum的处置设置为handler&#xff0c;该handler为SIG_IGN&#xff…

脊髓损伤治疗方法和需要那些营养

脊髓损伤作为一种严重的神经系统损伤&#xff0c;其治疗与康复一直是医学界关注的重点。在中医领域&#xff0c;针对脊髓损伤的治疗有着独特的理论和方法&#xff0c;旨在通过调节人体内部环境&#xff0c;促进受损神经的修复与再生。以下将从中医缓解方法与营养支持两个方面进…

Velero 快速上手:使用 Velero 实现 Kubernetes 集群备份与迁移

一、veloro 简介 Velero 是vmware开源的一个云原生的灾难恢复和迁移工具&#xff0c;它本身也是开源的,采用Go语言编写&#xff0c;可以安全的备份、恢复和迁移Kubernetes集群资源数据&#xff1b;Velero 是西班牙语意思是帆船&#xff0c;非常符合Kubernetes社区的命名风格&a…

【Python快速入门和实践017】Python常用脚本-根据文件后缀对其进行分类保存

一、功能介绍 这段代码的功能是将源文件夹中的文件按照它们的文件扩展名分类并移动到不同的子文件夹中。步骤如下&#xff1a; 定义函数&#xff1a;move_files_by_extension函数接收两个参数&#xff1a; source_folder&#xff1a;源文件夹路径。destination_folder&#xff…

LLM + GraphRAG技术,赋能教育培训行业数字化创新

随着人工智能大模型时代的到来&#xff0c;LLM大语言模型、RAG增强检索、Graph知识图谱、Prompt提示词工程等技术的发展日新月异&#xff0c;也让各行各业更加期待技术带来的产业变革。 比如&#xff0c;教育培训行业&#xff0c;教师数量相对有限、学生个体差异较大&#xff…

数据结构第一天

数据结构基础知识 1.1 什么是数据结构 数据结构就是数据的逻辑结构以及存储操作 (类似数据的运算) 数据结构就教会你一件事&#xff1a;如何更有效的存储数据 1.2 数据 数据&#xff1a;不再是单纯的数字&#xff0c;而是类似于集合的概念。 数据元素&#xff1a;是数据的基本单…

怎样卸载python

python卸载干净的具体操作步骤如下&#xff1a; 1、首先打开电脑左下角开始菜单&#xff0c;点击“运行”选项&#xff0c;输入“cmd”。 2、输入“python --version”&#xff0c;得到一个程序的版本&#xff0c;按回车键。 3、点击下图程序。 4、然后在该页面中点击“uninst…

【投融界-注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞…

8 自动类型转换、强制类型转换、整数数据溢出与模运算、浮点数精度丢失、类型转换值截断

目录 1 自动类型转换&#xff08;隐式转换&#xff09; 1.1 运算过程中的自动类型转换 1.1.1 转换规则 1.1.2 转换方向 1.1.3 案例演示 1.2 赋值时的自动类型转换 1.2.1 案例演示 2 强制类型转换&#xff08;显式转换&#xff09; 2.1 介绍 2.2 转换格式 2.3 转换规…

案例分享—国外毛玻璃效果UI设计案例

毛玻璃效果通过模糊和半透明特性&#xff0c;显著增强了UI界面的层次感和深度&#xff0c;使得元素之间界限清晰&#xff0c;同时赋予界面一种现代、高级的质感&#xff0c;提升了整体视觉吸引力。 该效果不仅美观&#xff0c;还通过柔和的色彩和光照效果营造出清新、轻松的氛围…

回归分析系列1-多元线性回归

03 多元线性回归 3.1 简介 多元线性回归是简单线性回归的扩展&#xff0c;允许我们同时研究多个自变量对因变量的影响。多元回归模型可以表示为&#xff1a; 其中&#xff0c;x1,x2,…,xp是 p 个自变量&#xff0c;β0 是截距&#xff0c;β1,β2,…,βp是对应的回归系数&…

【STM32项目】在FreeRtos背景下的实战项目的实现过程(一)

个人主页~ 这篇文章是我亲身经历的&#xff0c;在做完一个项目之后总结的经验&#xff0c;虽然我没有将整个项目给放出来&#xff0c;因为这项目确实也是花了米让导师指导的&#xff0c;但是这个过程对于STM32的实战项目开发都是非常好用的&#xff0c;可以说按照这个过程&…

Layout 布局组件快速搭建

文章目录 设置主题样式变量封装公共布局组件封装 Logo 组件封装 Menu 菜单组件封装 Breadcrumb 面包屑组件封装 TabBar 标签栏组件封装 Main 内容区组件封装 Footer 底部组件封装 Theme 主题组件 经典布局水平布局响应式布局搭建 Layout 布局组件添加 Layout 路由配置启动项目 …

关于Idea中的debug模式只能执行一次的问题

希望文章能给到你启发和灵感&#xff5e; 如果觉得文章对你有帮助的话&#xff0c;点赞 关注 收藏 支持一下博主吧&#xff5e; 阅读指南 开篇说明一、基础环境说明1.1 硬件环境1.2 软件环境 二、为什么debug模式只有生效一次三、补充说明其他调试功能四、最后 开篇说明 记录一…

设计模式学习优质网站分享:refactoring.guru

地址 英文版地址&#xff1a;https://refactoring.guru/design-patterns 中文版地址&#xff1a;https://refactoringguru.cn/design-patterns 介绍 这个网站是专门学习 设计模式 和 软件重构 的网站 整体来说并不花哨&#xff0c;但我觉得他最大的优点就是&#xff1a; 概…

PyTorch 基础学习(2)- 张量 Tensors

PyTorch张量简介 张量是数学和计算机科学中的一个基本概念&#xff0c;用于表示多维数据&#xff0c;是AI世界中一切事物的表示和抽象。可以将张量视为一个扩展了标量、向量和矩阵的通用数据结构。以下是对张量的详细解释&#xff1a; 张量的定义 标量&#xff08;0阶张量&am…

Assembly(七)实验环境搭建

本篇文章将讲解在win11环境下的王爽老师的汇编语言的环境搭建 首先凑齐这些文件: 随后安装好Dosbox,去官网下载就好 打开箭头所指文件 找到文件最后部分 [autoexec] # Lines in this section will be run at startup. # You can put your MOUNT lines here. MOUNT C D:\Debug …

快速搭建Vue_cli以及ElementUI简单项目学生管理系统雏形

为了帮助大家快速搭建Vue_cli脚手架还有ElementUI的简单项目,今天我给大家提供方法. 因为这个搭建这个项目步骤繁多,容易忘记,所以给大家提供这个资料希望可以帮助到你们. 废话不多说开始搭建项目: 搭建Vue_cli项目 首先点开HBuilder左上角的文件点击新建,点击项目,选择vue项…