MinIO DataPod：百亿亿次级计算的参考架构

现代企业通过其数据来定义自己。这需要用于 AI/ML 的数据基础设施，以及作为现代数据湖基础的数据基础设施，该数据基础设施能够支持商业智能、数据分析和数据科学。如果他们落后、起步或使用 AI 获得高级见解，则情况确实如此。在可预见的未来，这将是人们看待企业的方式。人工智能如何在企业中进入市场的更大问题有多个维度或阶段。其中包括数据引入、转换、训练、推理、生产和存档，并在每个阶段共享数据。随着这些工作负载的扩展，底层 AI 数据基础设施的复杂性也会增加。这就产生了对高性能基础设施的需求，同时最大限度地降低了总拥有成本（TCO）。

MinIO 为数据基础设施创建了全面的蓝图，以支持百万亿亿次级 AI 和其他大规模数据湖工作负载。它被称为 MinIO DataPod。它使用的度量单位是 100 PiB。为什么？因为现实情况是，这在当今企业中很常见。以下是一些简单的示例：

一家北美汽车制造商，拥有近 EB 的汽车视频
一家德国汽车制造商，拥有超过 50 PB 的汽车遥测数据
一家生物技术公司，拥有超过 50 PB 的生物、化学和以患者为中心的数据
一家拥有超过 500 PB 日志文件的网络安全公司
一家视频容量超过 200 PB 的媒体流媒体公司
一家国防承包商，拥有超过 80 PB 的飞机地理空间、日志和遥测数据

即使它们今天没有达到 100 PB，它们也将在几个季度内。公司的平均年增长率为42%，以数据为中心的公司的增长速度是这个数字的两倍，甚至更多。MinIO Datapod 参考架构可以以不同的方式堆叠，以实现几乎任何规模 - 事实上，我们的客户已经基于此蓝图构建 - 一直超过 EB 并与多个硬件供应商合作。MinIO DataPod 提供端到端架构，使基础设施管理员能够为各种 AI 和 ML 工作负载部署经济高效的解决方案。以下是我们架构的基本原理。

AI 需要分解的存储和计算

AI 工作负载，尤其是生成式 AI，本质上需要 GPU 进行计算。它们是出色的设备，具有令人难以置信的吞吐量、内存带宽和并行处理能力。要跟上越来越快的 GPU 的步伐，就需要高速存储。当训练数据无法放入内存中并且训练循环必须对存储进行更多调用时，尤其如此。此外，企业需要的不仅仅是性能，还需要安全性、复制和弹性。

企业存储需求要求架构将存储与计算完全分离。这使得存储可以独立于计算进行扩展，并且鉴于存储增长通常比计算增长高一个或多个数量级，这种方法通过卓越的容量利用率确保了最佳经济性。

AI 工作负载需要不同类型的网络

网络基础设施已将 100 Gbps 带宽链路标准化，用于 AI 工作负载部署。现代 NVMe 驱动器平均提供 7GBps 的吞吐量，这使得存储服务器和 GPU 计算服务器之间的网络带宽成为 AI 管道执行性能的瓶颈。使用 Infiniband （IB）等复杂的网络解决方案来解决这个问题确实有局限性。我们建议企业利用现有的基于行业标准以太网的解决方案（例如，基于 TCP 的 HTTP），这些解决方案开箱即用，以高吞吐量为 GPU 提供数据，原因如下：

更大、更开放的生态系统
降低网络基础设施成本
高互连速度（800 GbE 及以上），支持以太网 RDMA（即：RoCEv2）
在部署、管理和观察以太网方面重用现有的专业知识和工具
围绕 GPU 到存储服务器通信的创新正在基于以太网的解决方案上进行

AI的需求要求：对象存储

公有云中的AI数据基础设施都建立在对象存储之上，这并非巧合。每个主要的基础模型都是在对象存储上训练的，这也不是巧合。这是因为POSIX太健谈了，无法在AI所需的数据规模上工作--尽管遗留文件者会声称这一点。在公共云中提供 AI 的相同架构应该应用于私有云，显然也应该应用于混合云。对象存储擅长处理各种数据格式和大量非结构化数据，并且可以毫不费力地扩展以适应不断增长的数据，而不会影响性能。其扁平命名空间和元数据功能可实现高效的数据管理和处理，这对于需要快速访问大型数据集的 AI 任务至关重要。随着高速 GPU 的发展和网络带宽在 200/400/800 Gbps 及以上的标准化，现代对象存储将成为满足 AI 工作负载性能 SLA 和规模的唯一解决方案。

软件定义一切

我们知道 GPU 是展会的明星，它们是硬件。但即使是 Nvidia 也会告诉你，秘诀是 CUDA。然而，走出芯片，基础设施世界越来越由软件定义。这一点莫过于存储。软件定义的存储解决方案对于可扩展性、灵活性和云集成至关重要，它超越了传统的基于设备的模型，原因如下：

云兼容性：软件定义的存储与云操作保持一致，这与无法跨多个云运行的设备不同。
容器化：设备无法容器化，失去云原生优势，阻碍Kubernetes编排。
硬件灵活性：软件定义存储支持从边缘到核心的各种硬件，可适应各种 IT 环境。
自适应性能：软件定义存储提供无与伦比的灵活性，可有效管理各种芯片组的不同容量和性能需求。

在 EB 级规模上，简单性和基于云的运营模式至关重要。作为一种软件定义的解决方案，对象存储应该在商用现成（COTS）硬件和任何计算平台上无缝运行，无论是裸机、虚拟机还是容器。用于对象存储的定制硬件设备通常通过昂贵的硬件和复杂的解决方案来弥补设计不佳的软件，从而导致高昂的总拥有成本（TCO）。

面向 AI 的 MinIO DataPOD 硬件规格：

使用 MinIO 进行 AI 计划的企业客户将 EB 级数据基础设施构建为 100PiB 的可重复单元。这有助于基础设施管理员简化部署、维护和扩展过程，因为 AI 数据在一段时间内呈指数级增长。以下是用于构建 100PiB 规模数据基础设施的物料清单（BOM）。

集群规格

元件数量机架总数 30 存储服务器总数 330 每个机架的存储服务器总数 11 TOR 交换机总数 60 主干开关总数 10 纠删码条带大小 10 纠删码奇偶校验 4

单机架规格

元件描述数量机架式机柜 42U/45U 插槽机架 1 存储服务器 2U 外形尺寸 11 架顶式交换机二层交换机 2 管理交换机组合第 2 层和第 3 层 1 网络线 AOC电缆 30-40 权力带RPDU的双电源 17kW - 20kW

存储服务器规格

元件规范服务器 2U，单插槽 CPU 64核，128*PCIe 4.0通道 Memory 256 GB 网络 NIC 双端口，200GbE NIC 驱动器托架 24 热插拔 2.5 英寸 U.2 NVMe 驱动器 30TB * 24 NVMe 硬盘权力 1600W 冗余电源总原始容量 720 TB

存储服务器参考

Dell HPE Supermicro Supermicro

PowerEdge R7615机架式服务器 HPE ProLiant DL345 Gen11 A+ 服务器 2114S-WN24RT

网络交换机规格

元件规范架顶式（TOR）交换机 32 * 100GbE QSFP 28端口 Spine Switch 64 * 100GbE QSFP 28端口电缆 100G QSFP 28 AOC 权力每个开关 500 瓦

价格

MinIO 已与多个客户验证了此架构，并希望其他人看到以下每月每 TB 的平均价格。这是平均的街头价格，实际价格可能因配置和硬件供应商关系而异。

规模存储硬件价格（每 TB/月） MinIO软件价格（每 TB/月） 100PiB $1.50 $3.54

针对 AI 的特定于供应商的交钥匙硬件设备将导致高 TCO，并且从单位经济角度来看，对于 EB 级的大数据 AI 计划来说，它无法扩展。

结论

在满足所有 AI/ML 工作负载的 TCO 目标的同时，EB 级规模的数据基础设施设置可能很复杂且难以正确实现。MinIO 的 DataPOD 基础设施蓝图使基础设施管理员能够简单明了地设置所需的商品现成硬件，这些硬件具有高度可扩展性、高性能、成本效益高的 S3 兼容 MinIO 企业对象存储，从而缩短了整体上市时间，并加快了企业环境中跨组织的 AI 计划的价值实现时间。