MinIO DataPod:百亿亿次级计算的参考架构

news2024/11/14 15:33:06

现代企业通过其数据来定义自己。这需要用于 AI/ML 的数据基础设施,以及作为现代数据湖基础的数据基础设施,该数据基础设施能够支持商业智能、数据分析和数据科学。如果他们落后、起步或使用 AI 获得高级见解,则情况确实如此。在可预见的未来,这将是人们看待企业的方式。人工智能如何在企业中进入市场的更大问题有多个维度或阶段。其中包括数据引入、转换、训练、推理、生产和存档,并在每个阶段共享数据。随着这些工作负载的扩展,底层 AI 数据基础设施的复杂性也会增加。这就产生了对高性能基础设施的需求,同时最大限度地降低了总拥有成本 (TCO)。

MinIO 为数据基础设施创建了全面的蓝图,以支持百万亿亿次级 AI 和其他大规模数据湖工作负载。它被称为 MinIO DataPod。它使用的度量单位是 100 PiB。为什么?因为现实情况是,这在当今企业中很常见。以下是一些简单的示例:

  • 一家北美汽车制造商,拥有近 EB 的汽车视频

  • 一家德国汽车制造商,拥有超过 50 PB 的汽车遥测数据

  • 一家生物技术公司,拥有超过 50 PB 的生物、化学和以患者为中心的数据

  • 一家拥有超过 500 PB 日志文件的网络安全公司

  • 一家视频容量超过 200 PB 的媒体流媒体公司

  • 一家国防承包商,拥有超过 80 PB 的飞机地理空间、日志和遥测数据

即使它们今天没有达到 100 PB,它们也将在几个季度内。公司的平均年增长率为42%,以数据为中心的公司的增长速度是这个数字的两倍,甚至更多。MinIO Datapod 参考架构可以以不同的方式堆叠,以实现几乎任何规模 - 事实上,我们的客户已经基于此蓝图构建 - 一直超过 EB 并与多个硬件供应商合作。MinIO DataPod 提供端到端架构,使基础设施管理员能够为各种 AI 和 ML 工作负载部署经济高效的解决方案。以下是我们架构的基本原理。

AI 需要分解的存储和计算

AI 工作负载,尤其是生成式 AI,本质上需要 GPU 进行计算。它们是出色的设备,具有令人难以置信的吞吐量、内存带宽和并行处理能力。要跟上越来越快的 GPU 的步伐,就需要高速存储。当训练数据无法放入内存中并且训练循环必须对存储进行更多调用时,尤其如此。此外,企业需要的不仅仅是性能,还需要安全性、复制和弹性。

企业存储需求要求架构将存储与计算完全分离。这使得存储可以独立于计算进行扩展,并且鉴于存储增长通常比计算增长高一个或多个数量级,这种方法通过卓越的容量利用率确保了最佳经济性。

AI 工作负载需要不同类型的网络

网络基础设施已将 100 Gbps 带宽链路标准化,用于 AI 工作负载部署。现代 NVMe 驱动器平均提供 7GBps 的吞吐量,这使得存储服务器和 GPU 计算服务器之间的网络带宽成为 AI 管道执行性能的瓶颈。使用 Infiniband (IB) 等复杂的网络解决方案来解决这个问题确实有局限性。我们建议企业利用现有的基于行业标准以太网的解决方案(例如,基于 TCP 的 HTTP),这些解决方案开箱即用,以高吞吐量为 GPU 提供数据,原因如下:

  • 更大、更开放的生态系统

  • 降低网络基础设施成本

  • 高互连速度(800 GbE 及以上),支持以太网 RDMA(即:RoCEv2)

  • 在部署、管理和观察以太网方面重用现有的专业知识和工具

  • 围绕 GPU 到存储服务器通信的创新正在基于以太网的解决方案上进行

AI的需求要求:对象存储

公有云中的AI数据基础设施都建立在对象存储之上,这并非巧合。每个主要的基础模型都是在对象存储上训练的,这也不是巧合。这是因为POSIX太健谈了,无法在AI所需的数据规模上工作--尽管遗留文件者会声称这一点。在公共云中提供 AI 的相同架构应该应用于私有云,显然也应该应用于混合云。对象存储擅长处理各种数据格式和大量非结构化数据,并且可以毫不费力地扩展以适应不断增长的数据,而不会影响性能。其扁平命名空间和元数据功能可实现高效的数据管理和处理,这对于需要快速访问大型数据集的 AI 任务至关重要。随着高速 GPU 的发展和网络带宽在 200/400/800 Gbps 及以上的标准化,现代对象存储将成为满足 AI 工作负载性能 SLA 和规模的唯一解决方案。

软件定义一切

我们知道 GPU 是展会的明星,它们是硬件。但即使是 Nvidia 也会告诉你,秘诀是 CUDA。然而,走出芯片,基础设施世界越来越由软件定义。这一点莫过于存储。软件定义的存储解决方案对于可扩展性、灵活性和云集成至关重要,它超越了传统的基于设备的模型,原因如下:

  • 云兼容性:软件定义的存储与云操作保持一致,这与无法跨多个云运行的设备不同。

  • 容器化:设备无法容器化,失去云原生优势,阻碍Kubernetes编排。

  • 硬件灵活性:软件定义存储支持从边缘到核心的各种硬件,可适应各种 IT 环境。

  • 自适应性能:软件定义存储提供无与伦比的灵活性,可有效管理各种芯片组的不同容量和性能需求。

在 EB 级规模上,简单性和基于云的运营模式至关重要。作为一种软件定义的解决方案,对象存储应该在商用现成 (COTS) 硬件和任何计算平台上无缝运行,无论是裸机、虚拟机还是容器。用于对象存储的定制硬件设备通常通过昂贵的硬件和复杂的解决方案来弥补设计不佳的软件,从而导致高昂的总拥有成本 (TCO)。

面向 AI 的 MinIO DataPOD 硬件规格:

使用 MinIO 进行 AI 计划的企业客户将 EB 级数据基础设施构建为 100PiB 的可重复单元。这有助于基础设施管理员简化部署、维护和扩展过程,因为 AI 数据在一段时间内呈指数级增长。以下是用于构建 100PiB 规模数据基础设施的物料清单 (BOM)。

集群规格

元件 数量 机架总数 30 存储服务器总数 330 每个机架的存储服务器总数 11 TOR 交换机总数 60 主干开关总数 10 纠删码条带大小 10 纠删码奇偶校验 4

单机架规格

元件 描述 数量 机架式机柜 42U/45U 插槽机架 1 存储服务器 2U 外形尺寸 11 架顶式交换机 二层交换机 2 管理交换机 组合第 2 层和第 3 层 1 网络线 AOC电缆 30-40 权力 带RPDU的双电源 17kW - 20kW

存储服务器规格

元件 规范 服务器 2U,单插槽 CPU 64核,128*PCIe 4.0通道 Memory 256 GB 网络 NIC 双端口,200GbE NIC 驱动器托架 24 热插拔 2.5 英寸 U.2 NVMe 驱动器 30TB * 24 NVMe 硬盘 权力 1600W 冗余电源 总原始容量 720 TB

存储服务器参考

Dell HPE Supermicro Supermicro PowerEdge R7615机架式服务器 HPE ProLiant DL345 Gen11 A+ 服务器 2114S-WN24RT

网络交换机规格

元件 规范 架顶式 (TOR) 交换机 32 * 100GbE QSFP 28端口 Spine Switch 64 * 100GbE QSFP 28端口 电缆 100G QSFP 28 AOC 权力 每个开关 500 瓦

价格

MinIO 已与多个客户验证了此架构,并希望其他人看到以下每月每 TB 的平均价格。这是平均的街头价格,实际价格可能因配置和硬件供应商关系而异。

规模 存储硬件价格(每 TB/月) MinIO软件价格(每 TB/月) 100PiB $1.50 $3.54

针对 AI 的特定于供应商的交钥匙硬件设备将导致高 TCO,并且从单位经济角度来看,对于 EB 级的大数据 AI 计划来说,它无法扩展。

结论

在满足所有 AI/ML 工作负载的 TCO 目标的同时,EB 级规模的数据基础设施设置可能很复杂且难以正确实现。MinIO 的 DataPOD 基础设施蓝图使基础设施管理员能够简单明了地设置所需的商品现成硬件,这些硬件具有高度可扩展性、高性能、成本效益高的 S3 兼容 MinIO 企业对象存储,从而缩短了整体上市时间,并加快了企业环境中跨组织的 AI 计划的价值实现时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1972584.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

又一个GPT4级的模型免费了?MiniMax史诗级更新

又有一个超性价比的国产大模型出现了!这里是智匠AI,MiniMax刚刚对他们的主力模型abab6.5s,进行了大幅降价,输入和输出成本都达到了1元/百万tokens。我们今天就来进行评测这款abab6.5s。 abab6.5s在文科任务、内容理解、文字生成及…

WebKit引擎:探索现代网页渲染的幕后魔法!

WebKit 是一个开源的浏览器引擎,它负责解析和渲染网页内容,包括HTML、CSS和JavaScript。WebKit的工作流程涵盖了加载资源、解析文档、应用样式、布局渲染树等一系列步骤,最终将网页内容呈现在用户的屏幕上。 WebKit简介 WebKit是一个开源的浏…

Python在气象与海洋中的应用

Python是功能强大、免费、开源,实现面向对象的编程语言,能够在不同操作系统和平台使用,简洁的语法和解释性语言使其成为理想的脚本语言。除了标准库,还有丰富的第三方库,并且能够把用其他语言(C/C、Fortran…

Python SyntaxError: unexpected EOF while parsing

Python SyntaxError: unexpected EOF while parsing 在Python编程中,SyntaxError: unexpected EOF while parsing是一个常见的错误,通常发生在Python解释器在源代码中找到意外的文件结尾(EOF,即End Of File)时。这个错…

大模型LLM关键技术手段

大语言模型(LLM)是人工智能领域的一个突破性进展,它通过多种技术手段实现对自然语言的理解和生成。用比较通俗的话来列举一些我认为比较关键的技术手段: 深度学习技术:就像我们通过不断学习来掌握知识一样,…

SRM供应商管理系统有哪些实际用处?

随着供应商数量的不断增加,订单处理的复杂性与日俱增,传统的采购模式让订单的生成、跟踪到交货的每一个环节都可能成为潜在的瓶颈。在这样的背景下,SRM供应商管理系统的出现,为采购商提供了一个全面、高效的解决方案。 我想以真实…

白盒测试基础与实践:Python示例及流程图设计

文章目录 前言一、白盒测试是什么?主要特点常用方法优点缺点 二、白盒测试常用技术语句覆盖判定覆盖条件覆盖判定/条件覆盖条件组合覆盖路径覆盖 三、程序流程图设计四、测试用例设计1. 基本路径法2. 语句覆盖3. 判断覆盖4. 条件覆盖5. 判断/条件覆盖6. 条件组合覆盖…

【传知代码】基于图的去中心化社会推荐过滤器(论文复现)

在当今信息爆炸的时代,社交媒体和数字平台已经成为我们获取信息、交流观点以及发现新内容的主要途径。然而,随着内容数量的剧增,用户面临着信息过载和质量参差不齐的挑战。为了解决这一问题,基于图的去中心化社会推荐过滤器应运而…

AIR 调用 Python 脚本的解决方案

1. 问题背景 在 AIR 1.5 中,无法直接调用系统命令或运行可执行文件(如 Python 解释器)。 2. 解决方案 由于安全限制,AIR 应用程序无法直接调用系统命令或运行可执行文件。因此,以下解决方案仅适用于能够共享详细信息…

【传知代码】LAD-GNN标签注意蒸馏(论文复现)

近年来,随着图神经网络(GNN)在各种复杂网络数据中的广泛应用,如何提升其在大规模图上的效率和性能成为了研究的热点之一。在这个背景下,标签注意蒸馏(Label Attention Distillation,简称LAD&…

分包—小程序太大,上传不上去,采用分包处理方式

在 app.json 中配置 subpackages 字段来定义分包。创建分包目录如左边红框。例如:

[Meachines] [Easy] Mirai Raspberry树莓派默认用户登录+USB挂载文件读取

信息收集 IP AddressOpening Ports10.10.10.48TCP:22,53,80,1276,32400,32469 $ nmap -p- 10.10.10.48 --min-rate 1000 -sC -sV PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 6.7p1 Debian 5deb8u3 (protocol 2.0) | ssh-hostkey: | 1024 aa:ef:5c:…

vue-cli3脚手架详细讲解 基于webpack

1.安装vue3:新建一个文件夹,进入该文件夹下,执行 vue create ( 项目名称) , 如下图: vuecli3为项目名称,进入下一步, 我们选择第3个,进入下一步 这里要我们选择一个配置,按住上下键进行调转&a…

240802-Python代码混淆及加密的一些工具

1. 有哪些开源免费的工具,可以对Python代码加密 加密Python代码可以通过多种方法实现,尽管这些方法主要是为了保护代码不被轻易阅读或修改,但无法完全防止逆向工程。以下是一些开源免费的工具和方法,可以用于加密Python代码&…

聊聊ChatGLM-6B的源码分析

基于ChatGLM-6B第一版,要注意还有ChatGLM2-6B以及ChatGLM3-6B PrefixEncoder 作用:在微调时(以P-Tuning V2为例),方法训练时冻结模型的全部参数,只激活PrefixEncoder的参数。 其源码如下,整体来…

Python数值计算(16)——Hermite插值

1. 概述 不管是前面介绍到拉格朗日插值还是牛顿插值,拟合的函数比线性插值更加“优秀”,即它们都是连续可导的,但是,有时拟合还有这样的要求,就是除了在给定点处的函数值要相等外,还要求在这些指定点处的导…

fastjson-小于1.2.47绕过

参考视频&#xff1a;fastjson反序列化漏洞3-<1.2.47绕过_哔哩哔哩_bilibili 分析版本 fastjson1.2.24 JDK 8u141 分析流程 分析fastjson1.2.25更新的源码&#xff0c;用JsonBcel链跟进 先看修改的地方 fastjson1.2.24 if (key JSON.DEFAULT_TYPE_KEY && !…

鸿蒙(API 12 Beta2版)NDK开发【JSVM-API简介】

JSVM-API简介 场景介绍 HarmonyOS JSVM-API是基于标准JS引擎提供的一套稳定的ABI&#xff0c;为开发者提供了较为完整的JS引擎能力&#xff0c;包括创建和销毁引擎&#xff0c;执行JS代码&#xff0c;JS/C交互等关键能力。 通过JSVM-API&#xff0c;开发者可以在应用运行期间…

大语言模型时代的挑战与机遇:青年发展、教育变革与就业前景

摘要: 当前,大语言模型技术的崛起正在对多个领域带来深远影响,其中教育与就业便是重点受影响领域之一。本文旨在深入探究大语言模型对青年群体发展、教育体系变革以及就业前景的影响,并提出相应的应对措施与建议。 通过运用社会认知理论、建构主义教育理论、技能匹配理论等学…