生成式人工智能的下一代基础设施是集群系统

news2025/1/18 21:14:36

GenAI 的存储和网络

本研究报告探讨了生成式人工智能 (GenAI) 在转变人工智能数据中心方面的关键作用。强调了存储和网络在支持人工智能/机器学习工作负载方面的重要性。

我们强调需要高容量、经济高效的存储,以处理不同数据处理阶段的不同 I/O 模式。

还讨论了检索增强生成 (RAG) 及其存储影响的日益增长的相关性。我们研究了从专有高性能 Infiniband 到行业标准以太网的转变,强调了以太网的可扩展性和性能改进。

我们将总结一下,确定组织在构建人工智能数据中心时面临的关键挑战,例如为加速器提供数据、保护数据和大规模管理数据,并强调集成、优化的基础设施解决方案的重要性。

AI 数据中心的未来:为 GenAI 工作负载集成高级存储和网络

人工智能 (AI) 和机器学习 (ML) 已达到关键点,对现代数据中心的设计和运营产生了重大影响。生成式人工智能 (GenAI) 代表了一次重大飞跃,需要在计算能力、网络和存储方面提供大量基础设施支持。

本文概述了存储和网络在人工智能数据中心中的关键和不断变化的作用,并提供了克服与这些基础设施相关的独特挑战的见解。

存储在人工智能数据中心中的作用

AI 和 ML 工作负载本质上是数据密集型的,因此需要能够容纳大量数据和多样化 I/O 模式的强大存储解决方案。AI 数据中心存储的以下关键方面至关重要:

数据积累和提取:人工智能模型需要大量数据,通常来自全球。高效且经济高效的存储解决方案对于处理数据提取的规模和协议至关重要。

预处理:此阶段涉及清理和格式化数据,这既需要大量读取,也需要大量写入。高性能存储系统必须有效地支持这些操作。

训练:训练模型是一个读取密集型过程,但训练期间的检查点可能高度写入密集型。存储系统必须无缝管理这些需求以避免瓶颈。

推理:在推理过程中,模型被加载到 GPU 中,需要快速的高读取密集型访问和高吞吐量。创建大型模型存储库并支持频繁的模型加载和卸载至关重要。

RAG(检索增强生成):RAG 通过使用来自矢量数据库的动态数据增强模型,带来了新的存储挑战。这需要快速数据处理 (xPU) 和频繁嵌入新数据的能力,以保持模型准确性。

网络从 Infiniband 向以太网的转变

传统上,Infiniband 因其低延迟和可扩展性而成为高性能存储的首选网络解决方案。然而,最近的进展已将以太网定位为可行的替代方案:

性能奇偶校验:以太网已经发展到与 Infiniband 的性能相匹配,使其适用于高性能 AI 数据中心。

企业采用:随着 HPC 环境变得更加面向企业,以太网在企业网络中的主导地位推动了其在 AI 数据中心的采用。

可扩展性和灵活性:以太网的可扩展性和通过 RDMA 等协议支持 GPU 到 GPU 通信的能力使其成为现代 AI 工作负载的首选。

云集成:许多超大规模和私有云提供基于以太网的解决方案,促进人工智能数据中心的无缝集成和可扩展性。

构建AI数据中心的挑战与解决方案

构建人工智能数据中心面临着几个需要从战略上解决的挑战:

供给加速器:确保 GPU 和其他加速器高效地供给数据需要高性能的存储和网络解决方案。

数据安全:保护敏感数据至关重要,需要在存储和网络基础设施中采取强大的安全措施。

大规模数据管理:管理全球和混合环境中的大量数据需要能够有效处理数据移动和处理的高级数据管理解决方案。

避免常见陷阱:事后再考虑存储和网络可能会影响 AI 数据中心的性能。集成、优化的基础设施解决方案对于最大限度地发挥 AI/ML 工作负载的潜力至关重要。

GenAI 数据中心的未来在于先进存储和网络解决方案的无缝集成。通过解决 GenAI 工作负载带来的独特挑战并利用以太网技术的最新进展,组织可以构建强大、可扩展的 AI 数据中心。

存储和网络提供商之间的协作努力(以大型公共云提供商不断演变的角色、新的计算架构以及存储和网络提供商之间的合作伙伴关系为例)对于推动这一发展并为优化的 AI 基础设施设定行业基准至关重要。

TheCUBE 研究建议

为旨在优化其 AI 数据中心的组织提供了一系列战略建议。

综合规划:组织在设计 AI 数据中心时应从一开始就考虑存储和网络要求。

采用以太网:利用以太网的进步可以提供适合人工智能工作负载的可扩展且灵活的网络解决方案。

高性能存储解决方案:投资能够处理不同 I/O 模式并支持快速数据处理的存储系统至关重要。

协作努力:集成计算、存储和网络组件的行业协作和参考设计可以为 AI 数据中心提供优化的解决方案。

通过了解下一代需求,组织可以构建 GenAI 数据中心,它不仅能够处理当前的工作负载,而且还具有可扩展性和适应未来 AI 和 ML 技术进步的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1958300.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何使用CANoe自带的TCP/IP Stack验证TCP的零窗口探测机制

如果想利用CANoe自带的TCP/IP协议栈验证TCP的零窗口探测机制,就必须添加一个网络节点并配置独立的CANoe TCP/IP协议栈,作为验证对象。而与它进行TCP通信的对端也是一个网络节点,但不要配置TCP/IP协议栈,而是使用CAPL代码在底层组装TCP报文模拟TCP通信过程。这样可以尽量减少…

项目实战_表白墙(简易版)

你能学到什么 一个比较简单的项目:表白墙(简易版),浏览器:谷歌升级版将在下个博客发布 效果如下 正文 说明 我们是从0开始一步一步做这个项目的,里面的各种问题,我也会以第一人称视角来解…

国服最强文字转音频?Fish Speech

官网文档与示例 Fish Speech V1.2 是一款领先的文本到语音 (TTS) 模型,使用 30 万小时的英语、中文和日语音频数据进行训练。我尝试用1066运行,但是质量不尽如人意,建议使用RTX系列的显卡进行推理。 使用结果展示 text """20…

有哪些高性价比开放式耳机推荐?五大实力超群热门款分享

开放式耳机的优点包括不堵塞耳道,佩戴稳固性高,能较好的感知外界的声音等等,以上这些优势使得开放式耳机特别适配户外运动场景,在工作、日常生活等场景下使用也是绰绰有余。有哪些高性价比开放式耳机推荐?如果你还不知…

常用传感器讲解十五--触摸传感器(KY-036)

常用传感器讲解十五–触摸传感器(KY-036) 具体讲解 这个比较简单,就是触摸后给个信号 电路连接 在Arduino上将VCC引脚连接到5V。 将GND连接到Arduino的GND。 将OUT连接到Arduino上的D2 代码实现 void setup() {pinMode(2, INPUT);Seri…

鸿蒙HarmonyOS开发:@Observed装饰器和@ObjectLink装饰器:嵌套类对象属性变化

文章目录 一、装饰器二、概述三、限制条件四、装饰器说明五、Toggle组件1、子组件2、接口3、ToggleType枚举4、事件 六、示例演示1、代码2、效果 一、装饰器 State装饰器:组件内状态Prop装饰器:父子单向同步Link装饰器:父子双向同步Provide装…

大模型是如何“炼”成的?揭秘AI背后的训练秘籍!

在当今科技飞速发展的时代,大模型(Large Language Models)已成为人工智能领域的璀璨明星。它们如同经过精心雕琢的艺术品,能够处理各种复杂的任务。然而,这些大模型并非天生如此强大,它们需要经过严格的训练…

VScode | 我的常用插件分享

系列文章目录 本系列文章主要分享作位前端开发的工具之------VScode的使用分享。 文章目录 目录 系列文章目录 文章目录 前言 一、Vetur 三、别名路径跳转 四、Prettier 五、koroFileHeader 六、vue-helper 总结 前言 本文主要分享VScode的好用插件。 一、Vetur Vue的Vetur插…

秒懂C++之vector(上)

目录 一.vector定义 二.vector常用接口 2.1 vector iterator迭代器 2.2 reserve 扩容 2.3 insert 插入 三.对象数组 3.1 例题 3.2 小拓展 一.vector定义 vector本质就是一个顺序表 #include <iostream> #include <vector> using namespace std;void func(ve…

分布式:RocketMQ/Kafka总结(附下载链接)

文章目录 下载链接思维导图 本文总结的是关于消息队列的常见知识总结。消息队列和分布式系统息息相关&#xff0c;因此这里就将消息队列放到分布式中一并进行处理关联 下载链接 链接: https://pan.baidu.com/s/1hRTh7rSesikisgRUO2GBpA?pwdutgp 提取码: utgp 思维导图

大模型微调:参数高效微调(PEFT)方法总结

PEFT (Parameter-Efficient Fine-Tuning) 参数高效微调是一种针对大模型微调的技术&#xff0c;旨在减少微调过程中需要调整的参数量&#xff0c;同时保持或提高模型的性能。 以LORA、Adapter Tuning 和 Prompt Tuning 为主的PEFT方法总结如下 LORA 论文题目&#xff1a;LORA:…

TikTok达人合作:AI与大数据如何提升跨境电商营销效果

在当今数字时代&#xff0c;跨境电商与TikTok达人的合作已成为推动品牌增长和市场拓展的重要力量。随着AI、大数据等先进技术的不断发展和应用&#xff0c;这种合作模式正变得更加高效和精准。本文Nox聚星将和大家探讨在TikTok达人合作中&#xff0c;AI、大数据等技术的具体运用…

PyTorch 的 .pt 文件是什么?以及都能存储什么样的数据格式和复合数据格式?加载 train.pt 文件的一个代码示例

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、PyTorch 的 .pt 文件是什么&#xff1f; .pt 文件的基本概念&#xff1a; .pt 文件是 PyTorch 中特有的一种文件格式&#xff0c;用于保存和加载各类数据。.pt为 PyTorch 的缩写。此文件格式极其灵…

Linux快速安装Jenkins一键部署Maven项目

目录 一、序言二、安装前置准备1、JDK版本要求2、Maven安装3、Git安装 三、Jenkins安装1、Jenkins war包下载2、启动Jenkins3、初始化Jenkins4、Jenkins全局设置 四、Maven项目自动化jar部署项目配置1、创建Maven风格的项目2、丢弃旧的构建3、源码管理配置4、构建配置5、构建后…

华为od 100问 持续分享10-华为OD的面试流程细说

我是一名软件开发培训机构老师&#xff0c;我的学生已经有上百人通过了华为OD机试&#xff0c;学生们每次考完试&#xff0c;会把题目拿出来一起交流分享。 重要&#xff1a;2024年5月份开始&#xff0c;考的都是OD统一考试&#xff08;D卷&#xff09;&#xff0c;题库已经整…

带有扰动观测器的MPC电机控制

模型预测控制(Model Predictive Contro1, MPC)是一种先进的控制策略&#xff0c;虽然具有鲁棒性、建模简单、处理多变量系统、显示约束、预测未来行为和优化性能的能力等优势。它的不足在于预测控制行为的计算需要繁琐的计算量&#xff0c;以及抗干扰能力较弱。这里提出基于扰动…

34 列表常用方法——copy()

列表对象的 copy() 方法返回列表的浅复制。 浅复制&#xff0c;是指生成一个新的列表&#xff0c;并且把原列表中所有元素的引用都都复制到新列表中。 如果原列表中只包含整数、实数、复数等基本类型或元组、字符串这样的不可变类型的数据&#xff0c;一般是没有问题的。但是&a…

黛米·摩尔和她的孙女卢埃塔在这张飘逸的快照很亲密

卢埃塔和她的祖母黛米摩尔显然是最好的朋友&#xff0c;这张飘逸的快照证明了这一点。准备好“哇&#xff01;” 7 月 26 日&#xff0c;摩尔分享了一张非常迷人的照片&#xff0c;照片上有她、她的两个女儿和她的孙女在她昂贵的后院。她在照片中配文说&#xff1a;“夏日&…

SX_初识GitLab_1

1、对GitLab的理解&#xff1a; 目前对GitLab的理解是其本质是一个远程代码托管平台&#xff0c;上面托管多个项目&#xff0c;每个项目都有一个master主分支和若干其他分支&#xff0c;远程代码能下载到本机&#xff0c;本机代码也能上传到远程平台 1.分支的作用&#xff1a…

Home Assistant ESPHome 第一次烧录ESP8266设备记录日志

流程简介 windows PC->usb 数据线->板载usb-ttl->esp8266 connect 编译固件 下载固件 esp web tools 写入固件 编译固件 go esphome add on 1.创建设备 选择ESP8266 2.编写.yaml配置, 3.编译-输出bin 烧录 4.烧录 打开 Web-ESPHome 5.查看日志 查看手机wif…