别让存储成为ChatGPT大模型训练的关键瓶颈

news2024/11/19 21:23:40

当下科技行业be like...

据说现在的科技公司,不是在抢GPU,就是在往抢GPU的路上……此前4月,特斯拉CEO马斯克就购买了1万块GPU,他还称公司将继续大量购买英伟达的GPU。

在国内,近日也有报道称,字节跳动今年向英伟达订购了超过10亿美元的GPU,仅字节一家公司今年的订单,可能已接近英伟达去年在国内销售的商用GPU总和。

而在企业这边,为了“珍惜”来之不易的GPU,IT人员也在快马加鞭,他们希望能让GPU时刻忙碌,从而确保投资回报。不过有的企业可能会发现,GPU数量增加了,但GPU闲置却越来越严重。

原因何在?

  • 别让存储成为你的关键瓶颈

如果说HPC的历史教会了我们什么的话,那就是不能以牺牲存储和网络为代价,过分关注计算。如果存储无法以良好的性能及时将数据传输到计算单元,那么即使你手握世界上最多的GPU,也无法将其转化为效率。

IT分析公司 Small World Big Data 的分析师 Mike Matchett 表示,有些模型足够小,可以在内存(RAM)中执行,从而将更多的注意力放在计算上。但如今像ChatGPT这样的大模型,需要数十亿个节点,无法保存在内存中,因为成本太高。

“你无法在内存中存放数十亿个节点,存储变得更加重要。”Matchett 说。

一般而言,无论是怎样的用例,在模型训练的过程中都有四个共同点:

  1. 训练模型
  2. 推理应用
  3. 数据存储
  4. 加速计算

而在这些要素中,数据存储在规划过程中往往容易被忽视。

因为在创建和部署模型时,大多数的要求是迅速通过POC或测试环境,从而尽快开展模型训练,数据存储需求并不是优先考虑的。

然而,挑战在于训练或推理部署可能持续数月或数年时间。许多公司在这段时间里迅速扩大了模型规模,而基础设施也必须扩展以适应不断增长的模型和数据集。

谷歌此前公布的数百万ML训练工作负载的研究报告表明,工作负载平均花费30%的训练时间在输入数据的管道上。虽然过去的一些研究工作侧重于通过优化GPU来加速训练,但在优化数据管道的各个部分方面仍然面临许多挑战。

  • 确定合适的存储系统

当你有了非常强大的算力后,真正的瓶颈变成了你能以多快的速度将数据输入计算,从而得到结果。

特别是数据存储和管理方面的挑战,需要对数据增长进行规划,这样你就可以在前进的过程中不断获取数据的价值,特别是当你开始更高级的用例,如深度学习和神经网络,这对存储的能力、性能和规模提出了更高的要求。具体而言:

可扩展性

机器学习需要组织处理大量数据,而且数据量越大,模型的准确性相对也越高,这意味着企业每天必须收集和存储越来越多的数据。而当存储无法扩展时,数据密集型工作负载会产生瓶颈,这会限制性能并导致昂贵的GPU闲置。

灵活性

灵活利用多种协议支持(包括NFS、SMB、HTTP、FTP、HDFS和S3),以确保满足不同系统的需求,而不仅仅是单一类型的环境。

延迟

I/O的延迟对于构建和使用模型很重要,因为数据会被多次读取和重读。减少I/O延迟可以将模型的训练时间缩短数天或数月。更快的模型开发直接转化为更大的业务优势。

吞吐量

当然,存储系统的吞吐量对于高效的模型训练也至关重要。训练过程使用大量数据,通常以每小时TB为单位。

并行访问

为了实现高吞吐量,训练模型会将活动拆分为多个并行任务。这通常意味着机器学习算法会同时从多个进程(可能在多个物理服务器上)访问相同的文件。存储系统必须能够在不影响性能的情况下应对并发需求。

  • 首屈一指横向扩展NAS存储 为模型训练提供动力

凭借低延迟、高吞吐量和大规模并行I/O的卓越能力,戴尔PowerScale是GPU加速计算的理想存储补充。

PowerScale能够有效地压缩训练和测试多字节数据集的分析模型所需的时间。在PowerScale全闪存存储中,带宽增加了18倍,从而消除了I/O瓶颈,并且可以添加到现有的Isilon集群中,以加速和释放大量非结构化数据的价值。

此外,PowerScale的多协议访问能力,为企业运行工作负载提供了无限灵活性,这些工作负载既可以使用一种协议存储数据,也能够使用另一种协议访问数据。

具体而言,PowerScale平台的强大功能、灵活性、可扩展性和企业级功能可帮助您应对挑战:

●以高达2.7倍的性能加速创新,加快模型训练周期。

●利用企业级功能、高性能、并发性和可扩展性消除I/O瓶颈,提供更快的模型训练和验证,提高模型精度,改善数据科学生产力,并使计算投资回报率(ROI)最大化。

●通过在单个集群中高达119PB的有效存储容量,以更深的高分辨率数据集提高模型的准确性。

●利用灵活的部署和网络弹性,使您能够从小规模开始,独立扩展计算和存储,以实现大规模部署,并提供强大的数据保护和安全选项。

●通过灵活的就地分析预先验证的解决方案,提高数据科学的生产力,以实现更快的、低风险的部署。

●经验证的设计基于同类最佳技术,包括 NVIDIA GPU加速和带有NVIDIA DGX系统的参考架构

PowerScale的高性能、高并发性能可满足机器学习从数据采集、数据准备、模型训练和模型推理各阶段对存储性能的要求;加上其搭载的OneFS操作系统,使所有节点能够在同一OneFS驱动的集群中无缝运行,并具有性能管理、数据管理、安全和数据保护等企业级功能,能更快帮助企业完成模型的训练和验证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/653662.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL数据库事务和存储引擎(贼详细)

目录 一、MySQL 事物 1、事务的概念 2、 事务的ACID特点 (1)原子性 (2)一致性 (3) 隔离性 (4)事务之间的相互影响 (5) Mysql及事物隔离级别 &#…

你知道视频配音怎么配出好听的声音吗

小明:最近我在制作一个视频项目,但是我发现视频中的原声不够理想,我想给它配上好听的声音。你知道怎么配音才能让声音听起来更好吗? 小李:当然!配音是提升视频质量的重要一环。想知道视频配音怎么配出好听…

uniapp实现应用wgt资源热更新

APP更新一般有两种形式 1、整包更新,通过hbuliderx提供的在线云打包就属于整包更新,属于全量更新,缺点就是打包时间长、要重新走市场审核。费时 2、wgt资源包热更新,通过hbuliderx打wgt包 ,速度快,能在应用…

iphone测试中除了appium,还有更好用的工具吗

除了Appium,还有一些其他的工具可以用于iPhone测试,下面列举几个: 1. XCUITest XCUITest是苹果官方提供的UI自动化测试框架,可以用于iPhone和iPad应用程序的自动化测试。XCUITest可以模拟用户操作,例如点击、滑动、输…

机器学习实践(1.1)XGBoost分类任务

前言 XGBoost属于Boosting集成学习模型,由华盛顿大学陈天齐博士提出,因在机器学习挑战赛中大放异彩而被业界所熟知。相比越来越流行的深度神经网络,XGBoost能更好的处理表格数据,并具有更强的可解释性,还具有易于调参…

若依微服务 + seata1.5.2版本分布式事务(安装配置nacos+部署)

若依官方使用的1.4.0版本seata,版本较低配置相对更麻烦一些 一、seata服务端下载,下载方式介绍两种入口,如下: 1、找到对应版本,下载 binary 即可。 下载包名为:seata-server-1.5.2.zip 2. github上下载 …

WWDC2023 Metal swift 头显ARKit支持c c++ 开发

1 今年WWDC,我们看见了苹果的空间计算设备,visionOS也支持了c c API. 这有什么好处呢,不是说能够吸引更多c c开发者加入苹果开发者阵营,而是我们过去的很多软件,可以轻松对接到苹果的头显设备,让我们的软件…

2023年协议转让研究报告

第一章 概述 协议转让作为中国企业破产法中的重要程序之一,已经在实践中得到广泛应用。在协议转让过程中,债务人与债权人或其他相关方通过协商达成一致,将特定的资产或权益进行转让,以实现债务清偿或债务人的破产清算。协议转让的…

RRC重建比率高问题分析和优化方法

PART01 1、重建概述 RRC重建(RRC connection re-establishment)是UE处于RRC_CONNECTED状态,因为一些移动性管理或底层链路故障,导致连接中断,UE发起的空口资源重新建立的过程,以继续空口的RRC连接。重建是…

[CSP-S 2021] 回文

[CSP-S 2021] 回文 题目描述: 给定正整数 n 和整数序列 a1​,a2​,…,a2n​,在这 2n 个数中,1,2,…,n 分别各出现恰好 2 次。现在进行 2n 次操作,目标是创建一个长度同样为 2n 的序列 b1​,b2​,…,b2n​,初始时 b 为空序列&…

【SpringCloud入门】-- SpringCloud优质组件介绍

目录 1. SpringCloud优质项目 2. 介绍SpringCloud优质项目 SpringCloudConfig(Spring) SpringCloudBus Eureka Hystrix Zuul Archaius Consul SpringCloudForCloudFoundry SpringCloudSleuth SpringCloudDataFlow SpringCloudSecurity SpringCloudZookeeper Spr…

【Redis】孔夫子旧书网爬虫接入芝麻代理IP:代理IP利用效率最大化

背景: 之前用过芝麻IP,写过这几篇文章 《【Python】芝麻HTTP代理系列保姆级全套攻略(对接教程自动领取每日IPIP最优算法)》 《【Python】记录抓包分析自动领取芝麻HTTP每日免费IP(成品教程)》 《爬虫增加代理池:使用稳…

ICC2:自定义快捷键和菜单

把一些常用的功能放在一个菜单里是什么体验?直接放在工具栏里是不是更方便?那设置成快捷键呢? gui_create_menu 自定义菜单可以把工具常用的功能放到一个菜单里,用户也可以把“执行脚本操作”加到菜单里。 举例来说: 1)把Editor Toolbox放到Favorite菜单里,floorplan 操…

行业报告 | AIGC发展研究

原创 | 文 BFT机器人 01 技术篇 深度学习进化史:知识变轨 风起云涌 已发生的关键步骤: 人工神经网络的诞生 反向传播算法的提出 GPU的使用 大数据的出现 预训练和迁移学习 生成对抗网络 (GAN) 的发明 强化学习的成功应用 自然语言处理的突破 即将发生的关键…

MinGW-w64安装和使用_亲测有效

MinGW-w64 是什么!? MinGW-w64 是一个在 Windows 系统上运行的 GNU 编译器套件,支持 C 和 C 语言的编译。它包括了 GCC 编译器、GNU Binutils 和一些其他的工具。在 MinGW-w64 中 各个版本的参数含义如下: x86_64:表…

1.ORB-SLAM3系统概述

1.内容简介 本系列文章主要基于ORB-SLAM3代码、论文以及相关博客,对算法原理进行总结和梳理。 ORB-SLAM系列整体架构是不变的,都包含Tracking、LocalMapping和LoopClosing三个核心线程,中间伴随着优化过程。在ORB-SLAM3算法中比较突出的改进…

腾讯安全董志强:四大关键步骤促进数据安全治理闭环,提升企业免疫力

高速发展的数字时代,数据已成为推动产业发展的最重要生产要素之一,真正成为了创造经济财富的数字能源,守护数据资产的安全成为企业高质量发展不可回避的重要命题。 6月13日,腾讯安全联合IDC发布“数字安全免疫力”模型框架&#…

我被一家无货源电商培训公司骗了怎么办?

我是卢松松,点点上面的头像,欢迎关注我哦! 最近,一位被无货源电商培训骗的人找到了卢松松,她说: 老师,你好,我是被无货源电商课程骗了的受害人,走投无路了,想…

5个超好用的开源工具库分享~

在实际项目开发中,从稳定性和效率的角度考虑,重复造轮子是不被提倡的。但是,自己在学习过程中造轮子绝对是对自己百利而无一害的,造轮子是一种特别能够提高自己系统编程能力的手段。 今天分享几个我常用的开源工具库:…

大佬们都是如何编写测试方案的?

目录 1、背景 2、编写的方式 2.1 第一阶段:在需求评审开始前 2.2 第二阶段:在需求评审开始后,技术方案设计中 2.3 第三阶段:技术方案设计后 2.4 第四阶段:测试方案评审前 2.5 第五阶段:测试方案评审…