GPU池化如何帮助用户灵活“避坑”

news2024/12/26 21:13:06

随着5G、人工智能、云计算、大数据、IoT等技术的推动,万物互联的时代即将到来。因为大量AI应用都依赖GPU的超强计算能力,可以预见算力需求将越来越大,GPU在数据中心的地位也会越来越高。

然而理想是丰满的,现实却是骨感的,GPU的计算能力虽然很强,但GPU总是因各种原因“罢工”:不是因为GPU故障,就是因为GPU资源不够,导致上层AI应用无法安全、稳定地运行,使AI应用管理员很狼狈,每天总是疲于奔命。

究其原因主要有以下两点:

1、硬件总是不靠谱

虽然工程师们已经为服务器设计了完整的冗余性,包括双电源、双网口、Raid磁阵等,这可以大大降低单点原因带来的故障风险,但GPU卡却因无法实现双卡冗余,而无法避免因为GPU硬件带来的风险。

故障处理:

出故障的物理GPU设备,必须重新更换新的替代设备,期间可能需要经过很长的时间进行资源协调,或安装配置,才能对环境进行恢复。如果采用不同型号的GPU设备,还需要重新部署位于底层的GPU驱动和软件栈,导致故障恢复时间长。

面临的挑战:

位于同一数据中心的其它GPU节点,当前运行正常,资源长期处于空闲状态,却无法将GPU资源调度给故障主机节点使用,导致空闲资源浪费、而故障节点的AI应用无资源可用的尴尬局面。

2、虚拟机环境下,大量采用GPU直通方式

以KVM环境为例,GPU直通因其技术简单、性能损耗最小等优点,成为当今最为主流的方式。

如上图所示,直通方式能够将GPU设备直接映射到虚拟机内部,使得AI应用能够像物理机一样使用GPU设备,不改变用户的使用习惯。

然而这样一来,当虚拟机所在宿主机的GPU卡出现故障时,就会与物理机相同的问题;一方面,对于出故障的物理GPU设备,必须重新更换新的替代设备,才能对环境进行恢复。另一方面,出故障节点的AI应用无法使用到长期处于空闲状态的GPU资源。

在此背景下,怎么帮助AI应用从故障的GPU节点“避坑”,快速找到可用资源、缩短AI应用的故障恢复时间呢?

要实现AI应用从故障的GPU节点“避坑”,必须将AI应用从GPU硬件资源上解除绑定,在架构上实现AI应用与GPU资源的解耦。趋动科技的OrionX(猎户座)AI算力资源池化技术,可以实现软件定义的GPU,为用户提供GPU资源池化的整体解决方案。帮助客户构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI加速器。

向下:对接所有的GPU服务器,形成可管、可控、可查的GPU计算资源池,负责承载所有来自于客户端的大量计算任务。

向上:提供可弹性伸缩、可按需申请的GPU资源,为用户提供无感的资源使用体验。

如上图所示,基于OrionX软件定义算力的能力,当AI应用在运行过程中,即使出现GPU掉线、或GPU主机节点宕机的情况,OrionX能够快速从资源池中的其它GPU节点分配新的GPU资源给AI应用,用户只需要重新启动任务,即可完成GPU资源的快速切换。

AI应用对OrionX分配的资源变化完全无感知,有效地避免了因硬件故障导致业务长时间宕机的情况;特别是在AI任务推理场景中,效果更加显著,管理员不用再担心因硬件带来的故障风险,大大提升了用户使用体验,提高了资源利用率。

除此之外,GPU池化还具备以下价值点:

1、远程调用

OrionX支持提供GPU资源远程调度的能力,即AI训练或推理服务部署在非GPU主机上,借助集群内其他GPU主机实现远程GPU的加速能力,并保障服务性能。

2、资源切分

OrionX提供GPU单卡资源算力切分功能,可实现多个服务容器共享单张GPU卡,并支持限制和隔离每个服务容器所占用的GPU算力、显存额度。基于OrionX提供的隔离功能,能够保障服务间互不干扰,保障服务性能。

3、算力隔离

OrionX提供GPU资源的算力和显存配额功能,以达到多个任务同时运行在一个GPU设备时,避免资源争抢的情况,从而实现资源隔离,让AI应用更加稳定。

4、任务管理

OrionX提供任务管理功能,包括任务队列、任务抢占、任务高低优先级等。当资源池剩余资源不够时,OrionX任务队列支持将客户端提交的任务自动排入OrionX的任务队列,不同优先级别的任务按高低顺序排队,相同级别按进入队列时间先后顺序排队,让任务运行更加合理、科学;针对关键且紧急的任务时,通过任务抢占功能,能够从GPU资源池内自动筛选出满足资源条件,且能够被抢占的任务择优进行中断,并将被中断任务所释放的资源用于该任务,确保关键任务优先运行,从而减少人工干预,提高资源利用率和管理效率。

5、资源超售

OrionX支持GPU资源超售功能,业务服务使用GPU资源时允许按一定比例超过配额。在不扩容硬件GPU资源的前提下,允许更多用户共享GPU资源池的算力资源。

当前,数字化正在各行业推动业务创新,更新基础设施与架构有益于企业在整体大环境中脱颖而出。趋动科技希望通过自身GPU池化技术,将运维工程师们从各种机械化的工作中解脱,大幅缩短硬件故障的时间、让运维人将更多创造力放在数字创新以及企业业务创新上,为企业提供提供更优的竞争力!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2135497.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue3 : ref 与 reactive

目录 一.ref 二.reactive 三.ref与reactive的区别 四.总结 一.ref 在 Vue 3 中,ref 是一个用于创建可读写且支持数据跟踪的响应式引用对象。它主要用于在组件内部创建响应式数据,这些数据可以是基本类型(如 number、string、boolean&…

音视频入门基础:AAC专题(4)——ADTS格式的AAC裸流实例分析

一、ADTS格式的AAC裸流实例分析 在《音视频入门基础:AAC专题(3)——AAC的ADTS格式简介》中对AAC的ADTS格式进行了简介。下面用一个具体的例子来对ADTS格式的AAC裸流进行分析。 通过《音视频入门基础:AAC专题(2&#x…

内蒙古优质农畜产品天津推介会成功举办

9月10日至11日,内蒙古自治区人民政府驻北京办事处联合内蒙古自治区农牧厅、商务厅、市场监督管理局及内蒙古国贸集团主办的内蒙古优质农畜产品天津推介会在天津市和平区津湾广场成功举办。 本次推介会采取了两会(品牌推介会、产销对接会)、三…

PoS 和 PoW 矿机系统区块链公链开发成本分析

区块链公链的开发成本受到多个因素的影响,尤其是不同共识机制(如 PoS 和 PoW)的选择。本文将深入分析 PoS(权益证明)和 PoW(工作量证明)矿机系统的特点,以及其开发公链的成本和价格组…

SAP自动化-AS02修改资产信息

Python源码 #-Begin-----------------------------------------------------------------#-Includes-------------------------------------------------------------- import sys, win32com.client import os#-Sub Main-----------------------------------------------------…

《深度学习》—— 神经网络模型中的损失函数及正则化惩罚和梯度下降

文章目录 前言一、损失函数二、正则化惩罚三、梯度下降 前言 在神经网络中,损失函数、正则化惩罚和梯度下降是三个关键的概念,它们共同作用于网络的训练过程,以提升网络的性能和泛化能力。神经网络模型结构如下图所示: 在构建好一…

Linux 挂载磁盘与开机自动挂载操作指南

Linux 挂载磁盘与开机自动挂载操作指南 文章目录 Linux 挂载磁盘与开机自动挂载操作指南一 挂载磁盘1 查看硬盘信息2 新增数据盘执行分区3 新建分区4 创建一个主分区5 分区编号6 初始磁柱编号7 截止磁柱编号8 查看新建分区信息9 分区结果写入10 新分区同步操作系统11 设置新分区…

[docker]入门

本文章主要讲述的是,docker基本实现原理,docker概念的解释,docker的使用场景以及docker打包与部署的应用。 文章中docker所运行的系统:CentOS Linux release 7.9.2009 (Core) 目录 docker是什么,什么时候需要去使用 …

香港电讯SASE解决方案:终端与云端的安全护航

现代工作模式存在网络安全隐忧 随着远程办公模式的普及,越来越多员工使用各种个人终端设备,如台式电脑、笔记本电脑、智能手机、平板电脑等进行协作办公。然而,由于IT人才短缺和员工隐私等因素,许多企业无法统一管理端点设备的安…

Gitlab实现多项目触发式自动CICD

工作中可能会遇到这种场景,存在上游项目A和下游项目B,项目B的功能依赖项目A(比如B负责日志解析,A是日志描述语言代码),这种相互依赖的项目更新流程一般如下: A项目更新,通知B项目开发…

怎么将flv转换成mp4格式?这几种转换方法超多人在用!

怎么将flv转换成mp4格式?FLV,这一视频格式在大众视野中相对边缘化,其鲜为人知并非偶然,背后隐藏着多重挑战,首要挑战在于其兼容性的局限,由于FLV的小众属性,许多现代软件与操作系统并未给予充分…

多个音频怎么合并?把多个音频合并在一起的方法推荐

多个音频怎么合并?无论是制作连贯的播客节目还是将音乐片段整合成专辑,音频合并已成为许多创作者的常见需求。通过有效合并音频,可以显著提升项目的整体质量,确保内容的连续性和一致性。然而,合并后的文件通常比原始单…

滑动窗口(4)_将x减到0的最小操作数

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 滑动窗口(4)_将x减到0的最小操作数 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记,欢迎大家在评论区交流讨论💌 目…

CANFD在乘用车应用说明

随着汽车电子的高速发展,车内信息的急剧增多,传统的CAN总线的数据传输能力已经很难满足车辆ECU的数据传输需求了,此时CANFD就应运而生了。CANFD和CAN最主要的区别就是CANFD的ID段和数据段能够以不同的速率传输数据,这就保证了即使…

【Python】生成图片验证码

1. 首先安装第三方库PIL(图像处理库) pip install pillow 2. 编写生成验证码代码 这里字体 SimHei.ttf 文件要放在该文件目录下。 import random from PIL import Image, ImageDraw, ImageFont, ImageFilterdef check_code(width128, height30, char…

UE-- 引入IOS framework 库 真机运行闪退

UE-- 引入IOS framework 库 真机运行闪退 事请是这样的 我编写了一个插件 里面是 调用IOS原生代码的 obj-c与swift混编 我从Xcode编写了一个framework库(动态库) 然后放入ue进行引用 正常的打包出来了 ipa 文件 结果真机运行报错了 Exception Typ…

Apache SeaTunnel Committer 进阶指南

Apache SeaTunnel 作为一个开源的数据集成工具,旨在简化和加速海量数据的采集和传输。 社区的 Committer 是指拥有项目存储库的写权限的社区成员,即 Committer 可以自行修改代码、文档和网站,也可以合并其他成员的贡献。成为 Apache SeaTunn…

eHR软件好用吗?人事管理系统的功能有哪些?

随着科技的发展,企业管理方式也在不断变革。其中,电子人力资源管理(eHR)系统作为一种新兴的人力资源管理工具,受到了越来越多企业的关注。那么,eHR系统到底好不好用?它有哪些具体功能呢&#xf…

解决Docker镜像不可下载

使用国内可信的镜像中心 可信国内镜像网址:https://hub.atomgit.com/ 点击镜像仓库 搜索想要的镜像 按如图所示,即可查看对应的版本 点击复制,即可下载使用 缺点: 可用的镜像相比于docker官方量少 并且,获取的镜像名字…

架构师知识梳理(七):软件工程-测试

测试原则和方法 系统测试是为了发现错误而执行程序的过程,成功的测试是发现了至今尚未发现的错误的测试。 测试原则 应尽早并不断的进行测试;测试工作应该避免由原开发软件的人或小组承担;在设计测试方案时,不仅要确定输入数据…