度量与增长——OrionX AI算力管理工具的企业价值解读

news2025/1/23 7:09:14

从科学计算到人工智能,从AI模型开发到AI模型训练,从双精度到半精度,从OPENGL到CUDA,GPU都扮演着关键角色。本文主要从运维的人员的角度出发,来探讨GPU使用过程中遇到的管理问题和创新性解决办法。

GPU的管理和监控

相信每个运维中心都会有各类系统的监控大屏,在针对基础计算平台的监控中,通常会有CPU、内存、网络、存储等资源的使用监控及告警机制,同时还会有各类资源使用情况的TOP排名等。大家可能会发现一个问题:它缺少对GPU的详细数据监控——可能会有一些整卡数量和分配的数据统计,但是APP运行过程中,GPU是否在运算、GPU的算力高峰和低谷分别在什么时候等数据却因为缺乏有效的管理手段来统计,所以通常只能依靠运维人员对业务的理解和经验来判断。

OrionX AI算力池化解决方案,不仅能辅助管理员解决GPU使用过程中遇到的资源不足等问题,还能通过自身强大的智能化统计中心帮助运维人员提升运维管理能力。具体能力如下:

01 GPU资产统计

在OrionX界面中进入统计中心,打开资产管理统计界面,可以自定义信息表单,如GPU设备数量、算力分配和总量、显存分配和总量、虚拟设备使用数等指标。

图片

图1. 自定义监控面板

除此之外,用户还可以设置统计项目,并根据需求调整统计图表的位置、显示内容、呈现方式等。当然,导出统计数据也是必不可少的能力。

图片

图2. 图表内容均可定制

02  GPU任务调度统计

OrionX支持用户对GPU任务调度情况自定义多种统计维度,如并发任务数、24小时内任务申请的潮汐规律、任务数按资源分布、以及按照各种类型的ID进行分类等。

图3. 任务调度潮汐直观可见

03 运维监控

OrionX的运维监控界面提供了常规的设备运维监控指标,包括设备总数、可用设备数、异常告警、设备功耗等,方便用户评估集群规模、可用状态、运行状态、集群设备功耗变化等,为AI算力集群的建设和维护提供基础数据支撑。

图片

图4. 图表模板已预设,点选即可掌握集群状况

04 用户管理

解决了度量问题之后,用户就可以根据取得的数据采取合理措施来优化GPU的使用。于是新的问题又出现了,统计数据一般是管理员可见,真正的算力使用者一般是看不到的,也就没有办法自发地优化资源使用。

为了减少管理员的工作量,OrionX新增加LDAP的对接功能,支持GPU使用者拥有OrionX的登录权限,方便查询统计资源的使用情况。在OrionX的用户管理界面,就能找到LDAP的对接入口,根据系统提示输入对应的参数信息即可快速登录。

为了保证系统和数据的安全稳定,管理员可通过OrionX的用户管理界面对LDAP的用户权限进行自定义和修改,并且不受后续LDAP信息同步的影响。

图片

图5. OrionX用户管理界面示意图

GPU的热迁移和任务强制终止

OrionX除了拥有强大的监控统计功能外,还给管理员提供了许多管理手段,例如热迁移、强制任务停止等功能。这些能力又能在哪些场景为用户提供价值呢?

01 热迁移使用场景

OrionX热迁移是指将AI算力硬件上正在运行的计算任务和数据,从一个物理算力设备无缝迁移到另一个物理算力设备的过程,这个过程不需要中断或停止当前正在进行的计算任务。热迁移的主要目的是在不影响服务可用性的情况下,实现对AI算力资源的动态管理和优化。

图片

图6. OrionX热迁移示意图

场景一:设备维护

在没有热迁移功能时,维护一台在线的GPU设备需要很多准备工作,如找到合适的时间窗口、联系业务人员停止业务、进行流程审批等,会消耗不少时间和精力。

当拥有OrionX热迁移能力时,运维人员只需要找一个合适的时间窗口,仅需在控制界面将目标GPU设备上的AI任务点选,迁移到其他设备上执行,就可以开始设备的运维工作了,可大大减少运维工作量。

场景二:碎片整理

在长时间运行的AI应用中,显存分配和释放的不规则性,可能会导致显存碎片化,降低显存的利用效率。OrionX热迁移技术可实现对显存的动态整理和优化,将碎片化的显存重新整合,提高显存的利用效率,减少显存碎片对性能的影响,从而提升应用程序的性能和稳定性。

场景三:提升资源利用率

大家可能会产生一个疑问:热迁移是将任务从一个GPU迁移到另外一个GPU上,理论上资源占用并没有变化,是如何提升利用率的呢?这个就要从OrionX的热迁移的高阶用法说起。

OrionX的热迁移能让AI任务在不同设备之间来回迁移,还能够将任务的运行状态保存到硬盘中。当AI任务长时间没有响应、触发了管理员预设的释放资源时长阈值时,OrionX会将AI任务的相关数据和状态保存到硬盘中,将资源动态调配给其他任务;在后续收到该任务请求时,再将之前的状态还原到GPU中,从而在保证业务前后状态连贯性的同时,解决GPU资源被响应频率低业务长时间占用的难题。

02  强制任务停止场景

强制任务停止功能可以提升管理员的资源调配能力,在有紧急任务需要执行但资源不足的时候,管理员可通过手工结束一些重要性低、响应较少的任务,快速聚合相应算力资源进行支持。管理员也可以通过该功能清理一些不在预期内的资源占用,保障整个AI算力集群的健康状态。

图片

图7. 资源占用情况尽在掌握

结 语

借用现代管理学之父彼得·德鲁克的一句话——如果你无法度量,那么就不能有效增长。“增长”几乎是现在所有企业的目标,对于企业的IT部门来讲,能够度量好、使用好当前的IT资源,无疑是企业实现降本增效非常好的途径。

OrionX为企业的运维部门提供了全面又好用的AI算力管理工具,结合OrionX的算力池化功能,帮助用户在面对不断增长的算力需求时从容应对,专注业务增长。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1975937.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《电容-排容》

节省电路板空间:将多个电容集成在一个封装里,减小了占用的电路板面积。 便于安装和布线:提高生产效率和电路布局的便利性。 一致性较好:由于是同一批次生产,各电容的性能参数较为一致。 【参数】品牌,封…

网络云相册实现--nodejs后端+vue3前端

目录 主页面 功能简介 系统简介 api 数据库表结构 代码目录 运行命令 主要代码 server apis.js encry.js mysql.js upload.js client3 index.js 完整代码 主页面 功能简介 多用户系统,用户可以在系统中注册、登录及管理自己的账号、相册及照片。 每…

Maven实战(四)- 生命周期和插件

Maven实战(四)- 生命周期和插件 文章目录 Maven实战(四)- 生命周期和插件1.何为生命周期2.生命周期2.1.Clean生命周期2.1.Default生命周期2.3.Site生命周期 3.Maven插件3.1.插件目标3.2.插件绑定3.2.1.内置插件3.2.2.自定义插件 4…

算法学习day28

一、寻找右区间(二分法) 题意:题目很容易理解 但是转换为二分法有点晦涩 给你一个区间数组 intervals ,其中 intervals[i] [starti, endi] ,且每个 starti 都 不同 。区间 i 的 右侧区间 可以记作区间 j ,并满足 startj > e…

gptpdf深度解析:开源文档处理技术全攻略

目录 一、引言二、gptpdf 是什么?三、gptpdf 的功能特性1. 精准的 PDF 元素解析能力2. 对复杂文档结构的处理示例3. 高效的处理速度4. 低成本的优势 四、gptpdf 应用场景1. 学术研究与文献处理2. 企业文档管理3. 软件开发中的文档转换 五、gptpdf 代码示例1. 基本的…

【Vue3】组件通信之v-model

【Vue3】组件通信之v-model 背景简介开发环境开发步骤及源码总结 背景 随着年龄的增长,很多曾经烂熟于心的技术原理已被岁月摩擦得愈发模糊起来,技术出身的人总是很难放下一些执念,遂将这些知识整理成文,以纪念曾经努力学习奋斗的…

图像梯度与几种算子

“滤波器”也可以称为“卷积核”,“掩膜”,“算子”等。 1、Sobel算子 Sobel算子是一个33的卷积核,利用局部差分寻找边缘,计算得到梯度的近似值。x和y方向的Sobel算子分别为: 梯度有方向,对于一个图像&a…

电子元器件—三极管(一篇文章搞懂电路中的三极管)(笔记)(面试考试必备知识点)

三极管的定义及工作原理 1. 定义 三极管(Transistor)是一种具有三层半导体材料(P-N-P 或 N-P-N)构成的半导体器件,用于信号放大、开关控制和信号调制等应用。三极管有三个引脚:发射极(Emitter…

SpringBoot智慧旅游在线平台的设计与实现(源码+论文+部署讲解等)

博主介绍:✌全网粉丝10W,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围:SpringBoot、Vue、SSM、HLM…

从地铁客流讲开来:地铁客运量特征

1.数据来源 数据来源:MetroWatch地铁观察 | 地铁客流量数据 在做城市地铁客流数据的整理及可视化这块其实国内已经有很多大牛一直在做无偿免费的更新,其中覆盖多城市且每日更新数据的主要有两个:一个是地铁数据库 | 地铁客流量查询 (metrod…

数字农业农村云平台整体规划建设方案PPT

数字农业农村云平台的规划建设方案是一个全面而复杂的项目,涉及到多个方面的整合与创新。根据搜索结果,以下是一些关键点: 资料下载方式,请看每张图片右下角信息 1. 组织领导与政策支持:加强组织领导,确保…

如何在联络中心使用人工智能驱动的语音分析?

人工智能驱动的语音分析是一种使用自然语言处理和机器学习技术的语音识别软件。借助呼叫中心的语音分析,您可以将实时语音转换为文本。之后,程序会评估此文本以揭示有关客户需求、偏好和情绪的详细信息。 在联络中心,语音分析工具有助于&…

OpenCV函数

1,cv2.imread cv2.imread:这个函数可以直接用cv2.imread(filename, cv2.IMREAD_GRAYSCALE)直接将图片以黑白图像输入,也可以通过cv2.imread(img, 0)来将图片以黑白图像输入。其实这两者是一样的,如下图所示,可以将特定的颜色通道…

C语言程序设计之结构体篇2

程序设计之结构体2 问题2_1的代码2_1结果2_1 问题1_2代码1_2结果1_2 问题1_3代码1_3结果1_3 问题1_4代码1_4结果1_4 问题2_1的 函数 f u n fun fun 的功能是&#xff1a; 对 N N N 名学生的学习成绩&#xff0c;按从高到低的顺序找出前 m m m &#xff08; m < 10 m<1…

『 C++11 』模板可变参数包,Lambda表达式与 function 包装器

文章目录 模板可变参数模板可变参数包的展开可变参数包与STL容器中的emplace函数关系 Lambda 表达式function 包装器function 包装器对成员函数的包装bind 绑定 模板可变参数模板 可变参数模板是C11引入的一个特性,允许模板接收任意数量的参数; 该特性增加了C的泛型编程能力; 可…

搭建jenkins一键部署java项目

一、搭建jenkins 链接: https://pan.baidu.com/s/1jzx15PiyI8EhLd_vg7q8bw 提取码: ydhl 复制这段内容后打开百度网盘手机App&#xff0c;操作更方便哦 直接使用docker导入镜像&#xff0c;运行就好 docker run -di --name jenkins -p 8080:8080 -v /home/jenkins_home:/var/je…

黑神话:悟空

《黑神话&#xff1a;悟空》是由游戏科学公司制作的以中国神话为背景的动作角色扮演游戏&#xff0c;将于2024年8月20日发售 [9] [14]&#xff0c;简体中文PC标准版售价268人民币,数字豪华版售价328人民币。 [27] [34] 游戏中&#xff0c;玩家将扮演一位“天命人”&#xff0c…

洗袜子的小洗衣机哪款好?小户型洗衣机推荐!懒人洗袜子神器分享

市面上的那些迷你的小型洗衣机可以洗袜子&#xff0c;洗涤空间够一次性洗5-6双左右的袜子&#xff01;这种不仅不会因为清洗的衣物数量少而浪费水浪费电&#xff0c;同时使用也很便利&#xff0c;小小个的放在家的任意角落就可以进行清洗&#xff0c;不仅是清洗袜子这些&#x…

jquery.ajax + antd.Upload.customRequest文件上传进度

前情提要&#xff1a;大文件分片上传&#xff0c;需要利用Upload的customRequest属性自定义上传方法。也就是无法通过给Upload的action属性赋值上传地址进行上传&#xff0c;所以Upload组件自带的上传进度条&#xff0c;也没法直接用了&#xff0c;需要在customRequest中加工一…

GraphSAGE (SAmple and aggreGatE)知识总结

1.前置知识 inductive和transductive 模型训练&#xff1a; Transductive learning在训练过程中已经用到测试集数据&#xff08;不带标签&#xff09;中的信息&#xff0c;而Inductive learning仅仅只用到训练集中数据的信息。 模型预测&#xff1a; Transductive learning只能…