【AI基础设施】智算场景的资源管理系统与未来展望

news2024/12/23 13:51:05

高性能计算与智算场景

首先澄清两个概念,高性能计算与智算场景,高性能计算主要是面向天气预测、生物计算、材料计算等场景,而最近几年很火的智算主要是面向AI场景的计算,如语音识别、图像识别、自动驾驶等场景,我们可以看到他们有一个共同的基础组件能力,叫分布式资源管理与任务调度执行服务,在HPC场景用了最多的就是Slurm和LSF,在大数据场景用的比较多的就是Yarn和K8s,但未来,智算场景,甚至HPC、大数据场景(数据湖)也会统一到K8s

HPC、大数据、AI批量计算的发展历程和趋势

云原生批量计算面临的关键挑战

而K8s的原生调度不能解决作业管理缺失、调度策略局限、领域计算框架支持不足、资源规划复用、异构计算支持不足等问题,而Yarn本身可以解决部分问题,但在容器的支持上还需要完善,从未来来看,Yarn与K8s的功能会同质化越来越严重。

Volcano总体架构和优势

主要从资源利用率,智能混合调度,这个功能可以用在AI场景的训推一体上,来提升整体的资源使用效率,但需要结合GPU的虚拟化技术,除非像70B以上的大模型,都是在同一类似的A800卡上做训练和推理

未来展望

智算调度未来可能主要向几个方面发展

1. 多场景混合调度:包括在线、离线任务混合;CPU与GPU任务混合;GPU长任务(推理)与短任务混合等,提高整体资源的利用率,降低计算所带来的成本消耗

2. 智能任务调度和优化:针对线上任务的执行数据学习,通过机器学习算法来进行更加智能的调度和对任务资源利用效率的优化,以提升任务的调度效率和资源利用率

3. 跨中心的资源管理和调度:未来数据处理、推理和训练资源很有可能在不同地域的不同中心,我们需要实现跨中心的资源管理和调度,来满足资源利用率的最优化

....(待补充)

智算平台是一个系统性的工程,除了资源管理外,还需要高性能RDMA网络(IB或者ROCE),高性能分布式存储(Lustre或GPFS等),构成整个智算平台的三驾马车。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1320370.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Git 如何撤回已 Push 的代码

在日常的开发过程中,我们广泛利用Git进行版本控制。然而,有时我们可能会误将错误的代码推送到远程仓库,或者希望在本地返回到先前的某个版本以重新进行开发。 就像我个人的经历一样,我曾推送了一些我认为未来会非常有用的优化方案…

14:00面试,14:05就出来了,问的问题有点变态。。。

从小厂出来,没想到在另一家公司又寄了。 到这家公司开始上班,加班是每天必不可少的,看在钱给的比较多的份上,就不太计较了。没想到12月一纸通知,所有人不准加班,加班费不仅没有了,薪资还要降40…

SQL进阶理论篇(十一):什么是MVCC?

文章目录 简介什么是MVCC快照读与当前读悲观锁的问题示例参考文献 简介 在MySQL中,默认的隔离级别是可重复读,可以解决脏读和不可重复读的问题,但不能解决幻读问题。如果想要解决幻读问题,就需要采用串行化的方式,通过…

数据结构——【万字文章+配图+代码】带你深入理解二叉树

1. 二叉树的概念 二叉树是一种有限集合,由根和左右子树构成,每个结点最多有两棵子树,且这两棵子树具有顺序关系 2. 二叉树的特殊情况: 2.1 满二叉树: 一个二叉树,如果每次的结点都达到最大值&#xff…

07-Eventing及实践

1 Knative Eventing的相关组件 Knative Eventing具有四个最基本的组件:Sources、Brokers、Triggers 和 Sinks 事件会从Source发送至SinkSink是能够接收传入的事件可寻址(Addressable)或可调用(Callable)资源 Knative S…

二维码智慧门牌管理系统升级解决方案:房屋管理

文章目录 前言一、一站式服务二、全方位管理三、未来展望四、智慧解决方案 前言 科技带来智慧生活 随着科技的不断发展,智能化已经成为我们生活的重要组成部分。二维码智慧门牌管理系统是这一趋势中的关键工具之一。除了提供标准地址服务外,该系统还为房…

全栈开发中的安全注意事项:最佳实践和工具

安全性是当今数字环境中最重要的问题,而在全栈开发中这一点尤为重要。当企业努力创建强大且动态的应用程序时,他们必须应对复杂的安全威胁领域。在本文中,我们将探讨开发人员可以用来确保安全的全栈开发环境的最佳实践和工具。 1.1 全栈开发的…

电脑软件:推荐一款非常实用的屏幕截图软件

目录 一、功能介绍 二、软件特色 三、常用快捷键 四、软件总结 五、软件下载 FastStone Capture是一款功能强大的屏幕截图软件,它可以帮助用户轻松地捕获屏幕上的任何区域,并将其保存为各种格式的图像文件。以下是关于FastStone Capture软件的一些详…

小信砍柴的题解

目录 原题描述: 时间:1s 空间:256M 题目描述: 输入格式: 输出格式: 样例1输入: 题目大意: 主要思路: 注意事项: 总代码: 原题描述&#…

59. 螺旋矩阵 II(java实现,史上最详细教程,想学会的进!!!)

今天来分享一下螺旋矩阵的解题思路及代码的实现。 题目描述如下: 首先拿到这道题,首先不要慌张,我们来仔细分析一下会发现并没有那么难。 首先看下边界的元素是1、2、3递增的,那么我们也许可以根据这一点先把边界的元素一个一个给…

上下界取min/max的线段树问题:P8518 [IOI2021] 分糖果

https://www.luogu.com.cn/problem/P8518 没有要求在线,显然离线(。维护时间戳,上线段树。 好了,我们现在知道一个人的曲线变化了。怎么做呢? 前面所有碰上下界的都是没用的!我们只需要找最后一段的时间…

TrustZone之顶层软件架构

在处理器中的TrustZone和系统架构中,我们探讨了硬件中的TrustZone支持,包括Arm处理器和更广泛的内存系统。本主题关注TrustZone系统中发现的软件架构。 一、顶层软件架构 下图显示了启用TrustZone的系统的典型软件栈: 【注意】:为简单起见,该图不包括管理程序,尽管它们可…

【C语言】鹏哥C语言刷题训练营——第5节内容笔记(含代码全面分析和改进,讲解)

系列文章目录 身躯已然冰封,灵魂仍旧火热 本文由睡觉待开机原创,未经允许不得转载。 本内容在csdn网站首发 欢迎各位点赞—评论—收藏 如果存在不足之处请评论留言,共同进步! 文章目录 系列文章目录前言题目链接(有需要…

计算机组成原理——数制与编码

1.在以下编码中,零的表示唯一的是(C) A.反码 B.原码 C.补码 D.原码和移码 2.假设某数的真值为-100 1010B,在计算机内部表示为1011 0110B,该数采用的编码为(D) A.移码 B.原码 C.反码 D.补码 3.…

Linux shell编程学习笔记36:read命令

目录 0 前言1 read命令的功能、格式、返回值和注意 1.1 命令功能1.2 命令格式1.3 返回值1.4 注意事项2 命令应用实例 2.1 一次读入多个变量值2.2 不指定变量名2.3 测试read命令的返回值2.3 指定输入时限并进行相应处理2.4 -t 指定结束符2.5 -n 指定输入字符个数2.6 -N 指定输入…

分类预测 | Matlab实现AOA-SVM算术优化支持向量机的数据分类预测【23年新算法】

分类预测 | Matlab实现AOA-SVM算术优化支持向量机的数据分类预测【23年新算法】 目录 分类预测 | Matlab实现AOA-SVM算术优化支持向量机的数据分类预测【23年新算法】分类效果基本描述程序设计参考资料 分类效果 基本描述 1.Matlab实现AOA-SVM算术优化支持向量机的数据分类预测…

css的filter全属性介绍

原图: 模糊(blur) 单位可为px或rem,值越大,越模糊 filter:blur(3px) filter:blur(0.3rem) 亮度(brightness) 值可为数字或百分数,小于1时,亮度更暗;等于1时,无变化&am…

微信支付怎么申请0.2费率

作为移动支付的主流方式,微信收款和支付宝为商家带来了便利的同时,每笔交易都要收取的0.6%收款手续费也成为商家的负担。现在使用现金支付的人少之又少,为了给顾客带来便捷的购物体验,所以即便是要付出手续费&#xff…

十四、YARN核心架构

1、目标 (1)掌握YARN的运行角色和角色之间的关系 (2)理解使用容器做资源分配和隔离 2、核心架构 (1)和HDFS架构的对比 HDFS架构: YARN架构:(主从模式) &…

visual stdio code运行vue3

npm init vuelatest 该命令初始化vue项目 使用visual stdio code创建vue项目 ,这边是vue-project文件夹 vs code打开项目 vscode操作vue项目 vscode操作vue项目