StarCloud开源行动:激发算力调度的创新潜力

news2024/9/24 17:11:33

01  于StarCloud

OpenCSG StarCloud 是一个集开源系统(Kubernetes ,K8S)与高性能计算(High Performance  Computing,HPC)一体的混合算力调度平台。它专注于大模型训练和推理,并提供一站式服务,包括从训练到部署,以及多模型比较等。除了在人工智能领域的应用,StarCloud 在工程设计与仿真、金融和风险管理、药物研发和医学研究等多个领域也展现出其卓越的性能。

随着大模型应用的发展及落地,GPU 算力资源变得日益紧张,StarCloud提供了多样化的异构计算算力服务,旨在满足大模型应用和高性能计算的需求,致力于构建一个普惠、易用的算力服务平台。StarCloud的资源调度平台有效缓解这一问题,通过精细化管理大模型的调度过程,从而提高资源的利用率。此外,企业可以利用StarCloud部署自己私有化的平台,实现定制化的资源管理和调度,以满足特定的业务需求。

02  StarCloud 功能介绍

StarCloud 是一个全面而高效的混合算力调度平台,它整合了多机多卡异构算力调度、异地多中心的统一调度,通过并行化计算加速大规模任务的处理。平台还能支持构建超大运算中心,调度数百万内核和数万GPU资源,同时提供了大模型微调的统一框架,以及多租户和私有化的支持,确保了调度的高效性和灵活性。

StarCloud功能覆盖了多个关键领域。接下来,本文将从用户模块、作业模块、资源模块、调度策略及其它这四个方面,为您详细解读 StarCloud 的核心功能:

用户模块

   1.多租户管理

  • 引入多租户管理功能,支持同时管理多个租户。

  • 通过强化数据与资源隔离,精准满足差异化租户需求。

   2. 用户角色

  • 允许定义和分配用户角色,优化访问控制和权限管理。

  • 为不同用户提供定制化的视图,并确保资源量与数据的独立性。

   3.用户和用户组设定

  • 提供了用户和用户组的设置功能,用户和用户组的管理更加便捷高效。

  • 确保系统用户的管理高效和准确。

   4.用户登录登出

  • 支持用户的登录和登出功能,确保系统的安全性和用户身份的验证。

作业模块

   1.作业状态查看

  • 允许实时监控提交作业的状态,包括进度和完成度。

  • 提供了对作业执行情况的全面监控,确保用户能够随时了解作业的进度和状态。

   2.作业详情和作业输出内容查看

  • 提供了对作业详细信息和输出内容的查看功能。

  • 深入了解作业的执行结果和输出。

   3.作业提交和相关参数配置

  • 提供了作业提交功能,同时还提供了相关参数的配置选项。

  • 灵活地配置作业的执行方式和参数。

资源模块​​​​​​

   

1.集群资源状态查看

  • 允许用户实时查看集群资源状态,包括资源的可用性和利用率。

  • 用户能够可视化管理资源,全面掌握集群资源的实时状况

   2.阿里云资源动态调度

  • 引入了阿里云资源的动态调度功能,能够更加灵活地管理和分配阿里云上的资源。

  • 满足不同作业的需求。

调度策略及其它

1.角色和队列关联

  • 提供角色和队列关联功能,将特定角色与特定队列相关联。

  • 简化作业的提交和管理流程。

   2.QoS创建和维护

  • 提供了QoS(服务质量)的创建和维护功能。

  • 满足不同作业的特定需求,确保作业按照预期的优先级和要求执行。

03  更多计划

未来,StarCloud 将持续优化和发展,增加更多实用的功能,进一步提升用户体验并满足不断变化的计算需求。这些功能可能包括但不限于:

  • StarCloud 一体式安装包

  • StarCloud K8S operator

  • StarCloud与 csghub整合, 允许用户选择模型微调

  • 支持更多微调框架例如 deepspeed, pytorch chepoint

  • 失败作业自动从检查点重启

StarCloud 开源地址:

https://github.com/OpenCSGs/llm-scheduler-ui 

https://github.com/OpenCSGs/llm-scheduler-api

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1677895.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

线上剧本杀小程序开发,探索剧本杀行业的巨大发展空间

剧本杀是当下非常流行的桌游,也是一种新型的社交游戏方式,受到了众多玩家的关注,成为年轻人社交游戏的首选方式。目前,剧本杀玩家开始迷上了线上剧本杀,剧本杀也在线上获得了新的发展,让市场发展摆脱了空间…

《五》Word文件编辑软件调试及测试

上一期&#xff0c;我们已经把大致的框架给完成了&#xff0c;那么今天&#xff0c;我们就把剩下的什么复制啊&#xff0c;改变字体啊什么的给做一下。 那我们就一步一步的来就可以了&#xff1a; 新建word&#xff1a; void MyWord::fileNew() {qDebug()<<"hhh&…

用wxPython和PyMuPDF将PNG图像合并为PDF文件

在日常工作中,我们经常需要将多个图像文件合并到一个PDF文档中,以便于查看、共享或存档。虽然现有的一些工具可以实现这一功能,但开发一个自定义的GUI工具可以更好地满足特定需求,并提供更好的用户体验。 在本文中,我将介绍如何使用Python、wxPython和PyMuPDF库创建一个简单的…

idea SpringBoot + Gradle 打成zip包(包含配置文件等)

前言&#xff1a; 通过上一文章&#xff0c;我们可以通过ideagradle 构建Springboot项目并实现打成jar包&#xff0c;本文章测试通过gradle 打包成zip包并包含启动文件、配置文件等信息&#xff1b;可点击此处查看idea SpringBoot Gradle 环境配置到项目打包-CSDN博客 一、工…

Char类型、转义及字符集:Java中的字符串奥秘

在Java的8中基本数据类型中&#xff0c;char类型是较难掌握&#xff0c;处理char类型本身的用法之外&#xff0c;还要理解其与字符串的关系、转义序列、字符集。 本文将从基础概念出发&#xff0c;逐步深入探讨这些主题&#xff0c;并通过实例演示来巩固理解。 一、Char类型&…

(001)apidoc 的安装

安装 1.确定 node 和 npm 的匹配版本 node -vv10.14.1# 切换node 版本 nvm list nvm use 20.12.22.安装 apidoc。 npm install -g apidoc3.生成文档&#xff1a; apidoc -i ../ -o document/ -f ".java$"-i &#xff1a;指定扫描路径。-o&#xff1a;输出目录。…

短剧私域-快速引流变现

短剧的爆火&#xff0c;衍生出了很多周边项目。 比如免费看剧App&#xff0c;短剧搜索机器人&#xff0c;短剧付费圈子等等。 这些项目的本质&#xff0c;就是借助短剧的热度&#xff0c;把流量引到自己的鱼塘进行变现。 短剧机器人大家都知道&#xff0c;目前最火的一种玩法…

Nginx+Keepalived高可用集群

NginxKeepalived高可用集群 服务器准备 服务器名IP软件包主从n1RIP 192.168.99.111 VIP 192.168.99.200nginx keepaliveMASTERn2RIP192.168.99.122 VIP 192.168.99.200nginx keepalivedh1RIP 192.168.99.133 VIP 192.168.99.200httpdh2RIP 192.168.32.144 VIP 192.168.99.200h…

2024江苏省赛 H. 完蛋,我被房产包围了 【费用流、分时图】

完蛋&#xff0c;我被房产包围了 n ≤ 200 , ∑ n ≤ 1 0 4 n \leq 200, \sum n \leq 10^4 n≤200,∑n≤104 求出最大利润 思路 每个代理商每次买房狂潮只能卖出 1 1 1 套房子&#xff0c;小红卖出一套房子贬值 1 1 1 元&#xff0c;小绿卖出一套房子贬值 ⌈ a i 10 ⌉ \…

短视频世上无人再似她:成都鼎茂宏升文化传媒公司

短视频世上无人再似她 —— 记忆中的光影传奇 在短视频盛行的今天&#xff0c;每一位创作者都在用镜头捕捉生活&#xff0c;记录世界&#xff0c;但有那么一位艺术家&#xff0c;她的作品如同夜空中最亮的星&#xff0c;即便是在信息洪流中&#xff0c;也依然闪耀着独一无二的…

数字社交的先锋:探索Facebook的未来发展

在当今数字化时代&#xff0c;社交媒体已经成为人们日常生活中不可或缺的一部分。而在众多社交平台中&#xff0c;Facebook一直处于引领地位&#xff0c;不断探索和创新&#xff0c;塑造着数字社交的未来。本文将深入探讨Facebook作为数字社交的先锋&#xff0c;探索其未来发展…

天锐绿盾和bitlocker有啥区别?

#绿盾文档加密系统# 天锐绿盾和BitLocker是两种不同的数据加密解决方案&#xff0c;它们各自有不同的重点和应用场景&#xff0c;以下是它们之间的主要区别&#xff1a; PC地址&#xff1a; https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5dfedee 移动…

华为hcip是什么?华为hcip网络工程师值得考吗?

前面我们讲了华为认证各个方向hcie的内容&#xff0c;那么很多同学会问&#xff0c;华为hcip是什么&#xff1f;华为hcip网络工程师值得考吗&#xff1f; 华为HCIP是什么&#xff1f; 华为HCIP&#xff08;Huawei Certified ICT Professional&#xff09;认证是华为技术有限公…

这三个网站我愿称之为制作答辩PPT的神

很多快要毕业的同学在做答辩PPT的时候总是感觉毫无思路&#xff0c;一窍不通。但这并不是你们的错&#xff0c;对于平时没接触过相关方面&#xff0c;第一次搞答辩PPT的人来说&#xff0c;这是很正常的一件事。一个好的答辩PPT可以根据以下分为以下几部分来写。 1.研究的背景和…

Leetcode—3146. 两个字符串的排列差【简单】

2024每日刷题&#xff08;135&#xff09; Leetcode—3146. 两个字符串的排列差 实现代码 class Solution { public:int findPermutationDifference(string s, string t) {int maps[26];int mapt[26];for(int i 0; i < s.size(); i) {int idxs s[i] - a;int idxt t[i] …

精酿啤酒的未来:啤酒的发展与展望

随着人们生活水平的提高和对品质生活的追求&#xff0c;精酿啤酒逐渐受到了广泛的关注和喜爱。作为精酿啤酒的代表&#xff0c;Fendi club啤酒凭借其与众不同的酿造工艺与技术&#xff0c;逐渐在市场中树立了良好的口碑。然而&#xff0c;面对未来激烈的竞争和不断变化的市场需…

摸鱼大数据——Linux搭建大数据环境(安装zooKeeper和zookeeper shell命令)五

安装zookeeper软件 1.上传软件 使用CRT等客户端远程上传 zookeeper-3.4.6.tar.gz 文件到/export/software目录下 2.解压软件 [rootnode1 ~]# cd /export/software/ [rootnode1 software]# tar -xzvf zookeeper-3.4.6.tar.gz -C /export/server/ [rootnode1 software]# cd /ex…

CentOS上Zookeeper集群安装部署

简介 Zookeeper是一款分布式的集群化软件&#xff0c;可以在多台服务器上部署&#xff0c;并协同组成分布式集群一起工作。 ZooKeeper是一个分布式的&#xff0c;开放源码的分布式应用程序协调服务&#xff0c;是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的…

若依cloud-plus(RuoYi-Cloud-Plus)框架(后端)分析

文章目录 本文以mysql为例项目结构图环境(最起码的配置)数据库初始化文件位置配置服务启动架构图框架分析&#xff1a; 本文以mysql为例 官方文档&#xff1a; https://plus-doc.dromara.org/#/ruoyi-cloud-plus/home 项目结构图 RuoYi-Cloud-Plus ├─ ruoyi-api …

霸道龙尊短视频:成都鼎茂宏升文化传媒公司

霸道龙尊短视频&#xff1a;龙族的传奇与现代的交融 在数字化时代的浪潮中&#xff0c;短视频以其短小精悍、内容丰富的特点&#xff0c;迅速占领了人们的碎片时间。成都鼎茂宏升文化传媒公司而在这些短视频中&#xff0c;一股独特的“霸道龙尊”风潮正在悄然兴起&#xff0c;…