高校建设AI算力平台方案探索

news2024/11/19 14:08:36

近年来,人工智能行业发展迅速,在自动驾驶、金融、医疗、教育等行业广泛应用。尤其是ChatGPT发布以后更是掀起了生成式AI的热潮,国内各大互联网厂商也相继发布自己的AI大模型。这也造成了大量的AI人才缺口,同时促进了高校的AI专业建设,为社会培养AI人才。

当前高校在AI专业建设面临很多问题,其中AI开发训练平台和AI算力平台的建设因为缺乏高效的解决方案,已成为困扰很多学校的难题。本文将针对高校面临的问题和解决方案进行讨论。

1、 AI算力分布在不同学院或科研团队,资源独享,给学校算力建设和统一管理带来困难

AI算力的建设通常与相关项目同步建设,可能分散在不同的学院或科研团队,各学院/团队分散管理和使用,且建设方式多采用工作站或少量服务器的形式;造成各学院/团队资源相对独立,团队间无法共建共用,即使资源在闲置的情况下,也无法相互复用资源,造成资源严重浪费。

通过趋动科技的算力池化方案即可轻松解决上述问题。学校通过信息中心建设校级的算力中心,利用OrionX创建AI算力资源池,通过软件定义AI算力的形式改变传统以物理卡为单位的方式使用算力。能够实现AI算力资源的切分、远程调用、跨机聚合、算力超分、热迁移等功能。最终达到全校师生共享算力资源,提高资源利用率,减少算力资源总投资。

图片

OrionX方案架构图

2、传统IaaS平台无法高效使用GPU资源

一些高校信息中心在做基础资源平台建设时,通常会采用增购硬件的方式来满足不断增长的算力需求。但随着硬件采购受限,且一般的IaaS平台对算力管理调度、尤其是异构算力的管理和使用能力有限,多以直通方式为主,现有的资源提供模式的弊端就会突显出来:AI算力不能在各个任务之间灵活切换,使资源使用率不理想,也增加了运维人员的工作量。

趋动科技的OrionX池化方案适应容器、K8S、KVM、物理机等各个场景,可以很好地解决资源使用的问题,云平台的虚拟机通过调用OrionX vGPU资源即可满足师生对算力的需求。

图片

OrionX vGPU具备动态加载和释放的能力,当有AI任务执行时,才会占用GPU的算力资源,任务执行完毕GPU资源会立即释放,这样就能很好解决GPU在不同使用者之间切换的问题。

传统IaaS平台直通GPU的方式受到服务器GPU卡数量的限制,单一虚拟机最多能用到其所在物理节点的GPU数量,这样就不能满足一些大算力需求的场景。通过OrionX的跨机聚合能力,可以快速方便的提供多卡的运行环境,提升使用效率。

3、新设AI专业的高校,在AI实训平台建设时缺乏整体解决方案

一些刚开设AI相关专业的高校,在AI实训平台的建设方面还处在摸索阶段:在大量学生需要实验的场景下会通过配置PC机+低端GPU的方案来满足;在针对科研场景时,又会购买性能较好的GPU服务器来满足需求。这种方案导致GPU资源不能共享利用,增加建设成本,造成资源浪费。

针对这种应用场景,趋动科技提供Gemini + OrionX的整体解决方案。Gemini提供AI开发训练的基础平台,包含租户管理、算法开发工具、数据管理、模型训练、输出管理等功能。OrionX做底层的算力管理,提供资源切分、资源聚合、资源超分等能力。

图片

OrionX+Gemini方案

学校通过OrionX的资源切分能力结合Gemini AI开发训练平台,可以满足大量学生实训的场景;通过OrionX的资源聚合能力快速提供多卡环境给科研团队做算力支撑,结合Gemini任务训练能力,轻松完成分布式模型训练。

学校可以充分利用现有的终端设备和实验环境,连接AI开发训练平台即可完成各类AI学习和相关实验课程。无需采购大量含有GPU的终端设备,从而减少硬件投资,提高资源利用率,实现降本增效的目标。

4、多校区带来的资源管理问题

很多高校都会有不同的校区,这些分散的校区对AI算力平台的建设带来了硬件资源分配、资源管理、运维监控等挑战;加之GPU采购又难度加大,还需要面对同时管理GPU集群和国产AI芯片集群的问题。

趋动科技的池化方案可以建设多个异构算力池进行,实现跨机房、多集群、国产AI芯片与GPU的统一管理,更灵活地满足学校的算力需求。

图片

多数据中心管理

总结来看,趋动科技的Gemini+OrionX方案主要有如下优势:

01 利用率提升

将物理GPU切片为任意大小的虚拟GPU,1个GPU虚拟化成多个虚拟GPU,供多个学生同时使用,互不干扰,充分利用资源,节约成本。

02 场景灵活转换

统一资源池,同时支持教学和教研场景,瞬间转换,资源随时就绪;使用结束后立即释放,无回收之忧。

03 灵活的资源调度

自助式服务,简化管理,简化运维,师生只需关注自己专业,不用在意底层算力资源情况。

04 弹性伸缩

基于资源池的灵活扩展,按需分配,资源大小可以动态调节,无需重启。

05 资源监控

提供全局资源池性能监控,为运维人员提供直观的资源利用率等信息。

06 GPU资源统一管理

支持对多个数据中心的GPU设备,统一管理,灵活分配,充分保护学校投资。

案例分享

案例一:西安工业大学

痛点:

  1.  以物理卡直通到虚拟机的方式很难让GPU在不同用户之间切换,会导致资源长期被占用但是又没有任务运行的情况;

  2. AI科研老师会自己采购一些GPU服务器来满足算力需求,课题研究完毕时,设备也会闲置,导致资源浪费。

解决方案:

学校在新建云平台的项目中,采用了OrionX的池化方案与云平台集成的整体方案,满足师生对GPU的需求。

将GPU服务器从云平台中剥离出来,部署OrionX的池化组件,统一管理GPU资源;在云平台中创建师生常用的系统,安装OrionX的Client相关组件,通过远程调用的方式获取到GPU资源;测试正常后,制作成新的系统镜像,共享给整个云平台用户。这样全校师生就能通过云平台方便的创建和使用含有OrionX vGPU资源的虚拟机。整个租户和计费的管理都由云平台负责,保留了用户的使用习惯。

图片

解决方案示意图

客户收益:

  1. 解耦GPU与VM的绑定关系。通过OrionX的动态加载与释放的能力,避免了VM长期占用GPU但没有实际任务运行的情况;

  2. 实现了GPU资源的共享,避免重复建设,减少机房、电力、运维等多方便的投入,实现绿色发展;

  3. 通过OrionX的横向扩展能力和异构管理能力,在未来多种AI算力并存的场景下,保持一致的管理能力和使用体验。

案例分享

案例二:西南民族大学

痛点:

  1. 西南民族大学前期已经使用基于VMware平台的AI开发训练平台,该平台底层采用Nvidia vGPU实现物理GPU资源固定切分,GPU资源使用不灵活,无法按照需求灵活切分GPU资源;

  2. 当在不同场景下使用GPU资源时,需要有专人对GPU资源进行切分管理和维护,人力成本一直居高不下;

  3. 管理效果不理想,无法同时满足学生、老师的实训要求和科研要求。

解决方案:

通过OrionX创建AI算力资源池,替代Nvidia vGPU方案,实现GPU资源集中管理和 GPU 资源自动调度,满足实训、科研、以及学生毕业设计时的场景需求。

能够自动根据学生或老师的需求切分GPU资源,并自动调度到合适的GPU资源。平台上线后,能够最大限度保持学生、老师的使用习惯,不增加新的学习成本和时间成本。

图片

解决方案示意图

客户收益:

  1. 能够不断降低高校的硬件购置成本,减少GPU硬件采购规模,提升GPU资源利用率,使资源利用更加合理、科学;

  2. 构建基于OrionX可弹性伸缩的GPU资源池,既能满足实训需求,又能满足科研需要,缩短AI模型的开发、训练周期;

  3. 资源按需索取,简化业务上线流程,原来需要花费数天的GPU资源申请流程,仅需要几秒钟即可完成;

  4. 利用OrionX的GPU自动池化调度替代传统的人工管理方式,大大降低了运维复杂度和运维管理成本。

除上述高校外,还有核心信息交叉学院、天津大学、上海工程大学、南京农业大学等高校也正通OrionX AI算力池化方案解决AI算力使用中面临的各种问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1434793.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

VitePress-09-文档中引入静态资源-图片-相对路径的方式

补充-markdown文档中引入图片的格式 格式如下 :![图片异常时展示的文案](图片资源的路径) 图片资源的路径 : 可以是【绝对路径】,也可以是【相对路径】,关键是可以正确的找到该资源。 引入静态资源的说明 需要注意的是&#xff0c…

第01课:自动驾驶概述

文章目录 1、无人驾驶行业概述什么是无人驾驶智慧出行大趋势无人驾驶能解决什么问题行业趋势无人驾驶的发展历程探索阶段(2004年以前)发展阶段(2004年-2016年)成熟阶段(2016年以后) 2、无人驾驶技术路径无人…

【码农新闻】 用HTTPS,还能被查出浏览记录吗 常用且好用的在线工具......

目录 【码农新闻】 用HTTPS,还能被查出浏览记录吗 常用且好用的在线工具...... 用HTTPS,还能被查出浏览记录吗常用且好用的在线工具尤雨溪 文章所属专区 码农新闻 欢迎各位编程大佬,技术达人,以及对编程充满热情的朋友们&#xf…

代码随想录算法训练营第一天 | 数组理论基础,704. 二分查找,27. 移除元素

704. 二分查找 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 示例 1: 输入: nums [-1,0,3,5,9,12], target 9 输出…

c#cad 创建-文本(一)

运行环境 vs2022 c# cad2016 调试成功 一、代码说明 该代码是一个用于在AutoCAD中创建文本的命令。 首先,通过添加using语句引用了需要使用的Autodesk.AutoCAD命名空间。 然后,在命名空间CreateTextInCad下定义了一个名为CreateTextCommand的类&…

01背包问题 动态规划

01背包问题 动态规划 01背包问题 动态规划写了点代码 C#实现程序运行结果代码和程序已经上传 01背包问题 动态规划 很有意思的问题。 写了点代码 C#实现 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Ta…

java之spring事务管理

spring事务管理 1. 事务概念 事务是一组操作的集合,是一个不可 分割的工作单位, 这些操作,要么同时成功,要么同时失败 和mysql数据库的事务管理道理一样。开启事务 start 提交事务 commit 回滚事务 rollback2.操作实现 Transa…

系统架构设计师考试大纲2023

一、 考试方式(机考) 考试采取科目连考、 分批次考试的方式, 连考的第一个科目作答结束交卷完成后自动进 入第二个科目, 第一个科目节余的时长可为第二个科目使用。 高级资格: 综合知识科目考试时长 150 分钟&#xff…

8868体育助力意甲国际米兰俱乐部 国米成功续约球员

意甲的国际米兰俱乐部是8868合作体育球队之一,根据国米新闻网站的消息,在与劳塔罗、巴雷拉续签之前,国际米兰将会首先签下约迪马尔科。 有消息说,国际米兰的确有和巴雷拉续约的打算,但是根据国际米兰的计划&#xff0…

YoloV8改进策略:Neck改进:HAM混合注意力机制改进YoloV8|多种改进,多种姿势涨点|代码注释详解

摘要 HAM通过快速一维卷积来缓解通道注意机制的负担,并引入通道分离技术自适应强调重要特征。HAM作为通用模块,在CIFAR-10、CIFAR-100和STL-10数据集上实现了SOTA级别的分类性能。 论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0031320322002667?vi…

迁移学习实现图片分类任务

导入工具包 import time import osimport numpy as np from tqdm import tqdmimport torch import torchvision import torch.nn as nn import torch.nn.functional as Fimport matplotlib.pyplot as plt %matplotlib inline# 忽略烦人的红色提示 import warnings warnings.fi…

Haas 开发板连接阿里云上传温湿度和电池电压

目录 一、在阿里云上创建一个产品 二、开发环境的介绍 三、创建wifi示例 四、编写SI7006和ADC驱动 五、wifi配网 六、主要源码 七、查看实现结果 一、在阿里云上创建一个产品 登录自己的阿里云账号, 应该支付宝,淘宝账号都是可以的。 接着根据需求…

【leetcode题解C++】77.组合 and 216.组合总和III and 17.电话号码的字母组合

77. 组合 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 示例 1: 输入:n 4, k 2 输出: [[2,4],[3,4],[2,3],[1,2],[1,3],[1,4], ] 示例 2: 输入&#xff1a…

5 分钟让你了解什么是搜索引擎

文章目录 搜索引擎概述基于业务模式分类垂直搜索(垂搜)通用搜索(通搜)本地搜索引擎 基于技术实现分类基于关键词的搜索引擎(Keyword-based Search Engine)语义搜索引擎(Semantic Search Engine&…

LeetCode 热题 100 | 链表(中下)

目录 1 19. 删除链表的倒数第 N 个节点 2 24. 两两交换链表中的节点 3 25. K 个一组翻转链表 4 138. 随机链表的复制 菜鸟做题第三周,语言是 C 1 19. 删除链表的倒数第 N 个节点 到底是节点还是结点。。。 解题思路: 设置双指针 left 和 ri…

ReactNative实现一个圆环进度条

我们直接看效果,如下图 我们在直接上代码 /*** 圆形进度条*/ import React, {useState, useEffect} from react; import Svg, {Circle,G,LinearGradient,Stop,Defs,Text, } from react-native-svg; import {View, StyleSheet} from react-native;// 渐变色 const C…

少儿编程教育新趋势:信息学奥赛与Scratch等级考试融合实践

近年来,信息学奥林匹克竞赛(简称信息学奥赛)以其独特的魅力吸引了大量热爱编程的青少年参与。这项赛事不仅考察参赛者的编程技能,更注重逻辑思维能力、问题解决能力和创新能力的培养。通过参加信息学奥赛,孩子们能够在…

OpenGL 入门(九)—Material(材质)和 光照贴图

文章目录 材质设置材质光的属性脚本实现 光照贴图漫反射贴图高光反射贴图 材质 材质本质是一个数据集,主要功能就是给渲染器提供数据和光照算法。 如果我们想要在OpenGL中模拟多种类型的物体,我们必须针对每种表面定义不同的材质(Material)属性。 我们…

设计模式1-访问者模式

访问者模式是一种行为设计模式,它允许你定义在对象结构中的元素上进行操作的新操作,而无需修改这些元素的类。这种模式的主要思想是将算法与元素的结构分离开,使得可以在不修改元素结构的情况下定义新的操作。 所谓算法与元素结构分离&#x…

不会PS怎么抠图?分享几个电商抠图的方法

在工作中,物品抠图是一项常见的任务。为了更好地展示物品,需要将其从背景中抠出来,以便与其他元素进行组合或展示。但是,手动抠图不仅费时费力,而且效果往往不尽如人意。这时,一款强大的物品抠图软件就成为…