AI算力的新时代:智算中心的挑战与创新

news2024/11/27 3:46:23

随着AI的发展,作为AI三要素算法、数据、算力中的基础设施——算力首先迎来了高速的发展。智算中心作为AI时代承载算力的关键基础设施,在政策、市场的双重驱动下进入了高速建设周期,其在推动数字经济发展和技术进步方面发挥着重要作用,但同时在建设使用中也面临一系列的挑战:

1. 算力融合问题:现在的智算中心需要提供通用算力和智能算力,通用算力主要由基于CPU的服务器提供,适用于广泛的计算任务,如云计算。智能算力主要由基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供专注于人工智能的训练和推理。但是一个AI的应用通常会同时用到CPU和GPU,那么怎么解决CPU运算时GPU空闲,GPU运算时CPU空闲的配比难题,最终将不同算力高效融合是目前智算中心面临的一个挑战。

2. 算力孤岛问题:智算中心往往存在不同厂家的GPU类型,这些GPU类型之间往往不能相互兼容,并且相互之间有着较高的技术壁垒和各自的生态系统,造成不同厂家的GPU构建自己的部署区域,使用不同的管理和维护体系,这就形成了算力的孤岛问题。如何跨越各厂商间的技术差异,实现无缝衔接与操作,打破技术孤岛是智算中心急需解决的问题。

3. 算力低效问题: AI算力的利用率是智算中心优化其性能和效率的关键因素之一,目前大部分的智算中心都是以裸机服务器的方式直接供给客户使用算力,这种方式是一种独占的方式,一旦一台服务器被分配给一个客户,意味着即使这些算力并没有被使用,其他客户也是无法使用这些算力的。这就造成虽然算力中心整体算力利用率不高,但是新客户却无法购买到算力的困境。

4. 算力收益问题: 算力超卖在传统云计算和数据中心运营中是一种常见做法,它可以提供超出物理CPU资源限制的计算能力,以实现更高的资源利用率和成本效益。业界也在探索符合智算中心的算力超卖技术,来提高算力收益。

5. 算力SLA问题:在超大规模算力中心,算力硬件包括磁盘、内存、CPU、GPU卡等发生故障的几率较大。如果要对这些硬件进行维护,就需要停止正在上面运行的AI应用,待重新分配到新的硬件后才能重新启动AI应用,由此造成的AI应用长时间停服,将降低算力SLA。

面对这些挑战,趋动科技提出了软件定义AI算力的解决方案OrionX,其对算力的使用调度进行了多项创新,有助于解决智算中心面临的诸多挑战,可提高智算中心的运营效率和灵活度:

1. 解耦通用算力和智能算力

OrionX采用开创性的远程调用AI算力的使用方式,这使得AI应用可以跑在CPU通用算力服务器上;而当需要智能算力时,可以轻松通过网络远程调用有GPU的服务器进行计算。这既可以保护传统云计算通用算力的投资,又可以将业务扩展到新型的智能计算,从而完美实现不同算力的融合。

图1 远程调用AI算力

2. 创新性AI算力池化

OrionX采用软件定义的方式抽象了算力硬件,底层适配跨厂商多型号的AI算力卡包括英伟达、华为、寒武纪,海光等,并将其池化后向上层提供统一类型的算力实例。对于AI算力的使用者而言,只需采用声明式的方式定义AI所需的算力资源,例如,需要多少OrionX vGPU,每个OrionX vGPU提供多少算力(算力占比Ratio,显存使用量GMEM),即可动态申请OrionX vGPU算力资源,而无需关心后端真正提供算力的节点、GPU设备,这可以很好地解决不同算力资源技术孤岛的问题。管理人员可以通过统一的界面管理和运维不同的算力资源。

3. 按需分配AI算力

OrionX可以实现以算力1%、显存1MB为细粒度的算力供给,为不同应用按需提供算力资源,大幅度提高资源利用率。如下图所示,不同的AI业务需要不同的算力规格,OrionX可以做到"量身裁衣"匹配合适的算力,提高卡利用率承载更多业务。

图2 细粒度切分算力示例

4. AI算力分时复用:

OrionX非独占的资源分配方式,使其可以在相同的算力设备上承载更多的用户,实现AI算力资源的超卖,显著提高资源利用率及运营效益。

图3 资源复用提升利用率

5. AI应用热迁移能力:

OrionX可以为AI业务提供无中断的业务迁移能力,不影响AI业务对GPU资源的远程调用。如图5所示,当底层硬件需要计划性维护时,维护人员可以将AI任务不中断迁移到其他GPU服务器,而上层的应用没有感知,提高智算中心的SLA。

图4 热迁移示例

OrionX在AI算力的使用和调度上开发了一系列创新性功能,可以解决智算中心面临的众多问题,提高智算中心的效率和灵活度。根据已实施的项目数据,用户可将实现显著的算力效率提升,以及能源消耗的大量下降。

图5 算力池化收益

OrionX助力智算中心更高效、更灵活,要建智算,必选OrionX!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1962071.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Gin】深度解析:在Gin框架中优化应用程序流程的责任链设计模式(下)

【Gin】深度解析:在Gin框架中优化应用程序流程的责任链设计模式(下) 大家好 我是寸铁👊 【Gin】深度解析:在Gin框架中优化应用程序流程的责任链设计模式(下)✨ 喜欢的小伙伴可以点点关注 💝 前言 本次文章分为上下两部分&#xf…

数学建模--微分方程

目录 常见的微分方程模型 微分方程建模的基本步骤 代码示例 常微分方程 ​编辑 ​编辑 偏微分方程 ​编辑 应用实例 结论 如何在数学建模中准确识别和选择合适的微分方程模型? 微分方程模型在解决实际问题中的应用案例有哪些? 常微分方程&a…

SpringBoot整合FFmpeg进行视频分片上传

SpringBoot整合FFmpeg进行视频分片上传------>Windows 分片上传的核心思路: 将文件按一定的分割规则(静态或动态设定,如手动设置20M为一个分片),用slice分割成多个数据块。为每个文件生成一个唯一标识Key&#xf…

ONNX模型的量化

我们都希望从代码中榨取更多的性能,对吧? 在现代,充斥着需要大量计算资源的复杂机器学习算法,因此,榨取每一点性能至关重要。 传统上,机器学习算法是在具有支持大量并行计算能力的 GPU 上进行训练的。但是…

WordPress建站:如何使用ChemiCloud搭建外贸独立站

以前自行搭建一个网站,不懂一点技术那是很难完成的,现如今WordPress的出现极大地降低了搭建网站的技术门槛,不需要懂任何代码,只需按步骤操作就行。WordPress 是一个非常流行的开源内容管理系统(CMS)&#…

职业教育计算机网络综合实验实训室建设应用案例

近年来,职业教育在培养技能型人才方面发挥着越来越重要的作用。然而,传统的计算机网络技术教学模式往往重理论、轻实践,导致学生缺乏实际操作能力和职业竞争力。为了改变这一现状,唯众结合职业教育特点,提出了“教、学…

Kubeflow v1.7.0 创建新用户

文章目录 为新用户创建配置文件配置用户密码重启auth生效 为新用户创建配置文件 apiVersion: kubeflow.org/v1beta1 kind: Profile metadata:name: kubeflow-cyw-example-com # replace with the name of profile you want, this will be users namespace name spec:owner:k…

STC单片机UART映射printf

文章目录 使用STC-ISP生成UART初始化函数 增加如下函数&#xff0c;注意使用printf函数需要添加 #include <stdio.h> 头文件 #include <stdio.h>void Uart1_Init(void) //9600bps12.000MHz {SCON 0x50; //8位数据,可变波特率AUXR | 0x01; //串口1选择定时器2为…

【Spring】——Spring概述、IOC、IOC创建对象的方式、Spring配置、依赖注入(DI)以及自动装配知识

&#x1f3bc;个人主页&#xff1a;【Y小夜】 &#x1f60e;作者简介&#xff1a;一位双非学校的大二学生&#xff0c;编程爱好者&#xff0c; 专注于基础和实战分享&#xff0c;欢迎私信咨询&#xff01; &#x1f386;入门专栏&#xff1a;&#x1f387;【MySQL&#xff0…

LeetCode 101.对称二叉树 C写法

LeetCode 101.对称二叉树 C写法 思路&#xff1a; 将该树一分为二&#xff0c;左子树的左边与右子树的右边比&#xff0c;左子树的右边与右子树的左边比&#xff0c;不相等或者一边为空则不是对称。 代码&#x1f50e;&#xff1a; bool _isSymmetric(struct TreeNode* Leftroo…

程序员开发指南

在这个快节奏的时代&#xff0c;作为一名程序员&#xff0c;大家都希望能更快地开发出高质量的应用&#xff0c;而不是花费大量时间在基础设施和后台服务的搭建上。今天&#xff0c;我要向大家介绍一款专为懒人开发者准备的一站式开发应用的神器——MemFire Cloud。 一站式开发…

使用代理访问内网:实验二

目录 环境搭建 内网搭建&#xff08;win2019&#xff09; 跳板机搭建&#xff08;win10&#xff09; 实验步骤 1. win10上线kali 2. 借助msf做代理 3. 在攻击机上做个代理&#xff0c;访问目标网站 4. 使用SocksCap64工具&#xff0c;进行sock4a隧道的连接 5. 启用soc…

TypeScript 的主要特点和重要作用

还是大剑师兰特&#xff1a;曾是美国某知名大学计算机专业研究生&#xff0c;现为航空航海领域高级前端工程师&#xff1b;CSDN知名博主&#xff0c;GIS领域优质创作者&#xff0c;深耕openlayers、leaflet、mapbox、cesium&#xff0c;canvas&#xff0c;webgl&#xff0c;ech…

最短路(dijkstra迪杰斯特拉)

最短路径问题在图论中是一个经典的问题&#xff0c;目的是找到从一个起始顶点到其他所有顶点的最短路径。Dijkstra算法是解决非负权图最短路径问题的常用算法。下面是一个使用Dijkstra算法解决最短路径问题的Java程序例子。 动画描述(从0节点开始更新) 问题描述 假设有一个图…

【机器学习西瓜书学习笔记——模型评估与选择】

机器学习西瓜书学习笔记【第二章】 第二章 模型评估与选择2.1训练误差和测试误差错误率误差 欠拟合和过拟合2.2评估方法留出法交叉验证法自助法 2.3性能度量查准率、查全率与F1查准率查全率F1 P-R曲线ROC与AUCROCAUC 代价敏感错误率与代价曲线代价曲线 2.4比较检验假设检验&…

VSCode+Vue3无法找到模块“../components/xxxxx.vue”的声明文件的错误

莫名奇妙的错误 今天用Vue3写个demo&#xff0c;在components下面新建了一个DeviceList.Vue的文件&#xff0c;在HomeView引用它后居然报错&#xff0c;提示&#xff1a;无法找到模块“…/components/DeviceList.vue”的声明文件&#xff0c;真是离了个大谱&#xff0c;文件明…

【Redis】 拓展:Redis - BigKey方案探讨

BigKey: 用户越多&#xff0c;redis数据越多&#xff0c;bigkey会使得缓存数据更大&#xff0c;网络带宽会被占用&#xff0c;执行效率就低下&#xff0c;高并发的时候吞吐量QPS也会下降。 产生原因&#xff1a; 看如下list&#xff1a; 一个key的内容太大&#xff0c;比如1M&…

VR舒适度术语表与检查表:为MR和空间计算应用创业者准备

随着混合现实&#xff08;MR&#xff09;和空间计算应用的发展&#xff0c;确保用户在虚拟环境中的舒适度变得尤为重要。本文将介绍一套专门针对VR舒适度的术语表&#xff0c;并提供两个知名VR游戏作为示例&#xff0c;来展示如何应用这些术语。这些术语和示例可以帮助开发者更…

基于Hadoop的服装电商数据分析系统【Hdfs、flume、HIve、sqoop、MySQL、echarts】

文章目录 有需要本项目的代码或文档以及全部资源&#xff0c;或者部署调试可以私信博主项目介绍总体研究方向数据集介绍配置flume文件HIve建表HIveSQL大数据分析MySQL建表Sqoop命令导出数据到MySQL数据可视化店铺销售情况.......等 总结每文一语 有需要本项目的代码或文档以及全…

【面向就业的Linux基础】从入门到熟练,探索Linux的秘密(十四)-租云服务器及配环境、docker基本命令

主要介绍了租云服务器和docker配置、基本命令&#xff01;&#xff01;&#xff01; 文章目录 前言 一、云平台 二、租云服务器及安装docker 1.阿里云 2.安装docker 三、docker命令 将当前用户添加到docker用户组 镜像&#xff08;images&#xff09; 容器(container) 四、实战…