GPU over IP/IB:趋动OrionX产品的创新之路

news2025/1/12 18:41:50

在数字化转型的浪潮中,GPU over IP/IB技术正成为数据中心和云计算领域的一股新兴力量。这种技术通过将物理GPU资源虚拟化,实现了跨网络的高效利用,为AI、机器学习、科学计算等高性能计算任务提供了前所未有的灵活性和扩展性。

本文将深入探讨这一技术的原理、优势以及趋动科技OrionX产品如何通过实现GPU over IP/IB技术,为企业的智算算力使用带来革命性的变革。

Part1

GPU over IP/IB技术

GPU over IP/IB技术是现代数据中心(智算中心)和云计算环境中的关键创新,它们允许GPU资源通过网络进行远程访问和高效利用。这种技术的核心在于,它能够将物理GPU的计算资源抽象为虚拟化的GPU(vGPU),使得这些资源可以在网络中的任何位置被调用,就像访问本地资源一样。这种能力极大地扩展了GPU的应用范围,使得原本局限于单个机器的GPU资源得以在更广阔的网络环境中共享和利用。

GPU over IP技术通过TCP/IP网络实现,而GPU over IB则依赖于InfiniBand网络,后者提供了更低的延迟和更高的带宽,适合于大规模并行计算,智算中心和数据中心环境。

Part2

GPU资源网络化的必要性

在当今这个数据驱动的时代,GPU作为并行处理的强有力工具,在AI、机器学习、科学计算等领域扮演着至关重要的角色。然而,随着计算需求的激增,传统的GPU部署模式面临着一系列挑战:

· 资源利用率低:在传统的部署模式下,每个GPU通常被绑定到特定的机器上,这导致在某些情况下,GPU可能处于空闲状态,而其他机器的GPU则可能过载。

· 成本高昂:为了满足不断增长的计算需求,企业不得不投入巨资购买更多的GPU硬件,这不仅增加了初期投资,还带来了维护和管理的复杂性。

· 灵活性不足:物理GPU的部署位置限制了AI应用的部署灵活性,使得资源的动态调整变得困难。

为了克服这些挑战,GPU over IP/IB技术应运而生。它通过将GPU资源虚拟化并通过网络进行管理,实现了资源的动态分配和优化利用。这样,企业可以根据实际需求,灵活地调整GPU资源,确保资源始终得到高效利用,同时降低了成本和运维复杂度。

此外,这种技术还支持跨地域的资源统一管理调度,使得企业能够构建更加灵活和可扩展的计算环境,以适应不断变化的业务需求。

Part3

OrionX-GPU over IP/IB技术实践者

趋动科技的OrionX(猎户座)AI算力资源池化解决方案是GPU over IP/IB技术的实践者和领导者。OrionX通过软件定义算力,颠覆了原有的AI应用直接调用物理GPU的架构,增加了软件层,将AI应用与物理GPU解耦合。AI应用调用逻辑的vGPU,再由OrionX将vGPU需求匹配到具体的物理GPU。这一架构实现了GPU资源池化,让用户高效、智能、灵活地使用GPU资源,达到了降本增效的目的。

图片

Figure 1:趋动产品OrionX逻辑架构图

OrionX的产品功能和特性包括:

· 资源池化:OrionX帮助客户构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI算力。

· 动态资源分配:OrionX支持将GPU切片为任意大小的vGPU,允许多AI负载并行运行,提高物理GPU利用率。

· 高性能:OrionX本地vGPU性能损耗几乎为零,远程vGPU性能损耗小于2%,确保了计算任务的高效执行。

· 弹性扩展:支持从单台到整个数据中心GPU服务器纳管,通过RDMA(IB/RoCE)或TCP/IP网络连接各个节点,实现资源池弹性扩展。

· 灵活调度:支持AI负载与GPU资源分离部署,CPU与GPU资源解耦合,有助于最大化数据中心基础设施价值。

· 全局管理:提供GPU资源管理调度策略,GPU全局资源池性能监控,为运维人员提供直观的资源利用率等信息。

· 对AI开发者友好:一键解决AI开发者面临的训练模型中GPU/CPU配比和多机多卡模型拆分问题,节省大量宝贵时间。

Part4

OrionX与其它GPU虚拟化技术对比

在整个技术领域,全球范围内真正提供GPU over IP/IB的厂商屈指可数。

之前有Bitfusion,2019年被VMware收购,2023年5月5日后已经不对外销售。再之前,有一个学校的研究项目是rCUDA,这是一个闭源的软件,提供的是二进制文件,可以申请下载试用,但不得用于商业用途,其支持的CUDA版本基本都是8.0,已经有很多年没有人维护了。趋动科技在这个领域深耕,从2019年成立以来,专注在软件定义AI算力领域,真正让基于GPU over IP/IB技术的产品在企业、智算中心部署和发挥巨大价值。

传统的GPU虚拟化技术,例如大家熟知的Nvidia的GRID(vGPU)软件,是2013年发布的主要面向Hypervisor用以支持虚拟机更好的使用GPU,在那个年代,人工智能尚未爆发,更多的使用场景是VDI,即大家熟悉的Citrix和VMware的虚拟桌面方案,用以在制造和设计领域,更好的利用GPU资源。这种方案是基于静态固定等比切分的理念给予虚拟机更小颗粒度的GPU以实现资源共享。

之后随着容器逐渐渗入企业,一些基于容器的GPU共享技术开始出现,例如开源的GPU Manager/cGPU等,这类方案也是遵循类似的思路,针对单张GPU卡,按照业务的需求,采用细颗粒度算力和显存的静态分配。在常见的K8S Yaml文件里你可以看到不同厂家的资源设置参数如下:

xxx.xxx.xxx/vcuda-core: n #申请的vGPU的数量,指的是一个容器内可以用几个vGPU

xxx.xxx.xxx/vcuda-memory: n #申请的vGPU所使用的显存大小

xxx.xxx.xxx/vcuda-ratio: n #申请的vGPU所使用的算力占整卡的百分比

此类方案只能采用静态分配,其vGPU的数量受到Pod所在节点的GPU数量的限制,无法跨越单机的范畴,无法在一个GPU的资源池里通过网络来获取GPU资源池的资源。该类方案实现了容器的GPU资源共享,但是相当于把多个鸡蛋放在一个篮子里,如果没有高可用的方案对于业务的高可用会带来较大的风险。在虚拟机领域,VMware早些年已经支持了带vGPU的VM的热迁移的能力,配合其HA/DRS给企业的业务带来更大的业务保障。

所以,本质上来讲,趋动的OrionX和此类VM或容器GPU共享方案不仅技术路线不一样,实现的功能不一样,而且,看到的愿景也完全不一样——一个看到的是网络联通的整个GPU资源池,一个仅仅是单服务器节点内的卡。

一个典型的GPU over IP/IB的部署架构如下:

图片

Figure2: CPU和GPU服务器混合部署

新型智算中心推荐的就是这种支持多芯异构、解耦部署的架构,GPU和CPU/内存灵活配比,随需调用。

趋动科技深度参与的《中国移动NICC新型智算中心技术体系白皮书》里也有智算资源池化平台相关的阐述,请在第6章节进行查看。基于GPU池化的业务逻辑架构图如下:

图片

Figure 3:AI业务与AI算力池化

Part5

OrionX在企业中的应用与收益

在OrionX数百个企业中的应用案例表明,该技术能够有效提升GPU资源的利用率,降低硬件成本。企业通过OrionX构建的AI算力资源池,可以根据业务需求灵活调整资源分配,实现了资源的弹性扩展。此外,OrionX还支持与容器云平台的集成,进一步简化了AI应用的部署和管理,降低了运维复杂度。了解详细的客户案例,请浏览趋动科技官网和关注官方公众号。

结语

OrionX基于GPU over IP/IB的技术创新,不仅提高了GPU资源的利用率,还通过简化部署和管理流程,为企业的AI创新提供了强有力的支持。随着AI技术的不断进步,OrionX有望在更多行业中发挥其独特的价值,促进企业降本增效、节能减排,加速AI发展和业务创新,推动企业数字化转型和智能化升级。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1471193.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【管理咨询宝藏资料25】某能源集团五年发展战略报告

本报告首发于公号“管理咨询宝藏”,如需阅读完整版报告内容,请查阅公号“管理咨询宝藏”。 【管理咨询宝藏资料25】某能源集团五年发展战略报告 【关键词】战略规划、五年战略、管理咨询 【文件核心观点】 - LL应以快速做大做强为目标,专注…

VUE3环境搭建开发准备

VUE3 Vue (发音为 /vjuː/,类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建,并提供了一套声明式的、组件化的编程模型,帮助你高效地开发用户界面。无论是简单还是复杂的界面,Vu…

常用实验室器皿耐硝酸盐酸进口PFA材质容量瓶螺纹盖密封效果好

PFA容量瓶规格参考:10ml、25ml、50ml、100ml、250ml、500ml、1000ml。 别名可溶性聚四氟乙烯容量瓶、特氟龙容量瓶。常用于ICP-MS、ICP-OES等痕量分析以及同位素分析等实验,也可在地质、电子化学品、半导体分析测试、疾控中心、制药厂、环境检测中心等机…

在autodl搭建stable-diffusion-webui+sadTalker

本文介绍在autodl.com搭建gpu服务器,实现stable-diffusion-webuisadTalker功能,图片音频 可生成视频。 autodl租GPU 自己本地部署SD环境会遇到各种问题,网络问题(比如huggingface是无法访问),所以最好的方…

Java/Python/Go不同开发语言基础数据结构和相关操作总结-GC篇

Java/Python/Go不同开发语言基础数据结构和相关操作总结 1. 常见gc方式1.1 gc判断对象是否存活1.2 引用计数法1.2 标记-清除算法1.3 复制算法1.4 标记-压缩算法1.5 分代收集算法 2. java的gc方式以及垃圾回收器2.1 gc方式2.1 gc回收器2.1.1 Serial收集器2.1.2 ParNew收集器2.1.…

11:日志分析系统ELK|Elasticsearch|kibana

日志分析系统ELK|Elasticsearch|kibana 日志分析系统ELKELK概述Elasticsearch安装Elasticsearch部署Elasticsearch集群Elasticsearch插件 熟悉Elasticsearch的API调用_cat API创建 tedu 索引使用 PUT 方式增加数据查询数据修改数据删除数据 KibanaKibana…

VS连接MySQL以及找不到libmysql.dll的解决方法

VS连接数据库需要在项目中进行配置,具体可见 https://blog.csdn.net/weixin_40582034/article/details/115562097?ops_request_misc%257B%2522request%255Fid%2522%253A%2522170891897216800213058288%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522…

Java基于微信小程序的校园二手物品交易系统,附源码

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

Sora:引领AI视频创作新时代(浅聊)

目录 一. 技术基础与发展二. 潜力与应用Sora的技术特点1. 高度智能的图像识别与生成能力2. 强大的语音识别与生成能力3. 创新的交互式视频编辑体验4. 高效的视频处理能力 Sora的应用场景1. 影视制作2. 教育培训3. 娱乐与游戏4. 商业广告 三. 面临的挑战四. 未来展望1. 结论2. 那…

【设计模式】5种创建型模式详解

创建型模式提供创建对象的机制,能够提升已有代码的灵活性和复用性。 常用的有:单例模式、工厂模式(工厂方法和抽象工厂)、建造者模式。不常用的有:原型模式。一、单例模式 1.1 单例模式介绍 1 ) 定义 单例模式(Singleton Pattern)是 Java 中最简单的设计模式之一,此模…

选择 Python IDE(VSCode、Spyder、Visual Studio 2022和 PyCharm)

前言 当选择 Python 开发工具时,你需要考虑自己的需求、偏好和项目类型。下面是对VSCode、Spyder、Visual Studio 2022和 PyCharm的对比推荐总结: 结论 1、如果你专注于“数据科学”,选择SpyDer没错。 内容 Visual Studio Code (VS Code)…

视频和音频使用ffmpeg进行合并

1.下载ffmpeg 官网地址:https://ffmpeg.org/download.html 2.配置环境变量 此电脑右键点击 属性 - 高级系统配置 -高级 -环境变量 - 系统变量 path 新增 文件的bin路径 3.验证配置成功 ffmpeg -version 返回版本信息说明配置成功4.执行合并 ffmpeg -i 武家坡20…

淘宝镜像地址停止运行了 安装插件是失败如果解决

由于淘宝镜像目前已经停止更新运营了,所以导致在使用npm install安装无法成功 先查看一下安装镜像 npm config get registry //查看当前是不是淘宝镜像如果是新的淘宝镜像 重新安装新的淘宝镜像 npm config set registry https://registry.npmmirror.com/ 再次查看…

鸿蒙开发【WebGL】简单了解

WebGL的全称为Web Graphic Library(网页图形库),主要用于交互式渲染2D图形和3D图形。目前HarmonyOS中使用的WebGL是基于OpenGL裁剪的OpenGL ES,可以在HTML5的canvas元素对象中使用,无需使用插件,支持跨平台。WebGL程序是由JavaScr…

Linux7.9环境源码编译安装ffmpeg6.x

1.官网ffmpeg下载源码 https://ffmpeg.org/download.html#build-windows 2.未安装x264库则先安装配置 可以先查询x264库: whereis libx264 安装编译工具和依赖库: sudo yum install gcc make cmake mercurial git yasm pkgconfig autoconf automake libtool sudo…

【服务器数据恢复】ext3文件系统下硬盘坏道掉线的数据恢复案例

服务器数据恢复环境: 一台IBM某型号服务器上有16块FC硬盘组建RAID阵列。上层linux操作系统,ext3文件系统,部署有oracle数据库。 服务器故障&检测: 服务器上跑的业务突然崩溃,管理员发现服务器上有2块磁盘的指示灯…

力扣链表篇

以下刷题思路来自代码随想录以及官方题解 文章目录 203.移除链表元素707.设计链表206.反转链表24.两两交换链表中的节点19.删除链表的倒数第N个节点面试题 02.07. 链表相交142.环形链表II 203.移除链表元素 给你一个链表的头节点 head 和一个整数 val ,请你删除链…

NPS配置内网穿透-Windows,PVE

Windows和PVE的区别就是下载客户端的时候一个选windows-amd64(64位的电脑)另一个选 linux-amd64(64位电脑),386对应的是32位的电脑. Releases ehang-io/nps (github.com) PVE的安装参考的是以下视频安装.利用PVE虚拟机,来打造属于自己的All In One系统吧&#xf…

ssm747普通话培训信息管理系统设计与实现(源码+调试+LW)

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于ssm普通话培训信息管…

北航复试知识点总结

2024.2.25 住行 报道+机试+两天面试=4天 面试流程 (每个人大概20min,早一点到考场!) 形式:5位老师(一记录,四提问) 老师 陆峰 办公地址:北京航空航天大学新主楼H1033 电子邮箱: lufeng@buaa.edu.cn 个人主页:http://shi.buaa.edu.cn/lufeng/ 面试礼仪 于无形中…