趋动科技 OrionX on VMware 打造 AI 就绪平台

news2024/9/28 19:26:50

着科技进步和产业变革的加速演进,人工智能(AI)已经成为兵家必争之地。今年以来伴随着ChatGPT带来的鲶鱼效应,人工智能成为科技产业创新的焦点,其应用范围越来越广泛,并将持续发展。科技产业龙头正加大在人工智能领域的军备竞赛。算法、数据、算力作为人工智能领域的三要素,也同时受到了业内关注。在政府、学术机构、企业等各个层面,AI都受到高度重视,其在学术研究、技术创新、人才教育等方面的发展都呈现全新发展态势。作为AI市场中的重要组成,以GPU技术为主的AI加速市场也得到了快速的发展,与此同时,由于GPU硬件价格昂贵,传统使用GPU算力的独占式使用方式缺乏灵活性和经济性,云原生技术的发展又催生了快速交付细粒度切分GPU算力的需求,所以市场上急需经济高效GPU算力池化方案。


VMware作为虚拟化与云原生技术的领导者,针对不同使用场景有对应的GPU资源技术方案。

趋动科技作为GPU池化技术领导者,自主研发的OrionX AI算力资源池化软件可以为企业用户构建数据中心级AI算力资源池和AI开发平台。OrionX将AI应用与物理算力资源解耦,并通过高效的通讯机制,使得AI应用、CUDA应用可以运行在云或者数据中心内任何一个物理机、Container或者VM内而无需挂载物理GPU。OrionX GPU池化软件的收益多多:

  • 兼容已有的AI应用和CUDA应用,使其仍然具有使用GPU加速的性能。
  • 为AI应用和CUDA应用在云和数据中心的部署提供了很大的灵活度,无需受GPU服务器位置、资源型号和数量的约束。
  • OrionX vGPU资源随AI应用和CUDA应用启动时分配,随应用程序退出时自动释放,减少GPU空闲时间,提高GPU的利用率。
  • 通过对GPU资源池的管理和优化,提高整个云和数据中心GPU的利用率和吞吐率。
  • 通过统一管理GPU,减轻GPU的管理复杂度和运维成本。

VMware此次联合趋动科技验证了在VMware Cloud Foundation(后面缩写为VCF)平台上提供GPU池化算力方案的能力,目的是更加灵活地为AI训练提供GPU算力,助力AI场景快速落地。

本次经过联合方案验证,主要是将OrionX与VMware VCF with Tanzu 结合部署,主要架构如下:

在整个方案验证中,VMware Tanzu Kubernetes Grid(后面缩写为 Tanzu TKG)提供了Kubernetes 运行环境,VMware Cloud Foundation 为Tanzu TKG 提供了底层IaaS平台,其中vSphere自动化置备Tanzu TKG节点虚拟机, vSAN为Kubernetes提供持久化存储服务, NSX为提供云内网络连接,NSX Advanced Load Balancer为Kubernetes提供负载均衡和应用发布服务。Harbor为整个台提供镜像仓储管理服务。OrionX提供GPU池化能力。Nvidia GPU通过直通模式透传给Tanzu TKG 的工作节点。

在本次方案验证中,我们主要涉及到以下场景:

  • GPU资源按需分配功能
  • GPU资源远程调用功能
  • 多用户GPU资源切分功能
  • 多用户GPU资源动态分配功能
  • 用户GPU资源独享功能
  • GPU加速任务等待功能
  • GPU加速任务优先级功能
  • GPU资源池切换功能
  • 本地和远程调用性能对比

方案验证中一些关键截图

Tanzu TKG 工作节点直通Nvidia T4 GPU卡:

Tanzu TKG 部署OrionX 运行截图:

OrionX 管理界面:

GPU分配及队列管理:

GPU 资源预留:

AI任务优先级排列:

OrionX 可灵活切换GPU卡是否打开虚拟化,而无需重启设备:

经过本地调用与远程调用性能对比,性能损耗约3%左右,损耗极低

经过本次的方案验证,得到如下一些结论

  • OrionX AI算力池化方案可以在VCF with Tanzu平台上正常稳定运行。
  • OrionX 对GPU池化能力灵活,可以灵活切分、预留、排队、控制任务优先级。
  • 本次VCF测试环境基于25G网络,在本地和远程调用,性能差异小,结果符合预期。

OrionX+ VCF with Tanzu为用户在AI学习场景提供了更加全面的解决方案,让企业内的 AI 用户共享数据中心内所有服务器上的 GPU 算力。AI 开发人员不必再关心底层资源状况,专注于更有价值的业务层面,让AI 开发变得更加高效和便捷。

更灵活:从基础计算、存储、网络、Kubernetes集群到GPU资源,都可以灵活置备,支持不同AI场景。

更高效:全面提升基础架构和GPU资源利用率,发挥最大效能。

更安全:细粒度用户管理,实现资源隔离,安全微分段,保障数据安全。

更便捷:熟悉的基础架构管理,图形化UI,AI任务管理更简单。

VMware vSphere with Tanzu及VCF with Tanzu等产品与趋动OrionX产品的兼容和适配,将更好地支撑企业级客户AI应用的快速发展。

原文作者:卢洋、刘博
文章来源:趋动科技 OrionX on VMware 打造 AI 就绪平台 - VMware 中文博客 https://blogs.vmware.com/china/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2066815.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端宝典十四:Node缓存、安全与鉴权

本文主要从Node缓存、安全与鉴权几个方面展开解析,包含几个方面: Cookie 定义、设置、生命周期以及安全性Node缓存分类和区别Node鉴权包含session、cookie、token、jwt等 一、Cookie HTTP Cookie(通常也叫 Web Cookie 或浏览器 Cookie&…

node.js express创建本地服务以及使用pm2启动服务

在node.js环境下安装插件: npm i body-parser npm i express 同目录下创建app.js // 引入express中间件 const express require(express); const bodyParser require(body-parser); // 创建web服务器 const app express(); // 使用body-parser中间件解析JSON类型…

对于mp4 android可以正常播放 ios和mac safari不能播放问题处理

直接对原mp4文件进行重新转码就可以了 ffmpeg -i origin.mp4 -vcodec h264 -profile:v high -level 4.1 orgin_hl.mp4 原因源文件不符合苹果基本规则苹果官网文档

在SOLIDWORKS中改善放样的3个要点

在SolidWorks中,“放样”和“扫描”特征是以特征操作复杂和控制艰难而闻名的。通常需要进行精确的选择和仔细的草图管理才能获得最准确并美观的结果。在本文中,我们将向您展示三个简单的技巧,使您的放样特征更上一层楼,同时避免出…

docker映射了端口,宿主机不生效

1、问题产生原因 docker run -d --name my-redis -p 6379:6379 -v /usr/redis.conf:/usr/local/etc/redis/redis.conf team-redis:3.2 redis-server /usr/local/etc/redis/redis.conf 这容器跑起来了,端口6379没用。搞的我一直怀疑哪里出错了,查看配置…

第一篇计算机领域顶会文章怎么发,Best Paper Award其实很简单?

标题:第一篇计算机领域顶会文章怎么发,Best Paper Award其实很简单?! 开头: 计算机顶会,即计算机领域的顶级学术会议,是指在计算机科学及其相关领域内具有极高学术水平和广泛影响力的国际会议…

Web应用加密数据传输方案

目录 概述 最初的方案 改进后的方案 秘钥的过期时间 概述 介于公司最近发布了一个面向C端用户的Web系统,为防止前端调用后端的API接口时,数据传输的内容轻易的被黑客获取,而设计的一个前后端数据加密传输方案 最初的方案 在最开始&#xf…

什么是数据分析,企业数据分析的流程是什么?

“有数据、有准确数据的企业在商业市场中能打败50%的同行; 而能根据数据进行揭示过去、预测未来、优化流程的企业,在商业市场中能打败99%的同行!“ 那么,企业到底应该如何开展数据分析工作呢?这篇从基本概念讲起&#…

【html+css 绚丽Loading】 000014 三元波动盘

前言:哈喽,大家好,今天给大家分享htmlcss 绚丽Loading!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 &#x1f495…

C++模拟实现priority_queue(优先级队列)

一、priority_queue的函数接口 从上图我们可以看出&#xff0c; priority_queue也是一个容器适配器&#xff0c;我们使用vector容器来模拟实现priority_queue。 namespace bit{#include<vector>#include<functional>template <class T, class Container vector…

Unity教程(十二)视差背景

Unity开发2D类银河恶魔城游戏学习笔记 Unity教程&#xff08;零&#xff09;Unity和VS的使用相关内容 Unity教程&#xff08;一&#xff09;开始学习状态机 Unity教程&#xff08;二&#xff09;角色移动的实现 Unity教程&#xff08;三&#xff09;角色跳跃的实现 Unity教程&…

生命科学与医学类专业数据库有哪些

一、Cell Press Cell Press的期刊是生物工程科学方面权威的学术期刊&#xff0c;影响因子一直名列前茅&#xff0c;在生物、医学研究领域享有很高声誉&#xff0c;是公认的了解生物医学最新学术成果的必读文献。可通过Elsevier的ScienceDirect平台访问全文。 二、中华医学期刊…

黑神话:悟空,第一回合boss位置详解大全!

《黑神话&#xff1a;悟空》是一款以中国经典神话为背景的动作角色扮演游戏&#xff0c;玩家将在游戏中扮演齐天大圣孙悟空&#xff0c;经历一系列惊心动魄的冒险和战斗。在游戏的第一章节中&#xff0c;玩家将会遇到各种强大的BOSS&#xff0c;击败它们不仅可以顺利通关&#…

一场机器人盛宴:如何兼顾“月亮”与“六便士”? |直击2024 WRC

一年一度的世界机器人大会是整个机器人行业发展的缩影&#xff0c;从中能看到的是整个行业以及企业内心所怀揣的对未来的理想。 而就2024年来说&#xff0c;这是一场属于机器人的盛宴&#xff0c;也是具身智能公司的集体狂欢。 作者|思杭 编辑|皮爷 出品|产业家 “我们…

Python高阶函数 - reduce

reduce函数作用就是把一个函数作用在一个序列上&#xff0c;这个函数必须接收两个参数&#xff0c;reduce函数把结果继续和序列的下一个元素做累积计算&#xff0c;跟递归有点相似。 reduce函数参数主要包括两个&#xff0c;一个是以上说的作用函数&#xff0c;另外一个是seque…

Shell 脚本开发学习

Shell 教程 1. Shell 脚本 Shell 脚本&#xff08;shell script&#xff09;&#xff0c;是一种为shell编写的脚本程序。注&#xff1a;shell和shell script是两个不同的概念。 2. Shell 环境 Linux 的 Shell 种类众多&#xff0c;常见的有&#xff1a; 。Bourne Shell (/u…

gpt_academic,一个读/写论文的利器

推荐gpt_academic&#xff0c;一个读/写论文的利器 最近看到github上标星60K的读论文和写论文的AI开源工具。 我自己试了一下&#xff0c;配置了五个公司&#xff08;openai、kimi、讯飞、阿里和百度&#xff09;AI的key&#xff0c;能正常使用。 然后我让它读论文&#xff0c…

15 字符数组与二维数组(定义、初始化、访问、遍历、内存调试分析),数组编程练习

目录 1 字符数组&#xff08;字符串&#xff09; 1.1 介绍 1.2 字符数组的定义与初始化 1.2.1 使用字符列表进行初始化 1.2.1.1 VS Code 调试内存 1.2.2 使用字符串字面量进行初始化 1.3 字符数组的访问和遍历 2 多维数组 2.1 介绍 2.2 二维数组的定义 2.2.1 先定义…

探索ACPL-302J光耦合器的多功能性

ACPL-302J是一款高度集成的2.5A栅极驱动光耦合器&#xff0c;经过精心设计&#xff0c;可用于驱动大功率工业应用中的IGBT&#xff08;绝缘栅双极晶体管&#xff09;和功率MOSFET。其精巧的设计和强大的功能使其成为效率、安全性和可靠性至关重要的系统中不可或缺的组件。本文详…

Nature | 应变不敏感的柔性可拉伸射频组件(柔性传感/柔性健康监测/可穿戴电子/界面调控/电子皮肤/柔性电子/集成电路)

韩国首尔汉阳大学Yei Hwan Jung和Hyoungsuk Yoo团队&#xff0c;在《Nature 》上发布了一篇题为“Strain-invariant stretchable radio-frequency electronics”的论文。论文内容如下&#xff1a; 一、 摘要 可实现无线通信和无线能量传输功能的射频&#xff08;radio-frequen…