证券行业容器云平台建设之GPU池化建议

news2025/2/27 22:37:03

随着分布式微服务化技术的广泛使用,用户对于容器系统的需求急剧增加。证券行业在近几年开始着手引入企业级容器云平台。在AIGC的大环境下,证券行业正以数据中台、智能中台为核心,在营销、投顾、投研、风控等多个领域进行智能化升级,深化 AI+ 场景的融合,稳步推进各项业务转型发展。

01 证券行业的GPU使用现状

AI应用场景的背后离不开算法、算力、数据这三要素。

目前证券行业的AI应用主要采用第三方算法提供商的算法模型,小部分为自研的算法模型。由于各家算法厂商对环境部署要求不同,且各个AI应用系统在不同时期分别部署上线,往往平台和系统没有被统一规划,大多是烟囱式的竖井结构——一个AI应用场景一套硬件资源,每块GPU卡上往往只运行一个AI应用进程,每块GPU的卡算力和显存都没有得到有效和充分的利用。在小规模AI应用上线时,这种烟囱式架构带来的弊端还不是很明显,但随着AI应用的大规模上线, 算力资源使用和管理上的问题就会一一暴露出来。

另外,由于金融行业的业务周期性特性,AI应用的调用有明显的高峰和低谷期,在业务低谷期,大量算力资源被闲置浪费。

在当前AI业务持续增长的趋势下,如不改变现有GPU调度和使用方式,各大券商只能通过不断增加GPU硬件资源的投入,解决业务用卡的需求。然而,如果不解决利用率低等问题,投入的GPU硬件资源越多,闲置浪费也就更为严重。

02 AI应用场景中GPU在使用中的问题

a. AI开发测试:

大多数的AI开发涉及到从数据准备,预处理,模型训练,调参,部署模型,线上推理,持续监控,数据收集,迭代优化的过程。在整个业务流程中,有些工作是需要大量CPU,不需要GPU资源的,在CPU运算的时候,其实GPU是闲置的。

在日常开发测试中,目前采取的是为一个开发者分配一块或几块GPU卡的方式来满足开发调试的需求。这种情况下存在什么问题?卡和人绑定,卡分配之后,存在着较大的闲置——开发人员70%以上的时间都在读论文、写代码,只有不到30%的时间在利用GPU资源进行运算调试。当GPU分配后,此GPU无法被其他用户使用,GPU大部分时间为空载状态。

“人”与“卡”绑定、固定配比的关系,GPU资源无法被有效复用,GPU利用率极低。面对新增的算力使用需求的用户,无法快速调配GPU资源,用户只能通过排队的方式,等待其他用户使用完毕后手动释放GPU,才可获得算力资源,这样极大损耗工程师的工作人效。

b. AI模型训练:

日常模型训练多以单机单卡或者单机多卡为主,周期长,导致占用GPU的时间也长,会严重影响工程师的效率;如果改用分布式方式训练,则需要算法工程师花费较多精力去调试维护底层软、硬件环境。

c. 生产环境AI在线推理:

大部分AI服务只需少量的GPU资源,然而当前机制情况下,以整卡GPU资源分配给AI服务,GPU资源平均利用率较低。并且GPU利用率极低的AI应用长期占用整张GPU资源,且剩余GPU资源无法给其他服务使用,造成了GPU资源极大浪费。

另有部分AI服务为“长尾业务”,这类应用在一定周期,如每个月的某几天会有较高的调用,其他时间为空载状态,GPU利用率长期为0。这类应用有其运行的必要性,但长期独占整张算力卡的方式也造成了浪费。简单的GPU虚拟共享技术也无法从根本解决这类“长尾业务”GPU资源使用难题。

03 容器云平台对GPU的管理能力需提升

在IT基础设施普遍云化的今天,我们发现用户现有部署架构中存在GPU资源利用率低、算力资源无法被灵活分配、缺乏统一监管等问题。在容器云平台设计与建设时,算力资源如何被合理、高效地规划、利用、管控成为用户需要重点解决的新课题。

现有容器云对GPU的管理能力较为薄弱:不支持GPU的资源隔离、资源超分、远程调用、资源聚合、任意切分。而这些GPU管理能力都是容器云平台所必须的能力。

GPU资源池化技术可以很好地弥补传统容器云平台对GPU资源管理能力的缺失,可以更好地支撑上层业务系统对算力资源的多样化需求,提高容器云平台的资源管控效率与能力,所以在云平台融合GPU池化管理能力符合各大证券的容器云平台的建设方向。

04 容器云平台应具备的GPU池化能力

容器云平台在建设时应考虑到GPU资源池的池化能力、池化调度能力、池化运维管理能力、池化高可用性能力。

容器云平台对GPU资源的池化能

□ 从算力和显存2个维度实现“按需切分”

√ 适用于推理场景;

√ 可对推理业务精准提供所需资源,保证单GPU卡上合理部署多个推理业务,提高单卡并发处理能力,提升GPU利用率。

□ 实现“远程调用”

√ 适用于推理场景、开发测试场景、训练场景;

√ 可有效避免常见的“GPU碎片化问题”,即因某个节点的CPU、内存首先成为瓶颈从而有剩余GPU无法使用。GPU资源池化支持远程使用GPU,从而这部分剩余GPU可以提供给数据中心其他业务使用,有效缓解GPU与CPU固定配比带来的弊端,解决CPU/GPU资源不匹配的问题。

□ 实现多机多卡“资源聚合”

√ 适用于开发测试场景、训练场景、量化策略回测、量化策略迭代;

√ 可以将多台服务器的GPU资源聚合后提供给单一容器使用。底层软硬件环境无需额外调试,就可轻松获得所需的算力资源,实现跨机多卡聚合训练,轻松调度全局资源,训练时长有效缩短。

□ 实现“算力隔离”,故障隔离

√ 适用于所有场景;

√ 可提供严格的“算力隔离”,资源隔离,故障隔离。同一个GPU上运行的多个AI任务相互间不存在干扰,一个任务的故障不会影响到其他AI任务,确保每个AI应用有稳定的性能表现。

□ 实现“算力控制”

√ 适用于所有场景;

√ 可提供精准的“算力控制”,从算力和显存两个维度分别对GPU实现切分,每一块vGPU的显存和算力都能被独立设置和限制,算力切分的最小颗粒度为原物理GPU算力的1%;显存切分的最小颗粒度为1MB。每个AI任务都能按需获得所需算力资源,并有持续稳定的性能表现。

□ 实现“资源超分”

√ 适用于推理场景、开发测试场景;

√ 可针对证券行业典型的周期性业务运行特点,单卡多业务叠加,提高GPU资源利用率;也可有效解决“长尾应用”GPU资源长期闲置的问题,实现多个“长尾应用”同卡叠加部署,有效提升GPU利用率。

□ 实现资源的动态申请与释放

√ 适用于所有场景;

√ AI应用可以根据负载需求调用任意大小的GPU,甚至可以聚合多个物理节点的GPU;在容器创建之后,仍然可以调整虚拟GPU的数量和大小;在AI应用停止的时候,立刻释放GPU资源回到整个GPU资源池,以便于资源高效流转,充分利用。

容器云平台对GPU资源的池化调度能力

□ 实现灵活的、精准的资源调度,可按节点调度、按GPU型号调度

√ 适用于所有场景;

√ 优化了容器云平台GPU资源的灵活调度;

√ 提供差别化,精准化,灵活化的资源调度能力,可满足容器云平台各类AI任务差异化的运行要求。

□ 实现“异构算力”全局调度与池化管理

√ 适用于所有场景;

√ 提供多种算力资源同一资源池全局调度与池化管理的能力,满足金融机构今后发展与转型的需求。

容器云平台对GPU资源的池化运维能力

□ 提供AI 算力热迁移能力

√ 适用于推理场景;

√ 当监控到物理卡故障时,可不中断推理应用,将业务在线热迁移至健康的算力卡上,有效提升保障推理业务的可靠性;

√ 当物理卡多个负载出现激增,可动态迁移该任务至其他算力卡上,实现业务负载均衡;

√ 需要硬件维护、软件升级、节点下线时,可将推理业务在线迁移至其他服务器上,为此类操作赢得运维窗口期;
√ 在保障业务可用性的情况下,实现对AI算力资源的动态管理和优化。

□ 提供资源分配限制

√ 适用于所有场景;

√ 容器平台可限制和控制能力,防止生产环境中客户对资源随意篡改。

□ 实现虚拟GPU的资源配额管理

√ 适用于所有场景;

√ 可以为不同用户,或不同组用户设定资源使用量限制。

□ 提供任务运行状态监控

√ 适用于所有场景;

√ 可监控每个任务的虚拟GPU资源使用情况,对资源使用趋势有直观的展示,方便运维了解和掌握每个任务运行情况。

 提供监控告警、日志收集、故障发现与恢复

√ 适用于所有场景;

√ 方便容器云平台对资源池的监控与运维。

容器云平台对GPU资源的高可用能力

□ 实现GPU资源池化平台的高可用性,满足金融行业客户AI业务生产的部署要求

√ 适用于所有场景;

√ 可为容器云平台在生产环境中使用虚拟GPU资源提供稳定性和高可用性保障。

05 成功案例

随着大数据和人工智能技术的发展,人工智能相关技术已在某证券内部多个业务场景里取得创新应用,包括精准营销、量化交易、智能投顾、智能诊股、营销反欺诈、相似 K 线等场景;类似应用案例都需要依托于海量金融、产业、行业相关数据,并通过数据挖掘、机器学习、深度学习等相关技术来实现。该证券关于“AI+HI”(人工智能+人类智慧)的智能投研平台建设正在逐步进行中。

客户痛点:

□ 在传统架构下建设AI推理服务集群,GPU综合利用率低,资源浪费严重;

□ 在线推理服务的业务并发量受限于集群内物理GPU的数量,不具备业务伸缩能力;

□ 难以对GPU算力资源进行全局管理,缺乏监控调度手段;

建设思路

趋动科技OrionXAI算力资源池化解决方案中所有OrionX组件可无缝加载到该证券当前已有GPU集群,实现GPU资源池化,在资源池里面实现任意OrionX vGPU的切分。同时,支持北向业务管理平台所需的开放API接口,予以集成。

解决方案拓扑图

客户收益:

□ 业务并发量规模化提升:采用GPU资源池方式调度资源,以“化整为零”的方式,支撑AI业务调度所需的虚拟GPU,定义算力+显存的双维度,极近贴合业务需要;

□ 算力适配:支持不同代的算力卡混合池化;

□ 容器编排:与K8S完美集成,单一用户界面即可调度CPU和GPU资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1987499.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MYSQL主库切换binlog模式后主从同步错误

MYSQL主库切换binlog模式后主从库同步错误的问题 在使用FlinkSQL的mysql-cdc连接器来监听MySQL数据库时,通常需要将MySQL的binlog模式设置为ROW模式。然而,在实际项目中,可能会遇到如下问题: 当我们将MySQL主库的binlog模式从STA…

计算机网络408考研 2018

1 计算机网络408考研2018年真题解析_哔哩哔哩_bilibili

【sdk】- 对接阿里云抠图

文档地址:https://help.aliyun.com/zh/viapi/use-cases/general-image-segmentation?spma2c4g.11186623.0.0.3814173cenldIs java对接阿里云的通用分割,将代码原封不动复制进来,执行结果失败,咨询阿里云的人员之后,由…

JavaEE: Thread类

Thread的常见构造方法 Thread的常见属性 ID 是线程的唯一标识,不同线程不会重复名称是在使用各种调试工具时会用到的状态表示线程当前所处的情况优先级高的线程理论上来说更容易被调度到关于后台线程,需要记住:JVM会在一个进程的所有非后台线程结束后,才会结束运行是否存活,即r…

爱可声助听器:在全球听力市场中破冰前行

早在2021年,全球助听器市场规模就已经达到了101亿美元,Grand View Research数据显示,这一规模会持续增大,在未来的6年间,该数据将以4.9%的复合年增长率(CAGR)增长。 作为发展中国家&#xff0c…

【SpringBoot】自定义注解终极升级版<i18n国际化>方案源码Copy

零、前言 在后端对于 SpringBoot 的 数据库数据,需要国际化的字段和主要显示字段是分离的,为了避免大耦合性,与用户端的国际化字段处理问题,统一采用主要显示数据的实体字段。为此,我设计了一套解决方案,通…

leetcode-240. 搜索二维矩阵 II

题目描述 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 示例 1: 输入:matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,22],[10…

使用Spring AI 、 Qdrant 和 Ollama 实现完全本私有化的RAG应用

使用Spring AI 、 Qdrant 和 Ollama 实现完全本私有化的RAG应用 迄今为止,Python 一直是实现检索增强生成(RAG)应用程序的首选语言,几乎成为开发大型语言模型(LLM)应用程序的默认选择。然而,对于…

WPF 依赖属性 IsHitTestVisible

IsHitlTestVisible 仅影响本身的元素(含内部包含的子元素),不影响父元素效果,且事件会传递到父元素。 Eg: 如父元素有click事件, 子元素设置了IsHitTestVisiblefalse, 当鼠标单击这个子元素时&…

openssl 制作 信用库与服务证书

文章目录 前言openssl 制作 信用库与服务证书1. CA 证书2. 服务器证书/秘钥库3. 创建信用库4. 注意事项 前言 如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊,写作不易啊^ _ ^。   而且听说点赞的人每天的运气都不会…

【JS】一篇BOM详解笔记 | b站李立超

文章目录 一、前言🚀🚀🚀二、BOM简介:☀️☀️☀️2.1 BOM是什么及有什么用2.2 BOM对象有哪些 三、BOM各类对象讲解:☀️☀️☀️3.1 Navigator3.2 Location3.3 History 三、补充知识🚀🚀&#…

尚硅谷谷粒商城项目笔记——六、使用navciat连接docker中的mysql容器【电脑CPU:AMD】

六、使用navciat连接docker中的mysql容器 注意: 因为电脑是AMD芯片,自己知识储备不够,无法保证和课程中用到的环境一样,所以环境都是自己根据适应硬件软件环境重新配置的,这里的虚拟机使用的是VMware。 1navicat免费…

浴室柜哪个牌子质量好性价比高 | 提亮空间,点缀生活!

摘要:作为浴室的标配,浴室柜不仅是重要的收纳家具,也是最能体现卫浴空间和美感的存在。浴室柜看似平凡,却在无形之中散发出自身的魅力,为浴室颜值加分。浴室柜哪个品牌好?无论是注重外观的你,还…

《计算机组成原理》(第3版)第4章 存储器 复习笔记

第4章 存储器 一、概述 (一)存储器分类 1.按存储介质分类 (1)半导体存储器; (2)磁表面存储器; (3)磁芯存储器; (4&…

面试笔记8.6

缓存 1.如何保证redis与数据库一致性 redis面试:如何保证缓存和数据库数据的一致性?_使用update更新数据,json缓存不更新-CSDN博客 如果先删除缓存,再删除数据库,数据不一致, 解决 删 1.先操作缓存但不删除缓存&…

lambda语法,java8Stream流,maven

lambda语法 Arraylist排序 ArrayList<Integer> a new ArrayList();a.add(1);a.add(2);a.add(3);a.sort(new Comparator<Integer>() {Overridepublic int compare(Integer o1, Integer o2) {return o1-o2;//对集合a中数据进行升序排序}}); 但是这样的书写还是有…

JavaEE: 进程和线程

文章目录 进程线程的概念和区别总结如何创建线程1.继承Thread重写run2.实现Runnable重写run3.继承Thread重写run,通过匿名内部类来实现4. 实现Runnable重写run,通过匿名内部类来实现5.基于lambda表达式来创建 虚拟线程 并发编程: 通过写特殊的代码&#xff0c;把多个CPU核心都利…

Leetcode力扣刷题——182.查找重复的电子邮箱

题目 编写解决方案来报告所有重复的电子邮件。 请注意&#xff0c;可以保证电子邮件字段不为 NULL。 以 任意顺序 返回结果表。 结果格式如下例。 结果 # Write your MySQL query statement below select Email from Person group by email having count(*)>1; 知识点 c…

Java 抽象知识笔记总结(油管)

Java系列文章目录 Java Optional 容器笔记总结 文章目录 Java系列文章目录一、前言二、学习内容&#xff1a;三、问题描述四、解决方案&#xff1a;4.1 抽象类的使用4.2 抽象类与接口的区别4.2.1 接口复习4.2.2 具体区别4.2.3 使用场景4.2.3.1 抽象类使用场景4.2.3.2 接口使用…

读零信任网络:在不可信网络中构建安全系统11用户组的认证和授权

1. 用户组的认证和授权 1.1. 几乎在每个系统中都有一小部分操作需要被密切关注 1.1.1. 每个应用对这部分操作的风险容忍度各有不同&#xff0c;且没有任何下限 1.1.2. 一部分风险是由用户个人的可信度决定的 1.1.2.1. 单个用户的可信度可能很低 1.1.2.2. 多个用户组合的可信…