助力Koordinator云原生单机混部,龙蜥混部技术提升CPU利用率达60%|龙蜥技术

news2025/1/19 20:39:11

文/OpenAnolis Kernel SIG

01

什么是 CPU 混部

CPU 混部是指将不同类型的业务部署到同一台机器上运行,让它们共享机器上的 CPU 资源以提升 CPU 利用率,从而降低机器的采购和运营成本。但是,对于有些类型的任务来说,它们对延时非常的敏感,比如电商、搜索或 web 服务等,这类任务的实时性很高,但是通常对资源的消耗却不是很多,我们称之为在线任务;还有一类任务,它们更多的关注计算或者批处理,对延时没有要求,但是消耗的资源相对较多,我们称之为离线任务。

当这两类任务同时部署到同一台机器上时,由于离线任务对资源的占用较多,资源竞争导致在线任务的延时受到了很大的影响,而且,在超线程架构的机器上,即使离线任务和在线任务跑在不同的超线程 CPU 上,流水线和 cache 的竞争也会导致在线任务的运行受到影响。于是,CPU 混部技术诞生了,来解决离线任务对在线任务延时的影响,同时还能进一步提升 CPU 资源的利用率

(图 1/混部单机 CPU 利用率示意图)

02

内核 CPU 混部技术

CPU 混部技术,主要是通过单机操作系统调度器来实现的,通过任务类型来决定所分配到的 CPU 资源。龙蜥社区的三大原生技术为 Koordinator 社区提供了强大的 CPU 混部底层技术支持,包括:

  • Group Identity 混部技术

  • Plugsched 调度器热升级技术

  • CPU 混部插件产品

2.1 龙蜥 Group Identity 技术

龙蜥社区的 CPU 混部技术——Group Identity 给操作系统内核提供了 CPU 混部能力,例如 Alibaba Cloud Linux 2/3 和 Anolis7/8 OS 发行版均使用的是该技术。Group Identity 技术是在原有的 CFS 调度器中新增了另一个运行队列来区分在线和离线任务,而且,为了避免对端 CPU(超线程架构)上离线任务的干扰,Group Identity 会对其进行驱逐。龙蜥的 Group Identity 技术已经经过阿里双十一等大型活动以及大规模商业化的验证,其 CPU 混部能力也得到广大用户和开发者的认可。

2.2 龙蜥 CPU 混部插件

Koordinator 单机操作系统主要是 Alinux2/3 和 CentOS 7.9,对于前者,其 CPU 混部技术来源于龙蜥的 Group Identity,但是对 CentOS 7.9 而言,其内核目前没有提供 CPU 混部能力。对于这种情况,可能有以下几种解决方案:

1. 制作 CentOS 的衍生版系统,并包含 CPU 混部技术。

2.迁移到 Alibaba Cloud Linux 2/3 操作系统发行版。

对于第一种方案,需要从 CentOS 镜像站中下载其内核源码,将 CPU 混部技术移植到内核,编译后安装,然后重启系统便可以使用该技术,但这会涉及到业务迁移和停机,势必会给业务方带来昂贵的代价。

对于第二种方案,虽然迁移工作会有一定的工作量,但是,Alinux2/3 或 Anolis OS 包含了完整的混部资源隔离方案(CPU 混部仅仅是其中一点),技术红利所带来的收益远比迁移代价要大得多。而且 CentOS 即将停服,为了解决 CentOS 停服问题,龙蜥社区推出了 Anolis OS 发行版操作系统,该发行版系统完全兼容 CentOS,用户可以进行无缝迁移。

针对 Koordinator 云原生 CentOS 单机操作系统 CPU 混部能力的缺失,龙蜥社区开发人员给出了另一种方案,利用 plugsched 调度器热升级技术提供一种 CPU 混部技术的调度器插件包,该插件包含了阿里云早期(2017年)的 CPU 混部技术 bvt + noise clean,可直接安装到 CentOS 7.9,不需要停机和业务迁移等工作。

2.2.1 Plugsched 神器

Plugsched 调度器热升级,是龙蜥社区推出的 plugsched SDK 调度器热升级开发工具,它可从 Linux 内核中将调度器解耦,形成一个独立的模块,然后将 CPU 混部技术移植到调度器模块,形成一个调度器插件,然后将其直接安装到运行的系统中就可以使用 CPU 混部技术。Plugsched,可以对内核调度器特性动态的进行增、删、改,来满足业务的需求,且无需进行业务迁移和停机升级,还可以回滚。内核开发人员可通过 plugsched SDK 生产出各种类型的调度器插件来满足不同的业务场景。

Plugsched 调度器热升级论文《Efficient Scheduler Live Update for Linux Kernel with Modularization》已被 ASPLOS 顶会收录,里面详细介绍了 plugsched 技术原理和应用价值,以及全面的测试和评估。目前,plugsched 生产的插件已在蚂蚁集团、阿里云和国内某大型互联网企业规模部署。

Plugsched 开源链接:
https://gitee.com/anolis/plugsched
2.2.2 Group Identity 测试

在 Koordinator 社区的在离线最佳实践手册中,对 Group Idnetity 混部技术做了测试,在线任务是 Nginx 服务,离线任务是 ffmpeg 视频转码,机器采用的是阿里云神龙裸金属服务器,系统发行版是 Alibaba Cloud Linux 2,系统内核是 Alibaba Cloud Kernel 4.19,里面搭载了龙蜥社区的 Group Identity CPU 混部技术,测试 case 如下:

基线:单独运行 Nginx 容器
对照组:同时运行 Nginx 容器和 ffmpeg 容器,不设置优先级
实验组:设置 Nginx 为在线高优先级任务,ffmpeg 为离线低优先级
压测机:在另一台服务器上使用 wrk 工具向 Nginx 服务发送请求
测试结果:(单位:ms)

基线

对照组

实验组

RT-P90

0.533

0.574(+7.7%)

0.548(+2.8%)

RT-P99

0.93

1.58ms(+70%)

0.96(+3.2%)

CPU%

29.6%

85.6%

64.8%

(数据来源:阿里云 ACK 在离线混部最佳实践手册)

从对照组中可以看到,当在、离线任务同时运行时,在线任务 Nginx 的长尾延时受到了很大的影响,尤其是 P99 延时,增加了 70% 左右。但是,给在线容器和离线容器设置优先级后(启用 Group Identity 混部功能),Nginx 的 P90 和 P99 长尾延时受到的干扰非常小,延时仅增加了 2.8% 和 3.2%。

2.2.3 CPU 混部插件测试

为了比较 CPU 混部插件与 Group Identity 的性能差异,开发人员对该调度器插件进行了相同的测试,服务端配置:

测试机器:阿里云神龙裸金属服务器
系统配置:CentOS 7.9 发行版,内核版本 3.10,安装 CPU 混部调度器插件

在线容器和离线容器的配置与压力均与 Group Identity 测试的相同,测试结果如下:(单位:ms)

基线

对照组

实验组

RT-P90

0.444

0.575(+29.50)

0.504(+13.51%)

RT-P99

0.706

1.7(+140.79)

0.88(+24.64%)

CPU%

25.15%

71.7%

49.15%

从上面的结果来看,没有 CPU 混部插件,离线任务对在线任务的影响很大,P99 延时增长了一倍多,而安装 CPU 混部插件后,P99 延时的影响显著降低,CPU 利用率也接近 50%。但是它的性能不及 Group Identity,Group Identity 能让在线任务受离线任务的干扰小于 5%(CPU 插件是 20% 以上),而且 CPU 利用率能达 60% 以上(CPU 插件接近 50%)。

2.3 Group Identity 更胜一筹

从上面的测试数据来看,不论是离线任务对在线任务的干扰,还是 CPU 利用率的提升,Group Identity 的性能均明显优于 Bvt + noise clean 插件。这是因为两套技术的实现原理不同导致的noise clean 技术采用的是 throttle 机制,当调度器选择下一个任务时,它会检测对端 CPU 上的任务类型以及当前 CPU 正在执行的任务类型,如果在、离线任务同时存在,则会将离线任务 throttle 掉,然后继续选择下一个任务进行调度,保证在线任务优先执行且不被对端 CPU 上的离线干扰;而 Group Identity 则是给 CFS 调度器增加了低优先级的运行队列,每次选择下一个任务执行时,优先从高优先级队列中选择任务,而且新增了驱逐队列来驱逐对端 CPU 上正在执行的离线任务。从方案设计来看,Group Identity 的设计更加适用于 CPU 混部场景。

从技术演进上来看,龙蜥社区对 Group Identity 技术仍然在维护更新,而 bvt + noise clean 技术已不再更新迭代。再者,龙蜥社区有完整的混部资源隔离方案,而且下一代 CPU 混部技术 Group Identity v2.0 正在投入研发,将会带来更为强大的功能和性能。

对于 plugsched 调度器热升级而言,它对龙蜥社区的 cloud kernel 4.19 和 5.10 的支持更加全面,且会持续维护。但本文的 bvt + noise clean CPU 混部插件是支持在 CentOS 3.10 内核上,该内核不属于龙蜥社区,因此 plugsched 对该内核的支持度不是很高,热升级能力和范围不及龙蜥内核。Plugsched 对 3.10 内核的支持后续也不再更新和维护。

03

结语

最后,欢迎广大技术人员、开源爱好者和读者用户来体验、参与和使用龙蜥带来的 CPU 混部技术 Group Identity 和 Plugsched 神器。我们相信,不论是 Anolis OS、Cloud Kernel 还是 Plugsched,一定都会为各位看官带来意想不到的收益和价值。同时,欢迎广大技术人员、开源爱好者和读者用户一起加入龙蜥社区,与社区共同进步和发展。

Cloud Kernel SIG 主页地址:

https://openanolis.cn/sig/Cloud-Kernel

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/378253.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

光流分析 Optical Flow Lucas-Kanade 算法 DOF Dense Optical Flow

光流跟踪算法对车位进行跟踪 概念 光流是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。 一…

王道计算机网络课代表 - 考研计算机 第二章 物理层 究极精华总结笔记

本篇博客是考研期间学习王道课程 传送门 的笔记,以及一整年里对 计算机网络 知识点的理解的总结。希望对新一届的计算机考研人提供帮助!!! 关于对 “物理层” 章节知识点总结的十分全面,涵括了《计算机网络》课程里的全…

ARM LDREX/STREX指令以及独占监控器详解

一、目的Linux驱动开发中有一个特别重要的知识点必须掌握,即并发、竞态以及同步。什么是并发?多个执行单元(进程、线程、中断)同时对一个共享资源的进行访问;此处的共享资源可以是外设、内存或者软件层面的全局变量静态…

Linux服务器磁盘分区、挂载、卸载及报错处理

整体操作是:先对磁盘进行格式化,格式化后挂载到需要的挂载点,最后添加分区启动表,以便下次系统启动时自动挂载。一、linux分区1、Linux来说wulun有几个分区,分给哪一目录使用,他归根结底只有一个根目录&…

计算机操作系统第一章

操作系统引论1.1操作系统的目标和作用定义:操作系统是控制管理计算机系统的硬软件,分配调度资源的系统软件。目标:方便性,有效性(提高系统资源的利用率、提高系统的吞吐量),可扩充性&#xff0c…

小红书达人怎么找?保姆级教程来了~

在小红书推广营销中,寻找优质的达人是最头疼的事,许多品牌往往会根据简单的小红书排名来直接进行判断认定,其实在挑选小红书达人时有许多要注意的点,接下来和小编一起根据小红书数据分析工具来筛选合适、优质的达人。 千瓜数据—…

蓝桥杯入门即劝退(二十四)重复的子字符串(被秒杀)

欢迎关注点赞评论,共同学习,共同进步! ------持续更新蓝桥杯入门系列算法实例-------- 如果你也喜欢Java和算法,欢迎订阅专栏共同学习交流! 你的点赞、关注、评论、是我创作的动力! -------希望我的文章…

浅谈MySQL主从复制

目录 1.MySQL主从复制是什么 2.MySQL主从复制的意义 3.MySQL主从复制原理 4.数据同步一致性问题 5.实现方式 1.MySQL主从复制是什么 MySQL主从复制就是指数据可以从一台MySQL的主节点复制到一个或多个从节点。 MySQL默认采用异步复制方式,这样从节点不用一直访…

【博学谷学习记录】超强总结,用心分享丨人工智能 Python基础 个人学习总结之列表排序

目录前言简述list.sort()语法返回值实例无参参数key参数reversesorted()语法返回值实例无参参数key参数reverseoperator.itemgetter功能简述实例List.sort与sored区别sorted原理:Timsort算法扩展list原理数据结构心得前言 经过一周的学习,对Python基础部…

嵌入式入门必看!调试工具安装——基于 AM64x核心板

本章节内容是为评估板串口安装USB转串口驱动程序。驱动适用于CH340、CH341等USB转串口芯片。 USB转串口驱动安装 适用安装环境:Windows 7 64bit、Windows 10 64bit。 本文测试板卡为创龙科技SOM-TL64x核心板,它是一款基于TI Sitara系列AM64x双核ARM Cortex-A53 + 单/四核Cort…

DP(4)--区间DP

将n(1≤n≤200)堆石子绕圆形操场摆放,现要将石子有次序地合并成一堆。 规定每次只能选相邻的两堆石子合并成新的一堆,并将新的一堆的石子数,记为该次合并的得分。 (1)选择一种合并石子的方案,使得做n-1次合并,得分的总…

比特数据结构与算法(第四章_下)二叉树的遍历

本章将会详细讲解二叉树遍历的四种方式,分别为前序遍历、中序遍历、后续遍历和层序遍历。在学习遍历之前,会先带大家回顾一下二叉树的基本概念。学习二叉树的基本操作前,需要先创建一颗二叉树,然后才能学习其相关的基本操作&#…

中国一直是亚马逊云科技在全球业务布局中最重要的国家之一

在走进经济筑底重启回升的2023年,我们该如何直面这场需要时间验证的修复之旅?亚马逊全球副总裁、亚马逊云科技大中华区执行董事张文翊与《经济观察报》App的“企业家说2023”栏目展开对谈,分享亚马逊云科技如何立于云端,帮助企业上…

Android ART dex2oat

一、什么是dex2oat Dex2oat (dalvik excutable file to optimized art file) ,是一个对 dex 文件进行编译优化的程序,在我们的 Android 手机中的位置是 /system/bin/dex2oat,对应的源码路径为 android/art/dex2oat/dex2oat.cc,通…

谷歌搜索技巧大全 | 谷歌高级搜索语法指令

谷歌搜索技巧是利用各种高级搜索语法或者搜索指令,让我们能够使用Google进行精确化的搜索,外贸找客户和学术文件查找都可以应用到这些搜索技巧。(大部分命令也适用百度搜索)。Google通过互联网收集数据,抓取有意义的信息,将其存储…

flask入门-4.项目实战

4. 项目实战1 1. 问答平台项目结构搭建 项目结构 config.py hostname "127.0.0.1" port 3306 username "root" password "root"database "flask_qa"# 在 app.config 中设置连接数据库的信息 SQLALCHEMY_DATABASE_URI f"…

【Redis】什么是缓存与数据库双写不一致?怎么解决?

1. 热点缓存重建 我们以热点缓存 key 重建来一步步引出什么是缓存与数据库双写不一致,及其解决办法。 1.1 什么是热点缓存重建 在实际开发中,开发人员使用 “缓存 过期时间” 的策略来实现加速数据读写和内存使用率,这种策略能满足大多数…

ECharts基础知识详细介绍

文章目录知识点ECharts 实例ECharts 基础配置组件seriesdataset用 option 描述图表titletooltiplegend 图例组件toolbox 工具栏坐标轴知识点 ECharts 实例series 与 datasetECharts 基础配置用 option 描述图表坐标系 ECharts 实例 一个网页中可以创建多个 ECharts 实例。每个…

JPA——Java.util.Date和Java.sql.Date

纵观整个项目的字段,最难搞的就是Date类型。今天我们就好好唠唠java中的两个Date类 一、Java.sql.Date 1. 构造方法 Date date new Date(System.currentTimeMillis());System.out.println(date);//2023-02-282. 常用方法: 方法作用void setTime(long…

【Java开发】JUC基础 04:Synchronized、死锁、Lock锁

1 概念介绍并发:同一个对象被多个线程同时操作📌 线程同步现实生活中,我们会遇到“同一个资源,多个人都想使用”的问题,比如,食堂排队打饭,每个人都想吃饭,最天然的解决办法就是,排队…