文/云原生 SIG
01 技术方案简介
混部就是将不同类型的业务在同一台机器上混合部署起来,让它们共享机器上的 CPU、内存、IO 等资源,目的就是最大限度地提高资源利用率,从而降低采购和运营等成本。
混部通常是将不同优先级的任务混合在一起,例如高优先的实时任务(对时延敏感,资源消耗低;称为在线)和低优先级批处理任务(对时延不敏感,资源消耗高;称为离线),当高优先级业务需要资源时,低优先级任务需要立即归还,并且低优先级任务的运行不能对高优先级任务造成明显干扰。
为了满足混部的需求,在单机维度的内核资源隔离技术是最为关键的一项技术,龙蜥云内核在资源隔离的技术上深耕多年,并且在行业中处于领先地位,这些内核资源隔离技术主要涉及内核中的调度、内存和 IO 这三大子系统,并且在各个子系统领域根据云原生的混部场景进行了深入的改造和优化,关键优化包括但不限于:cpu group identity 技术、SMT expeller 技术、基于 cgroup 的内存异步回收技术等。其中 cpu group identity 已经申请对应的专利,有独立的知识产权。这些关键的技术使客户有能力在云原生混部场景中根据业务特点给出最优解决方案,可有效提高用户的资源使用率并最终降低用户资源的使用成本,非常适用于容器云混部场景,同时也是大规模化混合部署方案所强依赖的关键技术。
02 规模化部署和收益
目前龙蜥 OS 的资源隔离技术已经在手机制造企业、互联网企业、大型国企,以及阿里云、蚂蚁集团内部规模化应用。从以往众多用户的部署经验来看,在保障客户的 QoS 的前提下 CPU 的使用率可以达到 30%~50%,比如龙蜥和 Koordinator 开源混部技术带来的红利,帮助阿里巴巴实现规模超千万核的云原生混部,混部 CPU 利用率超 50%,帮助 2021 年“双 11”计算成本下降 50%,为客户降本增效提供了良好的技术保障和售后服务。
03 技术竞争力
目前国内完全开源的且带有云原生场景隔离能力的社区只有龙蜥,在内核隔离能力这块龙蜥社区根据云场景做了丰富的定制化开发,是国内最早的一批使用隔离能力的企业,并在阿里云中有广泛的使用,技术的成熟度和稳定性有较高的保障,龙蜥在资源隔离不管从源码透明度,还是从技术的深度,以及场景的广度都是用户第一选择。如有进一步了解的需求,可钉钉搜索群号:44701621,加入云原生 SIG 群交流。
更多龙蜥白皮书精选内容:
【1】面向 DPU 场景的软硬协同协议栈
【2】敏捷开发场景下的调度器热升级 SDK
【3】跨云-边-端的只读文件系统 EROFS
【4】龙蜥全面支持 Intel 第四代可扩展处理器 SPR 平台
【5】面向异构计算的加速器 SDK
【6】基于 SM4 算法的文件加密(fscrypt)实践
【7】CentOS 迁移场景的平滑迁移方案
【8】利用 io_uring 提升数据库系统性能
【9】开源 RISC-V 技术支持软硬件全栈平台
【10】Ancert——硬件兼容性验证与守护
相关链接:
云原生 SIG 主页:https://openanolis.cn/sig/cloud-native
更多龙蜥技术特性解析可移步《龙蜥特性百科》:https://anolis.gitee.io/anolis_features/
2022 龙蜥社区全景白皮书(或关注公众号【OpenAnolis龙蜥】回复关键字“白皮书”获取)https://openanolis.cn/openanoliswhitepaper
—— 完 ——