10 亿月活用户下,快手基于 Dragonfly 的超大规模镜像分发实践

news2024/11/25 18:54:19

背景

挑战

快手容器云平台旨在为快手不断增长、不断变化和多样化的业务,提供基于容器化部署的超大规模基础设施服务。为了实现这一目标,快手工程师需要解决弹性、稳定性、效率和无服务器架构等挑战,在这些挑战中,镜像分发的稳定性和效率也是最棘手的问题之一。

解决方案

为了让快手容器云平台的镜像分发更加稳定和高效,快手容器云技术团队携手阿里云、蚂蚁集团在龙蜥社区适配优化落地解决方案。事实证明,Dragonfly 及其子项目 Nydus 是当前场景下合适的解决方案,该方案能够与现有系统很好地兼容,在现有能力基础上平滑过渡,同时也为服务交付带来了大幅的效率提升。

效果

Dragonfly 上线后,整个集群通过 P2P 组建分发网,所有节点帮助中心化镜像仓库缓解网络带宽压力。镜像仓库的网络带宽压力平均缓解 70% 以上,峰值压力缓解 80% 以上,镜像分发系统变得更加稳定、可靠、高效,系统能够同时支持更多数量的镜像并发拉取请求,尤其是在应对 Daemonset 部署和关键、大批量实例业务服务更新的场景中,高并发镜像拉取仓库不再是瓶颈。

使用项目

  • Dragonfly:https://github.com/dragonflyoss/Dragonfly2
  • Nydus:https://github.com/dragonflyoss/image-service
  • containerd:https://github.com/containerd/containerd

相关数据

峰值缓解 80% 以上

镜像拉取时间节省 90% 以上

POD 实例服务耗时节省 50%

方案详解

为每月10 亿用户提供稳定性和性能支持

“在快手,Dragonfly 有效解决了海量文件分发问题。”

——吴宏斌 快手综合运营平台负责人

对于快手的镜像分发系统升级改造来说,最大的挑战不仅仅是镜像仓库峰值压力的缓解和镜像拉取加速,如何让服务分发无缝衔接平滑过渡,尽可能让业务无感、不受系统变化影响同样重要。快手容器云平台工程师通过调研发现,Nydus 与 Dragonfly 系统深度集成,同时也支持传统 OCI 镜像,能够以兼容友好的方式提供快速、稳定、安全、便捷的容器镜像访问,非常容易地就能适配容器云平台已有工作,实现业务从已有镜像使用方式平滑过渡到新镜像格式。平台唯一要做的就是将容器运行引擎从 Docker 切换到 containerd,因为 containerd 与 Dragonfly 的集成体验更好。在快手工程师的努力下,大规模节点的容器引擎平稳切换轻而易举,containerd 和 Dragonfly 均已被快速全面采用。

稳定高效的镜像分发

对于稳定、高效的镜像分发,Dragonfly 给出了完美的答案。在快手,有许多重要的服务需要在短短几分钟内扩容到成千上万个实例,例如快手的818 购物节或双 11 活动的业务扩容需求。这种缩放需要数千 GB 带宽才能直接从镜像仓库下载。在另外一些场景中,预测模型和搜索业务需要定期更新模型参数文件和索引文件来保证推荐效果和检索效果,这在技术上意味着必须立即将数百 GB 的文件分发到每个相关实例。

快手工程师在所有容器云主机部署了 Dragonfly 组件:Dfdaemon 和 Dfget,通过 P2P 算法拉取文件。同时,在每个 AZ 部署了独立的超级节点集群,为 Dfget 设计了 Schedule Server,选择合适的超级节点来避免跨 AZ 或者跨 Region 的流量。更重要的是,工程师基于 Dragonfly 独特的片管理 P2P 算法实现了数据流 P2P 传输,降低了磁盘负载。得益于 Dragonfly,数以万计的实例可以同时拉取镜像或下载文件,而不会增加时间成本和磁盘负载。

在这里插入图片描述

“先进的技术就是第一生产力,快手容器云平台拥抱 Dragonfly 和 Nydus 后,应用交付效率大幅提升,给业务创新带来了更多可能。”

——孙寅 快手容器云负责人

由于拉取镜像是容器生命周期中比较耗时的步骤之一,为了进一步加速镜像分发和服务启动,工程师们又继续启用了 Nydus 镜像懒加载项目。快手有许多服务有数千个 Pod 实例,其中一些有超过 20G 或更大的镜像,当这些服务升级或扩容时,巨大的镜像和启动时间会严重减慢服务启动。快手需要一种能够显著提高服务启动速度的解决方案,特别是因为某些服务将其训练模型放入镜像中,这对于服务启动来说可能是灾难性的。

由于快手在 Dragonfly 项目上的应用和实施,工程师们很早就了解到 Nydus 项目。Nydus 是一个强大的开源文件系统解决方案,可以为云原生工作负载,例如容器镜像,构建高效的镜像分发系统。

得益于 Nydus 全新的镜像设计,每个 Pod 可以在几秒钟内完成启动,这样可以大量节省服务部署实例的启动时间,让应用尽快为用户提供服务。对于每个集群节点,支持Nydus的工作并不复杂,通过容器引擎无损切换(指无需 POD 驱逐)、配置变更即可顺利完成。

在实践中, 针对快手容器云平台的全局镜像仓库中心,我们做了以下事情:

  1. 容器引擎从 Docker 无损切换到 containerd;
  2. 在镜像构建阶段支持使用 Nydus 标准构建镜像;
  3. 在集群节点间,使用 Dragonfly 的 P2P 技术支持镜像分发;
  4. containerd通过配置Dragonfly 的 P2P 代理拉取镜像,并使用 Nydus 镜像启动容器。

当然,以上所有的变动,都继续兼容当前已有的 OCI 镜像格式以及系统已有功能。

在这里插入图片描述

综上所述,Dragonfly 和 Nydus 一起为快手容器云平台提供了处理镜像分发问题的最佳解决方案。数以万计的快手服务大大减少了部署时间,业务线研发工程师在更新服务时也更加轻松容易。

Dragonfly 和 Nydus 都是来自 CNCF 的优秀开源项目,更进一步说,快手也将继续对该项目进行更多投入,并与社区展开深入合作,使它变得更加强大和可持续。云原生技术是基础设施领域的一场革命,尤其是在弹性和无服务器方面,我们相信 Dragonfly 一定会在云原生生态中扮演重要角色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/336600.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

职场IT老手教你3步教你玩转可视化大屏设计,让领导眼前一亮!

我是制造企业的IT中心的研发人员,平常工作就是配合业务部门出出报表,选型一些商业软件,并在内部负责实施运维。最近领导出去参观了一些数字化转型比较领先的工厂和制造企业,回来就甩给我几张图,问能不能我们也做几个这…

4. sql 语句中常用命令

1. 数据表: 本文中所有命令,测试的数据表结构如下图: 2. 查询语句: 2.1 基础查询:select //查询单个字段: select 字段名 from 表名; //查询多个字段 select 字段名1,字段名2,... from 表名; //查询所…

数据库的安装部署

目录 方法一:仓库安装 一、添加MySQL仓库 二、安装装MySQL 三、启动MySQL服务器 方法二:本地安装 一、使用以下执行清理之前实验MySQL仓库安装的数据库: 二、网上下载mysql的安装包 三、将下载好的文件传入Redhat中的某个路径中 …

CentOS7安装配置OpenVNP连接远端服务器

在项目当中需要访问一个三方接口及数据库,但是需要在CentOS7服务器上先配置OpenVPN,然后才能连接,现将整体配置过程记录如下。 安装 yum -y install epel-release yum -y install openvpn 查看版本 openvpn --version 配置客户端证书 打开…

电脑ip地址查询要怎么做?查询IP地址就看这3种方法

电脑无法运转时,我们需要别人的帮忙的话,那就需要知道自己电脑的IP地址是什么。但是很多人不知道该从电脑哪里找到IP地址。电脑ip地址查询就看下面2种方法,让你轻松就能Get到技巧! 操作环境: 演示机型:华为…

【数据库】 数据库的理论基础详解

目录 一, 什么是数据库 二, 数据库管理系统(DBMS) 三,数据库与文件系统的区别 1,对比区别: 2,优缺点总结: 四,数据库的发展史 五,常见数据库 1, 关系型…

vue directive 注册局部指令

注册局部指令 vue directive 在注册局部指令时,是通过在组件 options 选项中设置 directives 属性。如下: directives: {focus: {// 指令的定义inserted: function (el) {el.focus()}} }在模板中的任何元素上都可以使用新的 v-focus property&#xff…

前端登录状态验证Session和Token的区别

(1)Session客户端发送一个登录请求,服务器验证登录数据无误,会生成一个sessionID,此ID对应的值即登录状态为已登录。服务器有一个key-value映射表,会把这个ID和登录状态存到此表中。服务器返回的响应头的se…

好用的iPhone 数据恢复软件精选

随着 Apple 的 iTunes / iCloud 备份服务的兴起,我们总是假设这些信息在我们需要的时候可以随时访问。然而,事实是,意想不到的“不幸”发生了,比如 iOS 升级失败、忘记密码,或者更严重的情况,如进水或被盗。…

Ansible的脚本------playbook剧本

一、剧本的前置知识点1、主机清单ansible默认的主机清单是/etc/ansible/hosts文件主机清单可以手动设置,也可以通过Dynamic Inventory动态生成一般主机名使用FQDNvi /etc/ansible/hosts [webserver] #使用方括号设置组名 www1.example.org #定…

想要精通算法和SQL的成长之路 - 接雨水

想要精通算法和SQL的成长之路 - 接雨水前言一. 接雨水前言 想要精通算法和SQL的成长之路 - 系列导航 一. 接雨水 原题链接 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 输入:height [0,…

【RabbitMQ】注册成功后的通知操作

目录前提说明代码实现1. 依赖2. 配置类3. 生产方创建测试类,目的:查看是否队列交换机创建成功,且在队列里面是否有一条待消费的信息。4. 消费方最后前提说明 背景条件:主要是自己学完了RabbitMQ后,想自己多去动手实践…

基于SSM的教务管理系统设计与实现

技术:Java、JSP等摘要:伴随着数字化、网络化、信息化发展的社会,越来越多的行业与时俱进融入到了互联网中,而高校作为为了一个更是培养各色人才之地,更是拥有大量的高科技人才,因此也更应该运用科技来完善教…

单片机开发---ESP32S3移植NES模拟器(二)

书接上文 《单片机开发—ESP32-S3模块上手》 《单片机开发—ESP32S3移植lvgl触摸屏》 《单片机开发—ESP32S3移植NES模拟器(一)》 暖场视频,小时候称这个为—超级曲线射门!!!!!&am…

Linux 安装jenkins和jdk11

Linux 安装jenkins和jdk111. Install Jdk112. Jenkins Install2.1 Install Jenkins2.2 Start2.3 Error3.Awakening1.1 Big Data -- Postgres4. Awakening1. Install Jdk11 安装jdk11 sudo yum install fontconfig java-11-openjdk 2. Jenkins Install 2.1 Install Jenkins 下…

八、Linux文件 - 文件IO与标准IO的区别

目录 1.Linux标准文件描述符 2.缓存的概念 1.Linux标准文件描述符 文件描述符缩写描述0STDIO标准输入1STDOUT标准输出2STDERR标准错误输出文件IO:是直接调用内核提供的系统调用函数,头文件时unistd.h标准IO:是间接调用系统调用函数&#x…

C语言经典编程题100例(21-40)

21、练习3-2 计算符号函数的值对于任一整数n,符号函数sign(n)的定义如下:请编写程序计算该函数对任一输入整数的值。输入格式:输入在一行中给出整数n。输出格式:在一行中按照格式“sign(n) 函数值”输出该整数n对应的函数值。输入样例1:10输出样例1:sig…

LeetCode刷题系列 -- 54. 螺旋矩阵

给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。示例 1:输入:matrix [[1,2,3],[4,5,6],[7,8,9]]输出:[1,2,3,6,9,8,7,4,5]示例 2:输入:matrix [[1,2,3,4],[…

Nextcloud通过不被信任的域名访问解决方法 Nextcloud 您正在访问来自不信任域名的服务器

windows电脑在网页端输入“http://192.168.xxx.xxx:8080/login”访问远程ubuntu18.04服务器,访问其docker镜像的Nextcloud,提示“”Nextcloud通过不被信任的域名访问解决方法 Nextcloud 您正在访问来自不信任域名的服务器“”,如下图&#xf…

Jetpack Compose中的绘制流程和自定义布局

Jetpack Compose中绘制流程的三个阶段 与大多数其他界面工具包一样,Compose 会通过几个不同的“阶段”来渲染帧。如果我们观察一下 Android View 系统,就会发现它有 3 个主要阶段:测量、布局和绘制。Compose 和它非常相似,但开头…