Higress Kruise Rollout: 渐进式交付为应用发布保驾护航

news2024/11/18 10:51:35

作者:扬少

前言

在业务高速发展过程中,如何最大化保障功能迭代过程中业务流量无损一直是开发者比较关心的问题。通常在应用发布新功能阶段,我们会采用灰度发布的思想对新版本进行小流量验证,在符合预期之后再进行全量发布,这就是"渐进性交付"。该词最早起源于大型、复杂的工业化项目,它试图将复杂的项目进行分阶段拆解,通过持续进行小型闭环迭代降低交付成本和时间。随着云原生架构不断发展,渐进性交付被广泛应用在互联网业务应用中,开发者通过GitOps、CI/CD方式集成渐进式交付框架,让新功能交付以流水线的方式分批执行,利用A/B 测试、金丝雀发布等技术精细化控制每一批次的流量策略,充分保障应用发布的稳定性。

什么是Higress

Higress 是一款标准化、高集成、易扩展、热更新的云原生网关。

Higress 源自阿里巴巴内部电商、交易等核心生产场景的实践沉淀,遵循 Ingress/Gateway API 标准,将流量网关、微服务网关、安全网关三合一,并在此基础上扩展了服务管理插件、安全类插件和自定义插件,高度集成 K8s 和微服务生态,包括 Nacos 注册和配置、Sentinel 限流降级等能力,并支持规则变更毫秒级生效等热更新能力。

在这里插入图片描述

更多关于 Higress 的介绍,可以参阅Higress官网 [ 1]

什么是Kruise Rollout

Kruise Rollout 是阿里云开源的云原生应用自动化管理套件 OpenKruise 在渐进式交付领域的新尝试,支持配合流量和实例灰度的金丝雀发布、蓝绿发布、A/B Testing 发布,以及发布过程能够基于 Prometheus Metrics 指标自动化分批与暂停,并提供旁路的无感对接、兼容已有的多种工作负载(Deployment、CloneSet、DaemonSet)。

这里,熟悉 Kubernetes 的小伙伴可以会疑惑,官方的 Deployment 工作负载不是有控制发布的策略吗?我们为什么还需要 Kruise Rollout 呢?

首先,Kubernetes 官方的 Deployment 中定义发布策略严格上不符合渐进性交付的思想,它实际是滚动发布。虽然 Deployment 对于升级而言提供了 maxUnavailable 和 maxSurge 两个参数,但是本质上来讲 Deployment 它只支持流式的一次性发布,用户并不能控制分批以及精细化的流量策略。比如用户无法严格控制新老版本之间的流量比例,只能根据实际 Pod 数量占比以及调用端的负载均衡策略;用户无法做 A/B testing 策略,例如限制公司内部员工可以访问新版本。当新版本出现问题,只能重新执行一遍滚动发布切回老版本,这样不仅回滚速度慢,而且频繁线上变更本身就具有极高的不稳定因素。

再者,Kubernetes 只提供了应用交付的 Deployment 控制器,以及针对流量的 Ingress、Service 抽象,但是如何将上述实现组合成开箱即用的渐进式交付方案,Kubernetes 并没有出标准的定义。

出于以上问题和考量,阿里云开始发起对渐进式领域的探索,结合多年来容器化、云原生的技术沉淀,推出了无侵入、可扩展、高易用的渐进式交付框架 Kruise Rollout。

Higress & Kruise Rollout工作机制

简单介绍一下 Higress 和 Kruise Rollout 在一次应用发布过程中的工作机制。

在这里插入图片描述

这里,假设集群中有一个 Deployment 应用A,通过 Higress 网关对外暴露提供服务。应用A由于业务发展,需要发布新功能。

1.用户首先在集群中添加渐进性交付策略(Rollout CRD资源),描述目标工作负载的交付策略,比如批次,每一批次的流量控制,以及关联的 Service 资源和 Ingress 资源。

2.应用A发布新版本,用户修改集群上中目标Deployment的Pod模板中容器镜像为新版本。

3.Kruise Rollout通过hook方式参与到Deployment滚动发布流程,修改Deployment的Pause来暂停滚动发布过程。

4.执行第一次批次发布,根据Rollout CRD资源描述的交付策略,控制新版本的Pod数量,同时为正式Ingress资源生成对应的灰度Ingress资源,并配置灰度流量策略,比如流量权重比或者根据请求内容Header进行流量分发。Higress监听到Ingress资源变化,实时动态修改路由规则,满足灰度规则的流量被分发到新版本。

5.通过Prometheus等监控手段观察应用流量的指标信息,验证新版本是否符合预期。

a.如果符合预期,触发下一次批次发布,重复执行步骤4

b.如果不符合预期,触发回滚,新发布的Pod下线,灰度已下线的部分老版本的Pod,Ingress资源自动下线灰度规则,Higress实时修改路由规则,确保流量只访问老版本服务。

整个 Rollout 过程,自动整合Deployment、Service、Ingress一起工作,并向用户屏蔽底层资源变化。这是与现有工作负载能力的一种协同,它尽量复用工作负载的能力,又做到了非 Rollout 过程的零入侵。

实战:金丝雀发布

01:什么是金丝雀发布

金丝雀发布的思想是将少量的请求引流到新版本上,因此部署新版本服务只需极小数的机器。验证新版本符合预期后,逐步调整流量权重比例,使得流量慢慢从老版本迁移至新版本,期间可以根据设置的流量比例,对新版本服务进行扩容,同时对老版本服务进行缩容,使得底层资源得到最大化利用。

如图,某服务当前版本为v1,现在新版本v2要上线。为确保流量在服务升级过程中平稳无损,采用金丝雀发布方案,逐步将流量从老版本迁移至新版本。

在这里插入图片描述

02:基于Higress & Kruise Rollout实践金丝雀发布

假设集群中有一个服务demo,通过Higress网关对外提供服务。

如何安装Higress,请参阅Higress快速开始 [ 2]

如何安装Kruise Rollout,请参阅安装Kruise Rollout [ 3]

apiVersion: apps/v1
kind: Deployment
metadata:
  name: demo
spec:
  replicas: 5
  selector:
    matchLabels:
      app: demo
  template:
    metadata:
      labels:
        app: demo
    spec:
      containers:
      - name: main
        image: registry.cn-hangzhou.aliyuncs.com/mse-ingress/version:v1
        imagePullPolicy: Always
        ports:
        - containerPort: 8080
---
apiVersion: v1
kind: Service
metadata:
  name: demo
spec:
  ports:
  - port: 80
    targetPort: 8080
    protocol: TCP
    name: http
  selector:
    app: demo
---
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: demo
  annotations:
    kubernetes.io/ingress.class: nginx
spec:
  rules:
  - http:
      paths:
      - backend:
          service:
            name: demo
            port:
              number: 80
        path: /version
        pathType: Exact

现在,服务demo需要发布新版本。在修改应用镜像之前,我们需要为服务demo定义金丝雀发布策略,以达到渐进式发布的效果。

apiVersion: rollouts.kruise.io/v1alpha1
kind: Rollout
metadata:
  name: rollouts-demo
spec:
  objectRef:
    workloadRef:
      apiVersion: apps/v1
      kind: Deployment
      name: demo
  strategy:
    canary:
      steps:
      - weight: 10
        pause: {}
        replicas: 1
      - weight: 30
        pause: {}
        replicas: 2
      trafficRoutings:
      - service: demo
        type: nginx
        ingress:
          name: demo
  • 其中workloadRef 旁路式的选择需要 Rollout 的 Workload,此处为Deployment,支持其他Workload(如CloneSet、DaemonSet)。

  • 其中canary.Steps 定义了整个 Rollout 过程一共分为3批,其中第一批只灰度一个新版本 Pod,并且 routing 10% 流量到新版本 Pod,并且需要人工确认是否继续发布;第二批只灰度两个新版本Pod,并且routing 30%流量到新版本Pod,并且需要人工确认是否继续发布;最后一批,无需定义,即全量发布。

  • 其中trafficRoutings指向了需要感知流量规则的资源,kruise rollout会自动更新相关资源,实时反射目标流量规则。

修改服务A的Deployment中镜像为registry.cn-hangzhou.aliyuncs.com/mse-ingress/version:v2,观察相关资源变化。

查看rollout资源状态,发现当前执行完第一批发布,并且出于暂停状态,需要人工确认才能继续下一批次发布。

在这里插入图片描述

查看pod状态,发现新版本pod只有一个,Deployment资源没有全部滚动发布。

在这里插入图片描述

查看Ingress的解析IP (即Higress网关对外的公网IP地址)。

在这里插入图片描述

测试流量,发现有10%流量访问新版本。

在这里插入图片描述

继续第二批次发布,查看当前Pod状态,发现新版本Pod有两个。

如何安装kubectl-kruise,请参阅**安装kubectl-kruise [ 4] **。

在这里插入图片描述

测试流量,观察流量分配比。

在这里插入图片描述

发布最后一批,完成全量发布。

在这里插入图片描述

测试流量,发现流量全部转发至新版本。至此,我们通过小流量的方式逐步将流量从老版本迁移至新版本。

在这里插入图片描述

实战:A/B Testing

01:什么是A/B Testing

相比于基于权重方式的金丝雀发布,A/B测试基于用户请求的元信息将流量路由到新版本,这是一种基于请求内容匹配的灰度发布策略。只有匹配特定规则的请求才会被引流到新版本,常见的做法包括基于Http Header和Cookie。基于Http Header方式的例子,例如User-Agent的值为Android的请求 (来自安卓系统的请求)可以访问新版本,其他系统仍然访问旧版本。基于Cookie方式的例子,Cookie中通常包含具有业务语义的用户信息,例如普通用户可以访问新版本,VIP用户仍然访问旧版本。

如图,某服务当前版本为v1,现在新版本v2要上线。希望安卓用户可以尝鲜新功能,其他系统用户保持不变。

在这里插入图片描述

通过在监控平台观察旧版本与新版本的成功率、RT对比,当新版本整体服务预期后,即可将所有请求切换到新版本v2,最后为了节省资源,可以逐步下线到旧版本v1。

在这里插入图片描述

02:基于Higress & Kruise Rollout实践A/B Testing

我们仍然利用上面的例子,服务A初始镜像为v1。现在,服务demo需要发布新版本。在修改应用镜像之前,我们需要为服务demo定义A/B Testing 策略,以达到渐进式发布的效果。

apiVersion: rollouts.kruise.io/v1alpha1
kind: Rollout
metadata:
  name: rollouts-header
spec:
  objectRef:
    workloadRef:
      apiVersion: apps/v1
      kind: Deployment
      name: demo
  strategy:
    canary:
      steps:
      - matches:
        - headers:
          - name: user-agent
            value: android
        pause: {}
        replicas: 1
      trafficRoutings:
      - service: demo
        ingress:
          classType: nginx
          name: demo

其中canary.Steps 定义了整个 Rollout 过程一共分为2批,其中第一批只灰度一个新版本 Pod,并且将带有HTTP Header user-agent: android (即安卓用户)的流量routing 到新版本 Pod,并且需要人工确认是否继续发布;最后一批,无需定义,即全量发布。

修改服务A的Deployment中镜像为registry.cn-hangzhou.aliyuncs.com/mse-ingress/version:v2,观察相关资源变化。

查看rollout资源状态,发现当前执行完第一批发布,并且出于暂停状态,需要人工确认才能继续下一批次发布。

在这里插入图片描述

查看pod状态,发现新版本pod只有一个,Deployment资源没有全部滚动发布。

在这里插入图片描述

测试来自安卓的流量是否路由到新版本,非安卓的流量是否路由到老版本。

在这里插入图片描述

发布最后一批,完成全量发布。并测试所有流量是否路由到新版本。

在这里插入图片描述

总结

相比于传统人工手动方式,Higress & Kruise Rollouts提供了无侵入、自动化运维方式让应用发布丝滑般顺畅。开发者无需关注发布过程中如何调整Deployment、Ingress、Service等资源,只需声明并管理发布策略Rollouts资源即可,原生Deployment的滚动发布会自动实现为渐进式交付,让应用发布可批次、可灰度、可回滚,助力业务快速迭代发展同时,也提高了应用发布的稳定性和效率问题。

01:Higress 社区

Higress项目处于开源初期,我们在兼容好现有 Ingress 标准的基础上,会重点发力下一代的Ingress 标准 Gateway API,利用 Gateway API 带来的契机打通南北向与东西向的全域流量调度,帮助用户使用一套架构架构同时管理外部与内部流量,降低部署运维成本、提升开发及运维效率。欢迎更多的用户参与到Higress社区,贡献一份文档、提交一段代码,您就有可能成为 Higress 的第一批 Contributor 甚至 Committer。目前,我们建立了1个钉群和1个微信群,加入我们,联系群主或群管,共建云原生网关吧。

在这里插入图片描述

02:OpenKruise 社区

OpenKruise是阿里巴巴从容器化转向云原生化过程中,在云原生应用管理方面的最佳实践经验,除本文涉及的Kruise Rollout外,OpenKruise还提供了诸多云原生应用管理相关的能力,如:增强的工作负载、Sidecar容器管理、弹性拓扑管理等。目前OpenKruise上面托管着阿里集群上百万的Pod,包含:有状态、无状态、通用类型的Sidecar Aagent。

最后,欢迎感兴趣的同学加入下面的社区钉钉群,我们大家一起讨论云原生应用管理相关的需求与技术。

在这里插入图片描述

相关链接

[1] Higress官网:

https://higress.io/zh-cn/

[2] Higress快速开始:

https://higress.io/zh-cn/docs/user/quickstart.html

[3] 安装Kruise Rollout:

https://github.com/openkruise/rollouts/blob/master/docs/getting_started/installation.md

[4] 安装kubectl-kruise:

https://github.com/openkruise/kruise-tools/blob/master/README.md

点击此处进入Higress官网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/149421.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

11、JS笔记-内置对象

1.内置对象 js中对象分为三种: 自定义对象、内置对象、浏览器对象(js独有) 内置对象: js语言自带的对象,供开发者使用,提供一些常用或基本的功能(属性和方法) 2.Math对象 Math中所…

【云原生】k8s配置资源管理

内容预知 1.Secret的资源配置 1.1 Secret配置的相关说明 1.2 陈述式创建Secret配置 1.3 声明式base64编码创建Secret 1.4 将secret以volume形式挂载到pod中 1.5 将Secret导入到pod中,充当环境变量 1.6 实战运用:使用secret配置免密交互拉取habor…

Qt之对话框

文章目录一、对话框的概念二、与QWidget的区别三、对话框2种显示方法四、对话框返回值的概念本节示例提示:以下是本篇文章正文内容,下面案例可供参考 一、对话框的概念 对话框是和用户简短交互的一种窗口。如:登录界面,关于界面…

知识付费图文音视频课程公众号系统开发

知识付费图文音视频课程公众号系统开发 功能特性;为你介绍音视频课程点播系统的功能特性。 微信H5;目前只支持微信公众号H5访问。 课程管理;后台可上传多个课程分类与课程。 名师推荐;后台可以维护教师列表,并推荐到首页显示。 分享海报;可以自定义多个分享海报。 …

Maven在项目里的具体使用方式,很简单

大家好,今天给大家分享一下Maven在项目里的*具体使用方式* 有关于maven这个东西,要知道,它的作用是帮助开发人员(也就是我们)批量的管理jar包 所谓对jar包批量管理,有一个很重要的点, 就是对于…

2022年CSDN年终总结:一个新晋研究生的遗憾与成长

目录0 遗憾1 顺利完成毕业设计2 转向垂类写作3 C站成长4 组织社区活动5 新年新flag0 遗憾 2022年有很多遗憾 其一,毕业的遗憾。3月疫情席卷上海,封校封寝、静态网格,每天从上床到下桌两点一线,5月窗口期身着防护服撤离上海&…

云原生|kubernetes|pod或容器的安全上下文配置解析

前言: 安全上下文(Security Context)定义 Pod 或 Container 的特权与访问控制设置。 安全上下文包括但不限于: 自主访问控制(Discretionary Access Control): 基于用户 ID(UID&…

【PAT甲级 - C++题解】1091 Acute Stroke

✍个人博客:https://blog.csdn.net/Newin2020?spm1011.2415.3001.5343 📚专栏地址:PAT题解集合 📝原题地址:题目详情 - 1091 Acute Stroke (pintia.cn) 🔑中文翻译:急性中风 📣专栏…

SAP灵活工作流Inbox收件箱数据展示

目录 任务说明展示流程内容 使用增强添加文本展示流程内容 自定义页面展示 任务说明展示流程内容 维护审批任务说明页签下的任务说明,支持多语种,支持使用变量; 变量只能使用容器中定义的变量,因此需要将要展示的数据绑定传输到…

【包装机】(队列+栈)

一种自动包装机的结构如图 1 所示。首先机器中有 N 条轨道,放置了一些物品。轨道下面有一个筐。当某条轨道的按钮被按下时,活塞向左推动,将轨道尽头的一件物品推落筐中。当 0 号按钮被按下时,机械手将抓取筐顶部的一件物品&#x…

C++动态链接库的使用

目录一 创建Windows动态链接库二 导出和查看DLL中的函数三 隐式链接方式加载DLL四 动态库和测试程序共用一份头文件五 从DLL中导出C类六 解决名称改编七 显式加载方式加载DLL一 创建Windows动态链接库 新建项目,选择Windows桌面向导,命名项目名称为Dll1…

GPDB中gp_vmem_protect_limit参数的意义

gp_vmem_protect_limit参数的意义1、gp_vmem_protect_limit参数说明1)在启用了基于资源队列的资源管理系统时,gp_vmem_protect_limit参数表示每个segment分配到的内存大小。预估值计算方式:所有GP数据库进程可用内存大小/发生故障时最大的primary segmen…

最优控制学习笔记2----泛函

文章目录泛函泛函定义泛函的变分自变量的变分泛函相近泛函距离泛函的连续性线性泛函泛函的变分泛函的极值泛函极值的定义泛函的极值泛函极值条件泛函 泛函定义 对于某一类函数集合{x(t)}\{x(t)\}{x(t)} 中的每一个函数 x(t)x(t)x(t), 在映射关系 JJJ 下均有一个确定的数与之对…

100天精通Python(数据分析篇)——第71天:Pandas文本数据处理方法之str/object类型转换、大小写转换、文本对齐、获取长度、出现次数、编码

文章目录每篇前言1. 文本数据类型介绍1)类型介绍2)类型转换3)类型区别区别1:统计字符串时区别2:检查字符串时2. Python字符串内置方法1) 大小写转换2) 文本对齐3)获取长度4)获取出现次数5&#…

js 右键弹出自定义菜单

演示 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><style>*{margin…

Node.JS(2)--使用node执行js文件

目录 知识回顾 CommentJS规范 ECMAScript标准规范 模块化 CommonJS规范 模块化 知识回顾 I/O (Input/output) I/O操作指的是对磁盘的读写操作 Node Node是对ES标准一个实现&#xff0c;Node也是一个JS引擎通过Node可以使js代码在服务器端执行Node仅仅对ES标准进行了实…

“程序的编译+链接”,深入认识代码生成可执行程序的过程

目录 引入 编译 预编译 编译 汇编 链接 选项总结 记忆方法 运行环境 引入 博主认为学习本章内容&#xff0c;能够认识在代码跑的时候的过程。 首先&#xff0c;粗略笼统的认识程序运行过程的框架图。 编译 其次&#xff0c;再进行细化&#xff0c;细化编译的过程&…

人工智能轨道交通行业周刊-第29期(2023.1.2-1.8)

本期关键词&#xff1a;站台限界测量机器人、智慧云巴、钢轨伸缩调节器、国铁集团会议、4D毫米波雷达、车道线检测1 整理涉及公众号名单1.1 行业类RT轨道交通中关村轨道交通产业服务平台人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网上榜铁路视点ITS World轨道…

node.js+mysql博客全栈系统源码+数据库,含后台完整基础功能,小程序,web前台站点一键置灰,支持移动端适

一个 "开箱即用" 个人博客全栈系统项目&#xff01;下载地址&#xff1a;node.jsmysql博客全栈系统源码数据库 &#x1f96f; 预览 &#x1f440; 前台预览 &#x1f440; 管理端预览 &#x1f96f; v1.0.2 介绍 芒果’个人博客系统&#xff0c;包括前后台完整基…

Linux下buff/cache占用过大问题

当我们在命令行中执行free -h 查看内存时&#xff0c;发现buff/cache占用过大&#xff0c;导致其他软件没有内存可使用 从图上可以看出&#xff0c;buff/cache占用了1G多。 buff/cache是由于系统读写导致的文件缓存&#xff0c;没有及时释放。 解决方案&#xff1a;清理缓存 …