大规模 Spring Cloud 微服务无损上下线探索与实践

news2025/1/19 7:52:45

作者:十眠

“从一次常见的发布说起,在云上某个系统应用发布时,重启阶段会导致较大数量的 OpenAPI、上游业务的请求响应时间明显增加甚至超时失败。随着业务的发展,用户数和调用数越来越多,该系统又一直保持一周发布二次的高效迭代频率,发布期间对业务的影响越来越无法接受,微服务下线的治理也就越来越紧迫。”

云原生架构的发展给我们微服务系统带来了自动的弹性伸缩、滚动升级、分批发布等原生能力,让我们享受到了资源、成本、稳定性的最优解,但是在应用的缩容、发布等过程中,由于实例下线处理得不够优雅,将会导致短暂的服务不可用,短时间内业务监控会出现大量 io 异常报错;如果业务没做好事务,那么还会引起数据不一致的问题,那么需要紧急手动订正错误数据;甚至每次发布,都需要发告示停机发布,我们的用户会出现一段时间服务不可用。

微服务下线有损问题分析

减少不必要的 API 报错,是最好的用户体验,也是最好的微服务开发体验。如何解决这个在微服务领域内让人头疼的问题呢?在这之前我们先来了解一下为什么我们的微服务在下线的过程中会有可能出现流量损失。

在这里插入图片描述

如上图所示,是一个微服务节点下线的正常流程

  1. 下线前,消费者根据负载均衡规则调用服务提供者,业务正常。
  2. 服务提供者节点 A 准备下线,先对其中的一个节点进行操作,首先是触发停止 Java 进程信号。
  3. 节点停止过程中,服务提供者节点会向注册中心发送服务节点注销的动作。
  4. 服务注册中心接收到服务提供者节点列表变更的信号后会,通知消费者服务提供者列表中的节点已下线。
  5. 服务消费者收到新的服务提供者节点列表后,会刷新客户端的地址列表缓存,然后基于新的地址列表重新计算路由与负载均衡。
  6. 最终,服务消费者不再调用已经下线的节点

微服务下线的流程虽然比较复杂,但整个流程还是非常符合逻辑的,微服务架构是通过服务注册与发现实现的节点感知,自然也是通过这条路子实现节点下线变化的感知,整个流程没有什么问题。

参考我们这边给出的一些简单的实践数据,我想你的看法可能就会变得不同。从第 2 步到第 6 步的过程中,Eureka 在最差的情况下需要耗时 2 分钟,即使是 Nacos 在最差的情况下需要耗时 50 秒;在第 3 步中,Dubbo 3.0 之前的所有版本都是使用的是服务级别的注册与发现模型,意味着当业务量过大时,会引起注册中心压力大,假设每次注册/注销动作需要花费 20~30ms,五六百个服务则需要注册/注销花费掉近 15s 的时间;在第 5 步中, Spring Cloud 使用的 Ribbon 负载均衡默认的地址缓存刷新时间是 30 秒一次,那么意味着及时客户端实时地从注册中心获取到下线节点的信号,依旧会有一段时间客户端会将请求负载均衡至老的节点中。

在这里插入图片描述

如上图所示,只有到客户端感知到服务端下线并且使用最新的地址列表进行路由与负载均衡时,请求才不会被负载均衡至下线的节点上。那么在节点开始下线的开始到请求不再被打到下线的节点上的这段时间内,业务请求都有可能出现问题,这段时间我们可以称之为服务调用报错期。

在微服务架构下,面对每秒上万次请求的流量洪峰,即使服务调用报错期只有短短几秒,对于企业来说都是非常痛的影响。在一些更极端的情况下,服务调用报错期可能会恶化到数分钟,导致许多企业不敢发布,最后不得不每次发版都安排在凌晨两三点。对于研发来说每次发版都是心惊胆颤,苦不堪言。

无损下线技术

通过对微服务下线的流程分析,我们理解了解决微服务下线问题的关键就是:保证每一次微服务下线过程中,尽可能缩短服务调用报错期,同时确保待下线节点处理完任何发往该节点的请求之后再下线。

那么如何缩短服务调用报错期呢?我们想到了一些策略:

  1. 将步骤 3 即节点向注册中心执行服务下线的过程提前到步骤 2 之前,即让服务注销的通知行为在应用下线前执行,考虑到 K8s 提供了 Prestop 接口,那么我们就可以将该流程抽象出来,放到 K8s 的 Prestop 中进行触发。
  2. 如果注册中心能力不行,那么我们是否有可能服务端在下线之前绕过注册中心直接告知客户端当前服务端节点下线的信号,该动作也可以放在 K8s 的 Prestop 接口中触发。
  3. 客户端在收到服务端通知后,是否可以主动刷新客户端的地址列表缓存。

如何尽可能得保证服务端节点在处理完任何发往该节点的请求之后再下线?站在服务端视角考虑,在告知了客户端下线的信号后,是否可以提供一种等待机制,保证所有的在途请求以及服务端正在处理的请求被处理完成之后再进行下线流程。

在这里插入图片描述

如上图所示,我们通过以上这些策略可以确保服务消费者端尽可能早实时地感知到服务提供者节点下线的行为,同时服务提供者会确保所有在途请求以及处理中的请求处理完成之后,再进行服务下线。这些想法看起来没什么问题,接下来看一下我们是如何在 Spring Cloud 跟 Dubbo 服务框架中实现的。

首先我们需要在服务提供者进程中内置一个 HttpServer 向外暴露 /offline 接口,用于接受主动注销的通知。我们可以在 K8s 的 Prestop 中配置 curl http://localhost:20001/offline 触发主动注销接口。该接口收到 offline 命令后,通过触发调用注册中心中下线实例的接口或者通过调用微服务程序中的 ServiceRegistration.stop 接口执行服务注销动作,使得我们在停止微服务之前完成向注册中心进行节点地址的下线动作。

我们在 Prestop 接口中还要实现一个能力就是主动通知的能力。在 Dubbo 框架中是比较好实现的,因为 Dubbo 本身就是长连接的模型,我们可以发现 Dubbo 在服务提供者中维护了与所有服务消费者连接的 Channel 集合,在收到 offline 命令后,向所有维护中的 Channel 发送一个 ReadOnly 信号,标记该 Channel 为只读状态,Dubbo 的消费者收到 ReadOnly 信号后,将不再往该服务提供者发送请求,从而实现主动通知的效果。对于 Spring Cloud 框架而言实现思路也是类似的,由于 Spring Cloud 调用的请求是没有 Channel 的模型,因此我们在收到 offline 命令后,我们在请求的 Response Header 中带上 ReadOnly 标签,服务消费者收到 ReadOnly 标签后,会主动刷新负载均衡 Ribbon 缓存,保证不再有新的请求访问下线过程中的服务提供者。

我们服务提供者端需要等待所有在途请求处理完成之后,再进行应用停止流程。由于业务的不确定性,请求处理时长是不确定的,那么服务提供者端需要等待多久才可以等到所有在途请求处理完成呢?为了解决这个问题,我们设计了一种自适应等待的策略。我们让应用在下线前会有一段自适应等待的时期,我们对所有进入服务提供者以及调用完成的流量进行统计与计算。在这个过程中应用会一直等待,直到应用处理完成所有流向当前应用的流量之后再进行停机下线流程。

通过服务提前注销、主动通知以及自适应等待这三种策略,我们实现了微服务无损下线的能力。从而避免微服务节点下线过程中存在较长的服务报错期,解决了发布过程中业务流量损失的问题。

大规模下无损下线实践

到目前为止,以上的一系列解决思路与策略都看起来非常的完美,但是当我们面对云上客户时,特别是在面对大规模的微服务场景下,无损下线方案在落地的过程中依旧碰到了许多问题。云上某客户生产环境的 Spring Cloud 应用在接入我们的方案之后,发布的过程中依旧出现了大量的错误ErrorCode: ServiceUnavailable。我们跟客户一起分析排查之后,我们定位到问题的根因是有些 Consumer 没能及时收到 Provider 的下线通知,即使服务端节点已经下线了,依旧有流量访问下线的服务端节点。在大规模之下,注册中心的通知及时性是不能保证的,我们还意识到 “在收到 offline 命令后,我们可以在收到请求的返回值中带上 ReadOnly 标签” 这个方式的及时性也不能保证,特别是在QPS不大、RT较长、应用的节点数量过多的情况下,有许多 Consumer 是没能收到 Provider 下线通知的。我们排查了各个 Consumer 节点收到 ReadOnly 标签的日志,发现确实有不少 Consumer 没有日志记录,证明了我们的怀疑。

主动通知

为了解决大规模实践中的问题,我们必须有一种更加实时可靠的主动通知方案。考虑到 Spring Cloud 调用的请求是没有 Channel 的模型,那么我们就需要在 Spring Cloud 服务提供者端维护最近一段时间内调用过该实例的服务消费者地址列表。在收到 offline 命令后,服务提供者将会遍历缓存在内存中的服务消费者地址列表,并对每一个 Consumer 发起一次 GoAway 的 Http 调用。当然我们需要在服务消费者对外暴露的 HttpServer 中增加接收 GoAway 通知的接口。当服务消费者收到调用后,服务消费者会主动刷新当前节点的负载均衡 Ribbon 缓存,并且在流量路由的过程中隔离掉发送 GoAway 请求的 Provider 节点,这样当前服务消费者就不会再向对应的 Provider 节点发起请求。当 Provider 对每一个 Consumer 节点进行 GoAway 调用后,则表示该服务提供者已经将“下线中”的信号通知至所有活跃的消费者,通过这个方式我们实现了大规模下相对可靠的主动通知的能力。

可观测性建设

无损下线的流程非常复杂,同时还涉及到多个节点之间的通知机制,特别是在大规模之下,下线流程的完整性以及可靠性的确认变得非常复杂与繁琐。我们需要一种完善的可观测能力,帮助我们观测下线的流程有无任何问题。当出现问题的时候,需要可观测能力帮助我们快速定位问题以及根因。

如何判断我们每次发布应用的无损下线是否生效?

最直观的方式那就是看业务的流量,我们需要站在 Provider 视角上看业务流量是否在 Provider 下线前停止,并且在这个过程中业务流量没有损失。想到这一块,那我们就应该提供 Provider 节点的流量情况,并且需要关联无损下线的事件。这样就可以直观地看到先是触发了无损下线,在没有业务流量之后再停止应用的完整无损下线流程。

  • Metrics 流量视图

我们借助可观测 Metrics 能力,对于每个 Pod 的业务流量进行统计与展示,同时在流量执行的过程中关联无损下线事件,这样就可以直观地看到到微服务节点下线过程有无问题,一目了然。

在这里插入图片描述

如何判断无损下线的流程执行符合我们的预期?

按照我们主动通知的逻辑,我们微服务节点下线过程中,需要对每一个 Consumer 节点进行 GoAway 调用。设想一下,在大规模场景下,假设当前应用有 5 个消费者应用,且每个应用有 50 个节点,那么我们如何确保 GoAway 通知到了这 250 个 Consumer 中的每一个 Consumer ?无损下线流程本身就非常复杂,特别在大规模场景下,无损下线可观测问题的复杂度急剧上升。我们想到可以借助 Tracing 能力提升无损下线的可观测能力。

  • 依赖 Tracing 的无损下线可观测新思路

在这里插入图片描述

如上图该场景,我们对 108 节点进行缩容操作,我们就可以得到一条 Tracing 链路,其中包含主动通知、服务注销、应用停止等几个步骤,并且我们可以在每个步骤中看到所需的信息。

在这里插入图片描述

在主动通知环节我们可以看到当前 Provider 节点对哪些 Consumer 进行 GoAway 请求的调用,如下图所示我们将主动通知 10.0.0.90、10.0.0.176 两个 Consumer 节点。

在这里插入图片描述

当 Consumer 收到 GoAway 调用后,会进行负载均衡列表的刷新以及路由的隔离,我们将在负载均衡地址列表中显示最新抓到的当前 Consumer 对于当前服务缓存的最新地址列表,我们可以在下图中看到,地址列表中只剩下 10.0.0.204 这个服务提供者节点的调用地址。

在这里插入图片描述

我们也可以看到 Spring Cloud 向 Nacos(注册中心)执行服务下线的调用结果,注销成功。

在这里插入图片描述

我们发现通过将无损下线的 workflow 抽象成 Tracing 结构的策略,可以帮助我们降低大规模场景、复杂链路下无损下线问题的排查成本,帮助我们更好地解决大规模下微服务下线时流量无损的问题。

总结

软件迭代过程中,除了风险控制,在微服务领域还有一个常见的问题就是应用上下线过程中的流量治理,目的也比较明确,确保应用在发布、扩缩容、重启等场景时,不会损失任何业务流量损失。无损下线技术正是在这样的背景下应运而生的,他解决了变更过程中的业务流量损失问题,也是流量治理体系中非常重要的一个环节。无损下线功能有效地保证我们业务流量的平滑,提升了微服务开发的幸福度。

MSE 无损下线功能也随着客户场景的丰富在不断演进与完善。值得一提的是,我们在实践微服务治理的过程中开源了 OpenSergo 这个项目,旨在推动微服务治理从生产实践走向标准。欢迎感兴趣的同学们一起参与讨论与共建,一起来定义微服务治理的未来。

如何联系我们,欢迎加入 OpenSergo 钉钉交流群:34826335

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/32689.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

CAD特殊符号,你不一定会!!!

在CAD软件中,有时候会输入一些特殊的符号。比如在标明高低差的时候会输入“”号,在标明管子或者钢筋的直径为输入直径符号“”,为了标明角度值需要输入符号“”,那么这些符号怎么快速的绘制出来呢?我们一起用CAD梦想画…

专利解析|多维建模结合AI识别商品特征的方法

企业采购数字化转型的背景 国家“十四五”规划纲要提出要推进产业数字化转型,在供给侧结构性改革大背景下,国家出台了《企业数字化采购实施指南》,大大促进了企业采购电商化的发展。企业电商化采购能提高企业的采购效率、加快物流速度、降低…

m基于QPSK调制解调的无线图像传输matlab仿真,包括扩频解扩均衡等模块

目录 1.算法描述 2.仿真效果预览 3.MATLAB部分代码预览 4.完整MATLAB程序 1.算法描述 软件无线电在无线通信领域被称为是自模拟通信过渡到数字通信之后的又一次革命,在军用和民用方面都有着广阔的应用。它是一种新的无线通信技术,基于通用的可编程的…

【JAVA高级】——封装JDBC中的DaoUtils工具类(Object类型方法)

✅作者简介:热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏:JAVA开发者…

【文献整理】基于深度强化学习的知识图谱推理研究

目录DeepPath背景Core贡献几个要点:Training pipeline结论DIVINE背景Core贡献预备知识DIVINE推理过程模型文献整理基于综述论文:基于深度强化学习的知识推理研究进展综述_宋浩楠,赵刚,孙若莹 文中对知识图谱推理进行如下分类&…

SpringSecurity(十七)---OAuth2的运行机制(下)-实现一个简单的单点登录应用程序

一、前言 本章实现第一个使用带有Spring Boot和Spring Security 的OAuth2框架的应用程序。这个示例将展示如何将OAuth2应用到Spring Security中,并阐释你需要了解的一些接口的内容。顾名思义,单点登录(SSO)应用程序是通过授权服务…

如何使用一台电脑远程控制多台电脑

如今,远程控制软件已经广泛应用于我们的日常生活中。我们使用远程桌面软件远程控制另一台电脑来完成我们的工作和学习。在某些情况下,我们可能还需要同时远程控制多台电脑。例如: 您是一名培训师,正在寻找远程访问软件来同时远程…

[激光原理与应用-15]:《激光原理与技术》-1- 什么是激光,激光概述

目录 第1章 什么是激光 1.1 什么是激光 1.2激光在生活中应用 第2章 激光的特点 2.1 方向性好(平行性、直线性) 2.2 单色性好(颜色纯度高) 2.3 相干性比太阳光好 2.4 亮度高 2.5 能量极大 第3章 光产生的方式与核心概念 …

又爆冷了啦,日本半场逆转德国,怎么利用共享经济搅乱世界杯格局

近日世界杯热点逐渐升高,在23号晚上亚洲劲旅日本以2-1逆转多次捧得大力神杯的德国队,此前德国还从未输过日本队,因此德国再次吃到闭门羹,爆出了本届世界杯开赛以来既阿根廷惨败的又一大冷门。赛后,日本全国人民共同庆祝…

Web(二)html5基础-超链接的应用(知识训练和编程训练)

web知识训练_html5_超链接的应用 web编程训练_html5_超链接的应用 第1关_创建热字超链接 编程要求 在右侧编辑器中的Begin - End区域内补充代码,创建热字超链接,具体要求是: 1.链源文字为“听音乐找酷我”。 2.链宿地址为“https://www.ku…

FPGA——多路选择器实现按键控制LED灯的亮灭

文章目录前言一、多路选择器二、绘制模块框图及波形图三、Verilog HDL代码及测试代码四、创建工程五、仿真六、上板验证1、分配引脚2、烧录七、效果演示八、总结前言 软件:Quartus Prime Standard 18.0仿真软件:modelsim 10.5代码编写软件:V…

【虹科新品】 HK-MR430330绝对式光纤编码器介绍合集(下)

HK-MR430系列ZapFREE光纤位置传感器是一款外形小巧、具有13位单圈分辨率的旋转位置传感器。MR430设计新颖,开发了新的应用和OEM产品功能,这在以前的电子传感器是无法实现的。该传感器100%无源,不受EMI、RFI、微波和磁场的影响。创新型全绝缘设…

我参加NVIDIA Sky Hackathon 后端修改

文件架构 前面两个分别是执行语音识别和图片识别的代码templates 存放的是网页的模板, 前端将文件写在这里即可uploads 存放的是上传至后台的文件server.ipynb 用于启动 flash 服务器app.py 内是用 flash 写的 Python 后端install_tools.sh 是用于安装相关工具的 sh…

(十四)Spring之回顾代理模式

文章目录回顾代理模式动态代理常用技术CGLIB动态代理技术上一篇:(十三)Spring之JdbcTemplate 回顾代理模式 参考:代理模式Proxy Pattern 不用JDK的动态代理,手写JDK动态代理 动态代理常用技术 在程序运行阶段&…

CentOS 7 手动安装OpenStack

官网文档 因为之前已经在 Ubuntu 20.04 下完成了 Ubuntu 20.04 手动安装OpenStack ,最后,想要学习 OVN 的时候,发现 ubuntu 上的 OVN 安装很复杂,没有 TripleO/RDO based deployments ,所以,又在 CentOS 7…

项目开源!基于PaddleDetection打造实时人体姿态检测的多关节控制皮影机器人

本文已在【飞桨PaddlePaddle】公众号平台发布,详情请戳链接:项目开源!基于PaddleDetection打造实时人体姿态检测的多关节控制皮影机器人 皮影戏是一种以兽皮或纸板做成的人物剪影以表演故事的民间戏剧,皮影一般由头、躯干&#x…

2003-2019年各省市场分割指数全步骤数据+最终结果

2003-2019年市场分割指数 1、时间:2003-2019年 2、数据包含:31各省份市场分割指数全步骤数据和最终结果 3、具体内容:市场分割指数差分形式相对价格、市场分割指数去均值、市场分割指数方差、市场分割指数最终结果。 4、指标说明&#xf…

vue3 框架学习概念笔记

文章目录前情提要框架设计概览命令式声明式小结虚拟dom性能运行时和编译时框架设计核心要素声明式描述UI渲染器组件的本质vue.js模板响应式系统概念完善的响应式系统响应式系统的调度计算属性Computedwatch 原理竞态问题非原始值的响应式方案javaScript 对象原始值的响应式方案…

毕业后河北种水稻 国稻种芯·中国水稻节:安徽姑娘承德务农

毕业后河北种水稻 国稻种芯中国水稻节:安徽姑娘承德务农 (新华每日电讯记者刘金海、方欣、牟宇) 新闻中国采编网 中国新闻采编网 谋定研究中国智库网 中国农民丰收节国际贸易促进会 国稻种芯中国水稻节 中国三农智库网-功能性农业农业大健康大会报道:整…

【Linux】内存查看vmstat命令(虚拟内存统计)

vmstat命令:虚拟内存统计 CPU使用率内存试用虚拟内存交换情况IO读写情况 process r:运行和等待CPU时间片的进程数 超过cpu个数, 出现CPU瓶颈 长时间大于1,CPU不足,需要增加CPU b:正在等待资源的进程数&…