解决Kubernetes就绪检查导致网关不可用的问题

news2024/11/25 4:57:06

引言

在K8s环境中,由于就绪检查设置不合理的问题,导致出现网关不可用的情况。

本文将详细探讨这个问题的原因,并提供一些解决方案,帮助有需要的同学解决类似的问题。

注:网关使用 spring-cloud-gateway

问题描述

描述

  • 经用户反馈,进入小程序,首页空白一片,无商品数据展示。
  • 研发收到反馈,进入小程序进行验证,发现小程序可正常使用。
  • 这个过程大概有3分钟,过程中,一名前端同学通过抓包,发现部分API接口报503错误。

分析

  • 这个问题就很诡异,从问题发生到自愈,没有做任何操作,自动就好了。
  • 由于发现部分接口报503错误,所以直觉判断是网关有问题,因为从网关入手去分析。
  • 通过告警信息,以及k8s事件日志,排查发现问题真的是出在网关上,具体原因见下。

问题原因

表象原因

  • 通过k8s日志发现,网关触发了就绪检查的限制,将网关pod标记为不可用,导致用户请求报503错误。

根本原因

  • 目前分析下来,大概率是k8s平台内部网络抖动等未知因素引起,但由于k8s底层无详细日志,暂无法继续往下深挖

在这里插入图片描述

问题原因分析

什么是就绪检查?

  • 就绪检查,是一个用于验证应用程序是否准备就绪的机制。
  • 当我们在K8s集群中部署网关时,我们希望确保该网关的所有依赖组件都已经准备就绪,然后才将流量引导到它。这个过程可以通过就绪检查来实现。
  • 通常,就绪检查是通过在K8s的Pod配置中,定义一系列命令或HTTP请求来完成的。当这些命令或请求成功返回时,K8s会将该Pod标记为就绪。

就绪检查失败的可能原因?

  • 就绪检查的超时设置不合理:如果就绪检查的超时时间设置得过短,而出现网络不稳定等未知情况,那么可能会出现超时的情况,导致就绪检查失败。
  • 就绪检查的命令或请求有误:就绪检查的命令或请求可能存在错误,无法正确判断依赖组件是否准备就绪。
  • 网关依赖组件的准备时间过长:如果网关所依赖的其他组件启动时间过长,超过了就绪检查的超时设置,就会导致就绪检查失败。

解决方案

通用方案

为了解决K8s 就绪检查 导致网关不可用的问题,我们可以采取以下措施:

调整就绪检查的超时设置:

  • 通过适当增加就绪检查的超时时间,确保其能容纳依赖组件启动所需的时间。
  • 这样可以防止就绪检查在依赖组件准备就绪之前失败。

优化就绪检查的命令或请求:

  • 仔细检查就绪检查的命令或请求,并确保其正确性和可靠性。
  • 确保命令或请求能够准确地判断依赖组件是否已经准备就绪。如果存在问题,及时修复并重新部署网关。

并行启动依赖组件:

  • 如果网关所依赖的组件启动时间较长,可以考虑并行启动这些组件,以缩短整体的启动时间。

使用就绪探针:

  • K8s提供了就绪探针(Readiness Probe)机制,可以用于检查应用程序是否准备就绪。
  • 就绪探针是一种主动探测机制,可以定期发送请求或执行命令来验证应用程序的可用性。
  • 与就绪检查不同,就绪探针不会导致Pod被标记为不可用,而只是在应用程序未准备就绪时暂停流量转发。
  • 通过合理配置就绪探针,可以更灵活地控制网关的可用性。

实际改动

旧的健康检查机制

  • 请求health接口,每10s检查一次,连续3次失败,1s超时,则将pod标记为不可用

新的健康检查机制

  • 请求health接口,每10s检查一次,**连续6次失败,2s超时**,则将pod标记为不可用

结论

Kubernetes就绪检查,是确保应用程序在流量流入前,已经准备就绪的重要机制。

然而,不正确的配置或使用可能导致网关不可用的问题。

作为架构师和开发人员,在设计和部署Kubernetes环境时,应密切关注就绪检查的配置,以避免类似问题的发生。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/584943.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记录两个Windows和Mac上部署阿里Canal无法启动的神坑

目录 一、问题列表 二、解决方案 三、参考资料 四、配置详解 五、数据库相关操作 一、问题列表 1、问题一:点击 startup.bat 窗口出现后立马闪退的问题。 2、问题二:启动后日志文件报错: ERROR com.alibaba.otter.canal.deployer.Cana…

办公OA系统性能分析案例

前言 信息中心老师反应,用户反馈办公系统有访问慢的情况,需要通过流量分析系统来了解系统的运行情况,此报告专门针对系统的性能数据做了分析。 信息中心已部署NetInside流量分析系统,使用流量分析系统提供实时和历史原始流量&am…

多项创新技术加持,实现零COGS的Microsoft Editor语法检查器

编者按:Microsoft Editor 是一款人工智能写作辅助工具,其中的语法检查器(grammar checker)功能不仅可以帮助不同水平、领域的用户在写作过程中检查语法错误,还可以对错误进行解释并给出正确的修改建议。神经语法检查器…

自动化测试框架的秘密,资深8年测试带你揭开,跟上测试“潮流“...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 Python自动化测试&…

携手共创开源新格局|2023开放原子全球开源峰会将于6月11日在京隆重开幕

6月11-13日,2023开放原子全球开源峰会将在全球数字经济大会期间召开。本次峰会将以“开源赋能,普惠未来”为主题,通过开幕式暨高峰论坛、分论坛、主题展览、开源活动周等多种形式,聚集政、产、学、研、用、创、投、金等各领域优势…

RPC学习笔记【一】:概述

文章目录 一、简介1.1 引言1.2 架构的演变过程 二、RPC 的设计2.1 设计目标2.2 核心问题01 通信方式02 协议03 序列化04 远程代理类 2.3 衍生方案 - 注册中心 一、简介 1.1 引言 RPC 是远程过程调用 (Remote Procedure Call)的缩写形式,是一…

一文搞懂Python时间序列预测(步骤,模板,python代码)

预测包括,数值拟合,线性回归,多元回归,时间序列,神经网络等等 对于单变量的时间序列预测:模型有AR,MA,ARMA,ARIMA,综合来说用ARIMA即可表示全部。 数据和代码链接:数据和Jupyter文…

ArcGIS10.8下载及安装教程(附安装步骤)

谷歌云: https://drive.google.com/drive/folders/10igu7ZSMaR0v0WD7-2W-7ADJGMUFc2ze?uspsharing ArcGIS10.8 百度网盘: https://pan.baidu.com/s/1s5bL3QsCP5sgcftCPxc88w 提取码:kw4j 阿里云: https://www.aliyundriv…

Linux—实操篇:远程登录到linux服务器

远程登录客户端工具有 Xshell7(远程登录),Xftp7(文件传输),这里介绍Xshell和Xftp,其他的远程工具大同小异 1、远程登录Linux—Xshell 介绍:Xshell是目前最好的远程登录到Linux的软件,流畅的速度并且完美解…

如何制作污水处理流程图?简单方式说明

污水处理是指对污水进行处理,以使其能够满足环境保护和人类生产生活用水的需要。污水处理流程图是整个污水处理过程的图解,能够直观地展现污水处理的步骤和流程。 有很多方式可以制作流程图,比如一些站点可以在线制作,还兼具了思维…

chatgpt赋能python:Python下载代码:探索更快、更简单的方式

Python下载代码:探索更快、更简单的方式 Python是一个功能强大的编程语言,可以用来开发各种应用程序,从Web应用程序到数据科学和机器学习。作为一个高级语言,它通常看起来更易于理解和编写,相比其他编程语言更容易维护…

现阶段检验检测认证行业到底是一个什么样的行业?

为企业创造不一样的价值! TIC行业研究先行者、行业信息送水人! 内容摘要 此文章重点讲述了现阶段检验检测认证行业到底是一个什么样的行业,以及分析这个行业好与不好的明显特点。 此文章重点分析了现阶段检验检测认证行业的驱动力、竞争格…

Socket通信讲解及C/S结构实现UDP协议通信

Sokcet 一. Socket套接字 1.1 什么是套接字 所谓套接字(Socket),就是对网络中不同主机上的应用进程之间进行双向通信的端点的抽象。一个套接字就是网络上进程通信的一端,提供了应用层进程利用网络协议交换数据的机制,是支持TCP/IP协议的路通…

java:map集合的应用,含代码以及输出样例

目录 1.Map集合 创建 基本的map使用方法 添加数据&#xff0c;打印数据 获取长度&#xff0c;删除元素&#xff0c;判断元素是否存在 map中常用的函数 1.Map集合 创建 Map<String,String> map new HashMap<>(); 基本的map使用方法 添加数据&#xff0c;打…

五.Glide

文章目录 前言1.with方法1.1 如何监听Glide的生命周期1.2 生命周期作用域Application、Activity、Fragment1.3 生命周期的绑定1.4 生命周期的监听1.5生命周期的回调 2.load方法3.into方法3.1 into方法的源码中流程走向3.2 Glide活动缓存的由来 4.Glide缓存机制4.1 资源封装4.2 …

(一)、Arcgis Server等一系列软件安装前准备

文章目录 &#xff08;一&#xff09;、win10修改机器名&#xff08;1&#xff09;、打开&#xff1a;设置->重命名这台电脑&#xff08;2&#xff09;、在弹出的系统属性框点击 "更改按钮"&#xff08;3&#xff09;、在弹出的计算机名/域更改点击 "其他&qu…

赋能数字化!企企通荣获“中国企业服务产业最佳投资案例TOP10”

近日&#xff0c;国内投资行业权威机构「投中信息」发布的投中2022年度中国创业投资机构暨私募股权投资机构系列榜单&#xff08;“投中2022年度榜单”&#xff09;隆重揭晓&#xff0c;企企通作为国内一站式采购数字化管理平台领军者&#xff0c;成功入选“2022年度企业服务产…

体积小、无广告、超实用的5款小工具

大家好&#xff0c;我又来啦&#xff0c;今天给大家带来的5款软件&#xff0c;共同特点都是体积小、无广告、超实用&#xff0c;大家观看完可以自行搜索下载哦。 1.动态桌面——WinDynamicDesktop WinDynamicDesktop是一款用于根据时间和地点自动更换桌面壁纸的工具。它可以让…

从零搭建微服务-认证中心(四)

写在最前 如果这个项目让你有所收获&#xff0c;记得 Star 关注哦&#xff0c;这对我是非常不错的鼓励与支持。 源码地址&#xff1a;https://gitee.com/csps/mingyue 文档地址&#xff1a;https://gitee.com/csps/mingyue/wikis 搭建前端框架 感谢开源项目【vue-next-adm…

TDengine 启动 taosAdapter,提供基于6041端口的RESTful 接口,建立REST 连接

一、前文 TDengine 入门教程——导读 二、开发指南 TDengine 完整的软件包包括&#xff1a; 服务端&#xff08;taosd&#xff09;&#xff1b;命令行程序 (CLI&#xff0c;taos) 和一些工具软件&#xff1b;用于与第三方系统对接并提供 RESTful 接口的 taosAdapter&#xff1…