业务上云的容器排障与思考

news2024/11/28 4:41:01

1 前言

此前我们部门已经完成了业务上云的目标,而随着业务请求量的激增,上云应用系统也面临着一些复杂的故障和挑战。

下文我就结合最近的容器排障工作,跟大家一起探讨如何优化系统的性能、扩展性和容错能力,为读者提供参考和借鉴,以确保系统的高效运行和可靠交付。

2 业务异常与排障思路

用户反馈出现了一个异常任务,它长时间出于“进行中”的状态;用户上传的源物料大小是568MB左右,预期能够半小时出结果,实际过了6个小时都没有结束任务。

6acb826b996c2b581175f0d583982fb0.png

2.1 排障思路

094b8ca034157c9ce8906dffcabb1983.png

最终我们通过上面的排障思路和定位行动,将根本原因定位出来了:排查发现是容器集群资源吃紧,结合云原生组件kubeproxy反向代理机制,两者结合引发所导致。

下面具体列出分析思路和大致流程,一起讨论下。

3 排障定位

3.1 业务流程梳理

3.1.1 任务流程图

40fe5dbe1b9f992150b78b3fb2f86dd2.png

  1. 用户上传源数据包:用户可以上传自己的任务数据包,并可以配置任务执行的所需资源(比如:执行算法、执行线程数等)

  2. APP1→ APP2:上传任务数据

  3. 任务进入APP2内部队列:优先对进入的任务进行数据分片处理

  4. APP2→ APP3:APP2分片处理完成之后,按照可配置请求线程数T,进行按每批次T个请求,将分片内容传输给APP3

  5. APP3:从磁盘IO读取开源知识库数据

  6. APP3:对接收到的分片内容,对数据进行算法分析

  7. APP3:所有请求携带的分片数据都分析完毕,并且全部正确响应给APP2,宣告:一个任务“完成”

3.1.2 分析

既然目前是任务一直执行,说明问题是出在了(3)~(7)步骤上了,那么聚焦于APP2和APP3。

基于他们的请求响应关系,下文将APP2定位成客户端,将APP3定位成服务端。

3.2 容器进程分析

正常的预期现象是:两边容器都有业务进程,并且两边进程频繁进行HTTP通信;当任务执行结束之后,两边进程都将退出被系统销毁。

那么我们首先需要分析两侧容器进程。

3.2.1 查看容器子进程

通过ps -ef,分别在客户端APP2和服务端APP3,打印进程状态。

客户端

6095e267a105459e776ebbc68ca7829b.png

客户端APP2的任务进程:有一个进程存活,说明客户端进程卡住了。

服务端

服务端APP3的任务进程:没有执行中的任务进程了。

3.2.2 分析

定位是客户端APP2的进程卡死,而服务端APP3的进程正常结束了。

3.3 进程卡死原因定位

分析进程卡死的原因,首先是想到日志,然后是网络。

3.3.1 查看容器日志

在云容器的日志看,发现并没有打印相关的ERROR级别日志,说明业务是整体成功的状态,所以我们更加怀疑是环境问题(网络/IO等资源)导致。

3.3.2 容器进程的网络端口状态

通过netstat -ntp| grep PID,分别在APP2和APP3进程关联的网络端口状态。

客户端

a8d2462d3163d7d3ab3763b9de42c415.png

服务端

由于不存在工作进程,所以也查不出关联的网络端口了。

3.3.3 分析

通过网络排查,发现了客户端APP2的进程,存在4个TCP端口一直在监听状态,并没有正常关闭。

3.4 请求链路分析

分别从客户端和服务端角度出发,去定位TCP连接异常监听。

3.4.1 思路

  • 从客户端APP2角度看

    • 进程假死原因是:4个TCP连接建立之后,TCP端口一直在等待数据响应(即客户端发起HTTP请求一直阻塞)

    • 在任务进行中,过程可能发起>8000次请求,最后残留了4个请求异常的TCP连接

    • 在3.2.1步骤中发现:客户端进程是通过 service-name 来请求服务端容器

  • 从服务端APP3角度看

    • 虽然计算工作量会很大,但服务端进程最终正常销毁了

3.4.2 请求链路

由于容器集群是已经部署上云,并且在K8S部署架构下运行,和技术运营的同学一起梳理出以下的请求链路:

1822c2efb4693edb4ed6f4f260295f64.png

这里与HTTP普通请求响应的区别:由于service的“从中作梗”,kube-proxy其实是一个代理层负责实现service。

3.4.2.1 kube-proxy

通过kube-proxy的ipvs机制,实现了从 service-ip 到 容器ip的映射,完成一个网络转发代理,最终实现容器之间的通信。

f92c81723e66c55c0a5ce2f5300561c4.png

3.4.2.2 实际转发请求

请求链路最终经过了以下3个步骤:

  • 容器APP2发起的请求时,首先通过service-name找到APP3-service(service是对外暴露pod的一层代理)

  • 随后请求经过kube-proxy处理,以实现虚拟 IP 转换(即service-ip到pod实例ip的转换)

    • 云上的kube-proxy采用了ipvs代理模式

    • 最终实现将流量导向到某一个后端 Pod(即APP3-pod)。

  • 流量导向完成后,请求最终会进入pod的一个实例(即APP3-容器)

3.4.3 分析

上面在3.3.3步骤 也分析到了,客户端的连接(客户端APP2→APP3-service)是一直建立的,而服务端的连接(APP3-service→APP3-容器)是关闭了的。

那么我们判断问题是在了kube-proxy代理这个环节上。

3.4.4 猜想验证

因为恢复业务使用一直是当务之急,所以基于请求链路的理解,我们大胆测试了一下:改为通过pod-ip/port直连通信的方式,客户端进程能否正常结束呢?

随后验证:该方案是可行的,此时的客户端和服务端进程都正常结束了。

3.4.4.1 临时解决方案

通过pod-ip/port直连的方式,同时技术运营同学也辅助了pod重启之后的pod-ip动态刷新的工作,确保临时方案的可用性。

至此,我们优先恢复了业务的正常使用。

3.4.5 根本问题

但kube-proxy的流量代理问题,仍旧没定位清晰;未来容器服务,如果要继续做高可用部署,依旧是离不开这个组件的,所以继续盘它。

通过3.4.3步骤 分析,最终定位到问题出在了kube-proxy代理这个环节上,所以决定在客户端和服务端两侧进行抓包。

3.5 抓包分析网络

通过tcpdump,我们分别在客户端和服务端里,实现了流量抓包(虽然日志非常大,幸好容器分配到的磁盘空间足够,事后也有清理),随后是下载出来用wireshark分析网络情况。

期间过程有点繁琐,因为要顺序性的启动抓包进程、客户端服务端进程复现、以及文件权限申请等细节,这里不对抓包过程展开。

3.5.1 网络分析

最终是复现了问题,并对残留的几个TCP连接进行了抓包分析,这里针对其中一个异常的TCP连接(客户端的进程残留一个TCP连接port=40422)分析。

3.5.1.1 连接建立点

客户端

bbc808c8d9a9ef6416b5d590be1ba8bb.png

客户端目标是service-ip,三次握手完成,连接建立是在12:03:06。

服务端

5c40dbfa6478df5caa847a617ec45d59.png

经过kube-proxy代理到具体的pod实例,服务端跟客户端,三次握手完成,连接建立是在12:03:09。

3.5.1.2 故障异常点

客户端

841199555f989144cba888a8a3ac02d2.png

客户端最后一次跟service-ip连接通信,在12:04:51。

服务端

c63934b97871c0b923f00aa0c1faadd5.png

  1. 中间出现了30分钟的间隔

  2. 服务端最后一次回包是在12:35:20,是回给客户端的

  3. 随后,由于客户端检测到连接中存在问题,给服务端发了RST报文。

3.5.2 分析

通过网络抓包分析得到:

  1. 客户端是和service建立连接的,而非直接和服务端

  2. 30分钟之后,服务端回了一个包给客户端

  3. 服务端是可以直接回包给客户端的,但客户端显然不认识服务端的数据包,并发起了断开连接申请(RST包),随后服务端TCP正常关闭了。

  4. 最终出现了“案发现场”:客户端和service的连接残留了,而服务端TCP正常关闭。

3.6 kube-proxy代理配置自检

目前摸到的线索是:服务端回了一个包给客户端,并造成了“案发现场”。于是我们找了云同学协助查看问题,最终判断是kube-proxy的代理会话超时机制作用导致。

3.6.1 kube-proxy会话保活机制

kube-proxy存在会话保活机制:会记录客户端与服务端的连接,有效时间是15分钟。

当ipvs会话保持超时后,连接记录就没了。

  • 连接记录什么作用?

    • 能够让客户端发包时,发给service-ip的数据包,定位到服务端ip,然后转发给服务端

    • 能够让服务端回包时,发给客户端的数据包,以service-ip的名义,转发给客户端

3.6.2 分析

梳理请求链路,我们得到以下的“客户端-Service-服务端”三方通信流程图:

e61eff9134f39ac3fc58fd454e23f411.png

针对“服务端回了一个包给客户端,并造成了“案发现场”,从上面关注两个时间点:

  1. 在第15分钟时候,kube-proxy清理会话

  2. 在第30分钟时候,服务端回了一个包给客户端:

    1. 但服务端回包给客户端时,不再是通过service-ip的“头衔加持”(因为会话记录清理了,会导致服务端的回包无法转换为原来的service ip),而是以服务器的名义,直接丢数据包给客户端了;

    2. 客户端此时不认识服务端的(在k8s的service机制下,客户端是对服务端信息无感知的,因为一直和客户端接头的是service);所以,回了一个RST数据包给服务端;

    3. 服务端接收到RST数据包之后,它是认识客户端的,因此主动关闭了自己一侧的TCP端口;【这解释了:服务端进程正常关闭TCP端口】

    4. 而客户端则一直在苦等,原来和自己接头的service-ip的回包,但它永远等不到了【这解析了:客户端一直没能正常关闭TCP端口】

3.6.3 结论

至此,我们已经找到了故障的根本原因:

  • 因为客户端和服务端连接创建之后,该请求一直被搁置着,没有得到及时保活,导致kube-proxy清理了会话记录;

  • 当服务端处理超时时,因为会话记录被清理,回包出现异常,没有经过service回包给了客户端;

  • 客户端一直等待的service回包用于等不到,所以就一直监听着(对业务来说,就是进程假死)

调整kube-proxy的会话超时时间是不实际的,因为基础组件改动是一个全局的影响;

所以自然引出最后一个问题:为什么服务端会来不及处理请求,以至于不能及时保活。

3.7 容器资源监控

对于为什么服务端会来不及处理请求,以至于不能及时保活;我们想到的是两个原因:

  • 服务端计算能力有限,导致已有请求处理慢,新增请求一直阻塞(前者是跟容器资源配置息息相关,该项是可以优化的)

  • 请求的超时时间设置的太长,给了服务端处理超时的机会(这是由产品能力决定的,为了确保服务端计算充分完整并响应,该项调整空间不大)

基于对服务端计算能力的评估,只能是跟容器资源限制有关系,于是查看了服务端APP3的CPU/内存/网络/IO的相关监控。

3.7.1 CPU监控

只关注APP3,因为计算量集中在这个服务。

监控显示:CPU整体负载很低,在任务进行中时,CPU使用量才略微升高,而后下去了(约等于不工作,说明APP2的确完成了计算量的工作了)。

63934079708fae8441b30e73111dafe8.png

3.7.2 内存监控

监控显示:APP3在数据分析过程里,内存一直飙高,但经过一段时间后,量就降下去了。

022b20671c28a9f7600eb9a6779bdf5d.png

3.7.3 IO监控

监控显示:APP3在数据分析过程里,IO带宽一直打满,达到了280MBps,但经过一段时间后,监控就降下去了。

f20cad93a4f5a6d42eb0175cdad9e0fd.png

因为我们用的是云存储规格是SSD,也算是到了性能瓶颈了。

b6f34fbb054a726c6fbbe69d73c6efdb.png

3.7.4 分析

从资源监控看资源吃紧是客观存在的:

  1. 尤其是IO资源一直打满,内存也非常吃紧,暴露了容器的计算瓶颈在于资源;

  2. 而CPU资源一直上不去,也是受限于资源利用率已经非常高了;

4 运营策略调整和思考

结合公司的降本增效大背景,通过无限制的投入资源去优化体验,片面去追求更大的内存和更快的磁盘IO是不现实的。

这次独特的Bug排查,也是由于业务流量徒增而导致,所以我们决定利用好已有的条件去克服困难:

  1. 分析流量增长原因:首先我们找到了用户团队并了解清楚工具使用频率和,承诺通过两种方法协助业务团队:

    1. 对于周期性业务调用压力:调整为分散式任务,以时间换空间,避免短期内的资源高峰,降低系统的负载压力。

    2. 确实无法分散式,我们会通过合理配置并发任务数和并发线程数,可以提高任务的执行效率,减少资源浪费,协助业务快速完成项目任务;

  2. 优化技术架构:在资源有限的情况下,通过优化技术架构提高系统的性能和稳定性。

    1. 后续对容器集群的高可用架构进行优化

    2. 升级容器算法,提速服务端计算能力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1028575.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python从入门到放弃系列教程01

Python从入门到放弃系列教程01 第一章 01 初识Python Python的起源 1989年,为了打发圣诞节假期,吉多范罗苏姆(龟叔)决定开发一个新的解释程序(Python雏形),1991年,第一个Python解…

QT支持的平台

简述: Qt是一个商业和开源许可的跨平台应用程序和UI框架。它由Qt公司与Qt项目社区一起在开源治理模式下开发。 使用Qt,您可以编写一次GUI应用程序,然后将它们部署到桌面,移动和嵌入式操作系统中,而无需重写源代码。 Qt…

【医学影像数据处理】 Dicom 文件格式处理汇总

在医学影像的数据存储领域,是存在一定的行业标准的。X光、CT机器等等医疗器械等生产企业,会依据行业标准,对采集的数据进行规范化的存储。 这里面就包括了大名鼎鼎的DICOM 3.0协议,上述的摄影形式大部分也都是以这种形式进行存储…

Python实战:用多线程和多进程打造高效爬虫

文章目录 🍋引言🍋为什么要使用多线程和多进程?🍋线程的常用方法🍋线程锁(也称为互斥锁或简称锁)🍋小案例🍋实战---手办网🍋总结 🍋引言 在网络爬…

【JavaSpring】Aop的通知类型,获取数据

AOP 通知描述了抽取的共性功能,根据共性功能抽取的位置不同,最终运行代码时要将其加入到合理的位置 前置通知 Pointcut("execution(void org.example.dao.BookDao.update())")private void pt() {}Before("pt()")public void befo…

数据结构与算法:排序算法(2)

目录 堆排序 使用步骤 代码实现 计数排序 适用范围 过程 代码实现 排序优化 桶排序 工作原理 代码实现 堆排序 二叉堆的特性: 1. 最大堆的堆顶是整个堆中的最大元素 2. 最小堆的堆顶是整个堆中的最小元素 以最大堆为例,如果删除一个最大堆的…

基于Java开发的数字化询价招标采购系统(SRM系统源码)

在如今商业环境中,企业的采购流程变得越来越重要。传统的采购方式可能存在诸多弊端,例如效率低下、信息不透明、易滋生腐败等。为了解决这些问题,许多企业开始转向SRM(供应商关系管理)系统。本文将详细介绍SRM数字询价…

js表单autocomplete=‘off‘失效问题

众所周知。。。。autocomplete是Html5中的新属性,有‘off’,on’两个属性。作用是点击输入框时,会打开或者关闭提示信息。 部分浏览器也会出现失效的情况(emmmm…,毕竟是html5新增的,有点bug也正常哈)。 …

初识Java 10-1 集合

目录 泛型和类型安全的集合 基本概念 添加一组元素 打印集合 List Iterator(迭代器) 本笔记参考自: 《On Java 中文版》 在进行程序设计时我们会发现,程序总是会根据某些在运行时才能知道的条件来创建新的对象。这意味着&am…

Vue3 - 实现动态获取菜单路由和按钮权限控制指令

GitHub Demo 地址 在线预览 前言 关于动态获取路由已在这里给出方案 Vue - vue-admin-template模板项目改造:动态获取菜单路由 这里是在此基础上升级成vue3和ts,数据和网络请求是通过mock实现的 具体代码请看demo!!! 本地权限控制,具体是通过…

关于若依(ruoyi)前端,f12跟踪失效的问题处理

1、根据作者反馈,使用了vite-plugin-vue-setup-extend该插件; 2、参考作者指导,我采用了去掉这个插件的方法; 具体操作: (1)找到package.json,去掉该插件; (2&#xff…

新的小伙伴加入,开始系统更新分享了

近几个月一直有一个好消息未跟大家分享,就是我们有新的小伙伴加入了,帅就不必说了,关键是对电控的理解那可不是一般的强,工程经验丰富,学术能力也是一等一的。我们有幸在一个公司工作,跟着一个企业导师学习…

10个值得关注的学习网站,知乎超30万人收藏,什么资源都可找到!

hi,大家好我是技术苟,每周准时上线为你带来实用黑科技!由于公众号改版,现在的公众号消息已经不再按照时间顺序排送了。因此小伙伴们就很容易错过精彩内容。喜欢黑科技的小伙伴,可以将黑科技百科公众号设为标星&#xf…

Webstorm怎么导入插件

Webstorm怎么导入插件: 1.点击“File”,选择“Settings” 2.选择“Plugins” 3.如下图所示继续操作 4.选择想要导入的插件

【C++/Python】Windows用Swig实现C++调用Python(史上最简单详细,80岁看了都会操作)

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

自动化测试:yaml结合ddt实现数据驱动!

在pythonunittestseleniumddt的框架中,数据驱动常见有以下几种方式实现: Csv/txtExcelYAML 本文主要给大家介绍测试数据存储在YAML文件中的使用场景。首先先来简单介绍一下YAML。 1. 什么是YAML 一种标记语言类似YAML,它实质上是一种通用…

方案:浅析AI视频分析与视频监控技术的工厂车间智能化监管方案

一、方案背景 工厂生产车间一般是从原材料到成品的流水作业,有大量器械和物料。为保障车间财产安全并提高生产效率,需要进行全面的监管。在生产制造流水线的关键工序中,不仅有作业过程监管需求,同时,也存在生产发生异…

全网最全知识图谱讲解!

什么是知识图谱 知识图谱标准化白皮书定义:知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信…

Jmeter怎么实现接口关联?

用于接口测试时,后一个接口经常需要用到前一次接口返回的结果,应该如何获取前一次请求的结果值,应用于后一个接口呢,拿一个登录的例子来说明如何获取。 1、打开jmeter,新建一个测试计划,在测试计划里新建一…

分享基于SringBoot足球训练俱乐部系统Python训练打卡系统(源码+调试+lw)

💕💕作者:计算机源码社 💕💕个人简介:本人七年开发经验,擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等,大家有这一块的问题可以一起交流! 💕&…