connect reset/timeout/reject 排查

news2025/1/19 8:07:13

异常排查

  • 问题描述
  • 问题处理
    • 初步分析
    • http配置即服务整体情况
    • 整体排查
      • 服务重启
      • gc
      • CPU
      • JVM
  • 暂存疑问点
  • 总结
    • 启动参数要配全
    • 监控体系健全
    • 科学使用jar包
    • 降配参数是参数得动态变

问题描述

最初出现的时候,是在每天的早上8-10这个时间范围内,服务A上的有一个接口时不时报警,内容不一,有 connect timeoutconnect resetconnect reject等,其中connect reject比较频繁。在后续观察中,发现tomcatnio线程一般正常运行下为100以下,但是在异常重启前一个小时内会飙升至1000也就是配置的最大线程数。

问题处理

初步分析

线上部署的服务A有4个pod,每台机器的配置是1g。是springboot项目,tomcat配置如下

server:
  tomcat:
    uri-encoding: UTF-8 
    accept-count: 1000
    max-connections: 2000
    max-threads: 1000
    min-spare-threads: 10
  connection-timeout: 60000

乍一看线程数量有一点多。之后看了一下是不是有问题的接口逻辑,主要交互节点如下

1、接收请求,根据token查缓存获取用户数据
2、feign调用用户服务获取用户信息
3、根据获取的信息查数据库,然后组装结果返回

整体逻辑看着也很简单,feign调用耗时也不是很高。查缓存的话,应该也没有问题,不然就单是一个服务的问题了。那就是查库的问题了,我把执行sql分析了一下,走了索引,表的数据量也不是很大,那是哪一步出问题了。。

http配置即服务整体情况

接口处理时间变长的一种情况是,并发请求太大,导致服务请求处理不过来(如果接口有限流配置那么其实就直接拒掉了,这个服务没有配置)。我在ES上看了一个服务的峰值请求量,秒级不超过一千。异常接口峰值秒级也只有3、4百,分到每台机器上也就100多,1000个线程怎么都处理的过来吧。除非其他接口请求量也大,而且处理时间长,占用了线程。但是我在ES上看了一下接口处理耗时,报警的那一会的确有耗时变长的情况,请求量的确也有所上升。
此外,我看了一个物理机的tcp配置

net.core.somaxcon  // 128
net.ipv4.tcp_max_back_log  // 1000

这两配置有点小了。

此时,我的推测如下:

1、connect timeout 是因为处理请求不过来
2、connect reset 是因为 http全连接 半连接池太小,被请求占满导致
3、connect reject 服务不可用

经过灰度测试,发现不明显。connect reject 仍出现。

整体排查

服务重启

connect reject出现的原因,理论上是服务寄了。但是怎么能知道它寄没寄呢。突然想到,这个服务有注册到注册中心,也就是eureka。上去一下,没有下线信息,但是报错那个时间点有上线信息。

在这里插入图片描述

于是,推测那个时间点是不是服务重启了。看了一下线上服务的日志,发现日志归档了,gc信息也归档了。然后看技术上线记录,发现没人手动上线,于是推测是服务自动重启,然后找运维确定了一下,的确有重启记录。容器默认配置3分钟内5次心跳没通过重启。。

gc

gc信息
将运行时的gc日志文件分析后,发现gc很频繁。而且full gc后内存下降不是很明显。但是gc停顿时间最长就1.7秒,不可能3秒内都不可用,所以gc有问题,但可能不是主要问题。

CPU

jvm和cpu使用情况

可以看到,使用情况还是挺高的。具体看进行的CPU情况,发现基本是在100%。

// 看进行下哪个线程使用的cpu比较高
top -Hp 进程id 
// 10进制 转为 16进制
printf '%x\n' 线程id
// 定位线程的信息  d8为上面转换后的16进制
jstack 进程id | grep '0xd8' 

jstack信息

这里拍的有点糊哈,最终定位到是 AsyncReporter 190行代码,我这里zipkin版本是2.7.10,对应的就是flush节点。
这里服务配置的是zipkin收集方式是kafka,大小是默认的1000000,可以认为是1M,时间的话配置了60s’.

在这里插入图片描述

然后在线上用arthas看了一下方法运行信息
在这里插入图片描述

最后推测出可能是AsyncReporter265行的问题,因为一直没到配置的最大大小(1M),导致一直在死循环。

// ByteBoundedQueue#offer   131行
@Override
public boolean offer(S next, int nextSizeInBytes) {
  int x = messageSizeInBytes(nextSizeInBytes);
  int y = maxBytes;
  int includingNextVsMaxBytes = (x < y) ? -1 : ((x == y) ? 0 : 1); // Integer.compare, but JRE 6

  if (includingNextVsMaxBytes > 0) return false; // can't fit the next message into this buffer

  addSpanToBuffer(next, nextSizeInBytes);
  messageSizeInBytes = x;

  if (includingNextVsMaxBytes == 0) bufferFull = true;
  return true;
}
// 这里可以看到,只有刚好填充满,bufferFull才可能等于true
// BoundedAsyncReporter#flush()  
void flush(BufferNextMessage<S> bundler) {
      if (closed.get()) throw new IllegalStateException("closed");

      pending.drainTo(bundler, bundler.remainingNanos());

      // record after flushing reduces the amount of gauge events vs on doing this on report
      metrics.updateQueuedSpans(pending.count);
      metrics.updateQueuedBytes(pending.sizeInBytes);

      // loop around if we are running, and the bundle isn't full
      // if we are closed, try to send what's pending
      if (!bundler.isReady() && !closed.get()) return;
      
      // ...省略
}      

// 这里的  bundler.isReady() 判断逻辑如下
boolean isReady() {
   return bufferFull || remainingNanos() <= 0;
 }
 // 也就是说,如果时间没到,且没满,那么返回false,此时 flush方法return。这样就开始死循环了,类似while(true)。
 // 如果超时时间比较短,例如默认的1s,那其实也能接受。但是这里我们自己改了默认值,配置了60s,
 // 也就是说在这一分钟内,如果大小刚好卡死,例如当前buffer使用了950kb,下一个100kb,
 // 两者相加不等于1000kb,此时剩余时长都在死循环,CPU自然使用率高了。

修改配置,变为默认值后灰度发布

优化后的代码

这里可以看到,明显降低了,使用率基本在1%左右,原先都是10%以上。。后面去看了一下最新版本实现,发现这个bug已经修复了。

在这里插入图片描述

可以看到,这里大于最大值后也会认为满了,而不是一定要等于最大值。。

JVM

一天堆和非堆使用情况

可以看到,这里的堆使用也不能说有啥大的问题,最多full gc有点多吧,相对而言。但是非堆的话,明显感觉有点问题,理论上来说应该是稳定的。它这里有起伏。

arthas看内存使用情况

后面用arthas执行memory看了一下内存使用情况,发现没设置mataspace的大小。所以理论上来说它可以无限占用物理机内存。图片可以看到,目前已经用了1.9g了,不太合理。
metaspace主要放的是类的信息,所以推测是不是在运行过程中在动态创建类。dump线上的堆栈信息,用visualvm打开。默认是类实例数正向排序的。

默认visualvm打开

这么看其实看不出啥问题,最多会看看类实例多的是不是内存泄露了。但这次我们得反向排序,因为matespace异常大,说明类都是不一样的。

根据实例数倒排

这么一看,是不是明显发现问题了。都是Script_前缀开头的。本地起一下项目,用arthas找一下类信息 sc -d -n 10 Script_*

arthas筛选定位类

这里看到是aviator,它是谷歌开发的一个表达式引擎。在代码里全局搜了一下,发现就一个地方在使用,看了一下具体内容,发现是没有开启缓存导致反复创建代码。

使用地方
在这里插入图片描述

改为之后,灰度发布,过一天运行结果

修复后内存使用情况

这里可以看到,非堆使用基本稳定了,堆使用也基本平滑了。但是那两次异常GC看着还有点问题。

暂存疑问点

1、最后平稳后的gc原因,是什么触发的。
2、tomcat线程数异常飙升的原因 是因为metaspace没法分配空间导致线程阻塞么。。
3、服务重启的原因 nio处理线程都被阻塞了,导致心跳接口没人处理么。。

总结

启动参数要配全

像gc具体信息、最大mataspace大小、OOMdump等配置参数最好都加上,不然出现问题了手上都没啥资料。。

监控体系健全

有良好的监控,分析问题起来事陪功半。一开始没有cpu、堆等使用的监控图表,光靠脑子想还是太抽象了

科学使用jar包

使用开源jar包,最好自己看一下实现方法,别直接拿来用。不然坑了自己都不知道

降配参数是参数得动态变

1g内存配了1000个线程,有点不太合理了吧。降配不能单单改内存,其他配置也得一起变化。。。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/576040.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第一行代码 第十二章 Material Design实战

第12章 Material Design实战 其实长久以来&#xff0c;大多数人都认为Android系统的UI并不算美观&#xff0c;至少没有iOS系统的美观。以至于很多IT公司在进行应用界面设计的时候&#xff0c;为了保证双平台的统一性&#xff0c;强制要求Android端的界面风格必须和iOS端一致。…

Java08——继承

1. 继承 父类&#xff1a; package com.zsq.extend.improve_; //是pupil和graduate的父类 public class Student {public String name;public int age;private double score;public void info(){System.out.println("姓名&#xff1a;" name " 年龄&#xff1…

六级备考21天|CET-6|写作技巧2|13:00~14:40

目录 【一】写作技巧1的作业 [1]Creativity [2]谚语&#xff1a;值得做的就值得做得好 [3]Star chasing 追星​ [4]team spirit&communication 团队精神和交流 [5]谚语&#xff1a;理解​ 【二】谚语重要性开头模版 [1]谚语&#xff1a;Understand 理解 【三】社会…

【历史上的今天】4 月 26 日:验证码的发明者诞生;切尔诺贝利病毒爆发;诺基亚收购 Withings

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2023 年 4 月 26 日&#xff0c;在 2017 年的今天&#xff0c;中国首艘国产 001A 型航空母舰在大连完成了下水&#xff0c;从开工到下水&#xff0c;历时 3 年多时间。…

5月跳槽进字节跳动测试岗了,面试真简单...

前言: 最近金三银四跳槽季&#xff0c;相信很多小伙伴都在面试找工作&#xff0c; 怎样才能拿到大厂的offer&#xff0c;没有掌握绝对的技术&#xff0c;那么就要不断的学习&#xff0c;没有绝对的天才&#xff0c;只有持续不断的付出。对于我们每一个平凡人来说&#xff0c;…

利用Servlet编写第一个“hello world“

利用Servlet编写第一个"hello world" &#x1f50e;创建 Maven 项目&#x1f50e;引入依赖&#x1f50e;创建目录&#x1f50e;编写代码&#x1f50e;打包代码&#x1f50e;部署&#x1f50e;程序验证&#x1f50e;结尾 &#x1f50e;创建 Maven 项目 Maven 是一个构…

基于yolov5的车辆行人道路检测

一、数据集介绍 本实验使用自动驾驶的公开数据集BDD100K。   数据格式&#xff1a;BDD100K 数据集包含10万段高清视频&#xff0c;每个视频约40秒\720p\30 fps&#xff0c;总时间超过1,100小时。视频序列还包括GPS位置、IMU数据和时间戳&#xff1b;视频带有由手机记录的GPS/…

【刷题之路】LeetCode 1700. 无法吃午餐的学生数量

【刷题之路】LeetCode 1700. 无法吃午餐的学生数量 一、题目描述二、解题1、思路分析2、代码实现2.1、先将队列实现一2.2、代码实现 一、题目描述 原题连接&#xff1a; 1700. 无法吃午餐的学生数量 题目描述&#xff1a; 学校的自助午餐提供圆形和方形的三明治&#xff0c;分…

进程信号之产生

目录 &#x1f3c6;一、认识信号 &#x1f3c6;二、信号的产生 ①通过终端按键产生信号 ②调用系统函数向进程发信号 ③由硬件异常产生信号 ④软件条件产生信号 &#x1f3c6;三、进程退出时的核心转储的问题 &#x1f3c6;一、认识信号 生活中&#xff0c;有很多信号…

Python 下载的 11 种姿势,一种比一种高级

今天我们一起学习如何使用不同的Python模块从web下载文件。此外&#xff0c;你将下载常规文件、web页面、Amazon S3和其他资源。 通过本文的学习&#xff0c;你将学到如何克服可能遇到的各种挑战&#xff0c;例如下载重定向的文件、下载大型文件、完成一个多线程下载以及其他策…

面试官:你会从哪些维度进行MySQL性能优化?

面试官如果问你&#xff1a;你会从哪些维度进行MySQL性能优化&#xff1f;你会怎么回答&#xff1f; 所谓的性能优化&#xff0c;一般针对的是MySQL查询的优化。既然是优化查询&#xff0c;我们自然要先知道查询操作要经过哪些环节&#xff0c;然后思考可以在哪些环节进行优化…

English Learning - L3 作业打卡 Lesson3 Day21 2023.5.25 周四

English Learning - L3 作业打卡 Lesson3 Day21 2023.5.25 周四 引言&#x1f349;句1: Here is another expression about meat one man’s meat is another man’s poison.成分划分连读爆破语调 &#x1f349;句2: In other words, one person might like something very muc…

postMessage引发XSS

这次的主题是postMessage未验证消息来源origin&#xff0c;导致恶意代码注入的dom-xss&#xff0c;由于很少人关注这类型的注入&#xff0c;因为挖掘难度中等&#xff0c;需要一定的javascript代码审计能力&#xff0c;且漏洞危害等级不高&#xff0c;导致国内许多SRC都存在跨域…

【计算机网络】 7、websocket 概念、sdk、实现

文章目录 一、背景二、简介三、client3.1 ws 构造函数3.2 ws.readyState3.3 ws.onopen3.4 ws.onclose3.5 ws.onmessage3.6 ws.send3.7 ws.bufferedAmount3.8 ws.onerror 四、server4.1 go4.1.1 apifox client4.1.2 js client 五、范式 一、背景 已经有了 http 协议&#xff0c…

懂点自动化基础就要25k? 测试总监:给你15K,爱来不来

公司前段缺人&#xff0c;也面了不少测试&#xff0c;结果竟然没有一个合适的。一开始瞄准的就是中级的水准&#xff0c;也没指望来大牛&#xff0c;提供的薪资在10-25k&#xff0c;面试的人很多&#xff0c;但平均水平很让人失望。看简历很多都是3年工作经验&#xff0c;但面试…

【C++11】C++的新特性(详解)

文章目录 1.C11简介2.统一的列表初始化2.1{}初始化2.2 std::initializer_list 3.声明3.1 auto3.2 decltype3.3 nullptr 4.范围for5.STL中一些变化5.1 array5.2 forward_list容器5.3 unordered_map和unordered_set容器 1.C11简介 相比于C98/03&#xff0c;C11则带来了数量可观的…

2023年武汉市职业院校技能大赛“网络安全”竞赛任务书

2023年武汉市职业院校技能大赛“网络安全” 竞赛任务书 一、竞赛时间 总计&#xff1a;360分钟 竞赛阶段 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 A模块 A-1 登录安全加固 180分钟 200分 A-2 本地安全策略配置 A-3 流量完整性保护 A-4 事件监控 A-5 服…

2023年电工杯B题半成品论文使用讲解

注&#xff1a;蓝色字体为说明备注解释字体&#xff0c;不能出现在大家的论文里。黑色字体为论文部分&#xff0c;大家可以根据红色字体的注记进行摘抄。该文件为半成品论文&#xff0c;即引导大家每一步做什么&#xff0c;怎么做&#xff0c;展示按着本团队的解题思路进行建模…

Integrated LogicAnalyzer v6.2 (Vivado ILA使用方法)

Chapter 1 Overview 1.1 Feature Summary&#xff08;功能摘要&#xff09; FPGA设计中的信号连接到ILA核时钟和探针输入&#xff08;图1-1&#xff09;。这些连接到探针输入的信号以设计速度进行采样&#xff0c;并使用片上块RAM&#xff08;BRAM&#xff09;进行存储…

【旅游网】前后端分离——用户管理

1、先创建数据库&#xff0c;建立用户表 2、创建后端项目&#xff0c;这里使用Springboot&#xff0c;创建好controler、mapping、pojo、service四个文件&#xff0c;在实体里创建User类 package com.example.pjtest.Pojo;public class User {public int id_u;public Strin…