500个线程运行串行原因排查

news2025/1/11 16:47:00

场景:项目中有业务需要开启500个线程执行,需要证明有500个线程在执行。用的是一台128核的电脑。服务用docker启动的。所以理论上应该是要有128个线程并行执行的。

 

目录

一.证明有500个线程在执行(会发现并行度很低)

1.用top命令监控进程内的线程运行情况

二.排查没有并行的原因

1.通过日志排查(只证明了并发,但找不到无法并行的原因)

2.用jconsole排查(只证明了确实有用线程池创建了500个线程)

 3.用jvisualVm排查(可以看出多个线程间基本是串行的)

 4.验证是否业务代码才会导致串行,如果创建线程执行没有逻辑的代码是否串行(主要怀疑是否会是服务器问题)(证明服务器确实可以有128个线程并行)

5.验证是否是日志导致的(日志可能有影响,但不是核心问题)

6.通过dump线程堆栈信息进行排查(以此找到了串行的原因)

6.用top再次验证并行度(并行上去了,但因网络io问题会存在波动)

三.其他问题

四.进程内的线程运行情况shell脚本(top -H -p无法使用时可用,不确定是否所有linux下都试用。)


一.证明有500个线程在执行(会发现并行度很低)

1.用top命令监控进程内的线程运行情况

        1).执行 docker container top ${容器名称} 命令,查到服务在宿主机对应的进程pid.此处对应的进程pid 为 20575。第一个进程是sh 命令,找java开头的。

         2).然后执行 top -H -p ${pid} 观察进程内的线程运行情况,可以看到线程数与3278,但是running的线程2-8跳动.并行度太低。(有些服务器top 是没有-H -p参数的,比如alpine服务器。文章末有提供shell脚本进行统计)

二.排查没有并行的原因

1.通过日志排查(只证明了并发,但找不到无法并行的原因

        就是各种打日志,调整线程池参数。证明有多个线程,也都有在并发执行。但这样却找不到没有并行的原因。

2.用jconsole排查(只证明了确实有用线程池创建了500个线程)

        1). java 启动参数增加如下配置

-Dcom.sun.management.jmxremote
-Dcom.sun.management.jmxremote.port=8088 
-Dcom.sun.management.jmxremote.ssl=false 
-Dcom.sun.management.jmxremote.authenticate=false

java -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8088 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false -jar boot.jar

        2).打开cmd 执行 jconsole 。(前提有装jdk 并配有环境变量。)远程进程配置 ${ip:port}.然后点击连接。

         3).看线程标签页,搜索业务,发现业务线程确实创了500个。到此仅是证明有创建了500个线程。

 3.用jvisualVm排查(可以看出多个线程间基本是串行的)

        1).怎么远程连接就不详细说了。和jconsole类似。都是连接同一个jmx端口。连接上后通过jvisualVm线程标签页可以看到多个线程基本是串行交替运行的。如下图所示

 再来一张清晰点的,但是只是模拟,并非实际场景

 4.验证是否业务代码才会导致串行,如果创建线程执行没有逻辑的代码是否串行(主要怀疑是否会是服务器问题)(证明服务器确实可以有128个线程并行)

        1).执行如下代码

public static void main(String[] args) {
    ThreadPoolExecutor executor = new ThreadPoolExecutor(128, 128, 0, TimeUnit.SECONDS, new ArrayBlockingQueue<>(100), new CustomizableThreadFactory("业务线程"));
    for (int i = 0; i < 128; i++) {
        executor.submit(() -> {
            while (true) {
                System.out.println(Thread.currentThread().getId());
            }
        });
    }
}

        1.)用 jvisualVm 观察线程发现依然是串行的。(有点怀疑人生了)
        2.)代码中还是执行了一行System.out.println的,去掉日志的打印试了下,发现确实并行。        

5.验证是否是日志导致的(日志可能有影响,但不是核心问题)

        1). 通过spring配置把log4j的相关日志全关闭了(logging.level.root=off),并把项目里的所有System.out.println全删掉.然后再次用jvisualVM 观察,发现并行度依然没上去

备注:如果是日志问题后期可以考虑根据线程分配不同的日志文件或者把写日志改为异步。

6.通过dump线程堆栈信息进行排查(以此找到了串行的原因)

        1).在运行中可以点击jvisualVm的线程dump,dump出当前的堆栈信息

        2).分析堆栈信息发现大多数线程都被阻塞在JTSFactoryFinder.getGeometryFactory方法.这个方法加了锁,业务代码中每次循环都会调用这个方法非常多次。每次调用都会阻塞其他线程从而导致串行。

         3).分析JTSFactoryFinder.getGeometryFactory方法发现就是返回一个无状态单例。于是把这方法返回的对象抽取一个全局对象。所有调用的地方都获取这个全局对象。

        4).再用jvisualVm 观察发现并行度明显提高了。

        5).然后再次dump 线程堆栈,这时线程主要都是阻塞在网络io相关的地方。

6.用top再次验证并行度(并行上去了,但因网络io问题会存在波动

        用top -H -p ${pid} 查看进程运行情况,发现running数在0-120间跳动,无法一直处在128的并行。猜测会跳动的原因应该是因为网路io的原因,被其他服务阻塞了。想进一步提高并行概率估计就得从其他服务下手了。

三.其他问题

500线程下的一些其他问题主要是dubbo线程耗尽,druid获取不到连接之类的其他问题。主要都是通过改dubbo、druid、mysql配置解决。

四.进程内的线程运行情况shell脚本(top -H -p无法使用时可用,不确定是否所有linux下都试用。)

#!/bin/bash

while(true)
do
	total=0
	running=0
	sleeping=0
	stoped=0
	zombie=0
	#$1 是进程id
	for thread in `ls /proc/$1/task`
	do
		#在apline里使用total=$[total+1] 会统计不出来
		let total+=1
		stat=$(awk '{print $3}' /proc/$1/task/$thread/stat)
		case $stat in
		R)
			let running+=1;;
		T)
			let stoped+=1;;
		S)
			let sleeping+=1;;
		Z)
			let zombie+=1;;
		esac
	done
	echo "总线程数是$total"
	echo "运行中线程数是$running"
	echo "睡眠线程数是$sleeping"
	echo "停止线程数是$stoped"
	echo "僵尸线程数是$zombie"
	sleep 2
done
	

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/736230.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

netty学习(5):netty实现注册中心和发送JSON数据到指定的客户端

1. 实现&#xff1a;在netty客户端实现netty客户端注册功能&#xff0c;netty客户端需要发送注册消息到netty服务端。 2. 在父工程创建Message类&#xff0c;定义消息格式和消息类型 定义消息类型&#xff1a; package message;public enum MessageType {RegisterRequest,Re…

函数重载与函数递归

一、函数重载 定义&#xff1a;两个函数的函数名称相同&#xff0c;但是参数的个数或者类型不同 参考以下代码&#xff1a; //1.public static int add(int x,int y){return x y;}//2.与1构成重载public static int add(byte a,int b){return a b;}//3.与1构成重载public s…

文件上传漏洞总结

文件上传 文件上传漏洞产生的原理 文件上传漏洞是指用户通过界面上的上传功能上传了一个可执行的脚本文件&#xff0c;而WEB端的系统并未对其进行检测或者检测的逻辑做的不够好。 文件上传漏洞的危害 1、由于是上传的文件&#xff0c;所以文件由用户决定&#xff0c;上传we…

交换机架构整理

网口的基本结构 网口扫盲三:以太网芯片MAC和PHY的关系 问:如何实现单片以太网微控制器? 问:以太网MAC是什么? 问:什么是MII? 问:以太网PHY是什么? 问:造成以太网MAC和PHY单片整合难度高的原因是什么? 问: 网卡上除RJ-45接口外,还需要其它元件吗? 问:10BaseT和100BaseTX…

LeetCode[面试题17.14]最小的K个数

难度&#xff1a;中等 题目&#xff1a; 设计一个算法&#xff0c;找出数组中最小的k个数。以任意顺序返回这k个数均可。 示例&#xff1a; 输入&#xff1a; arr [1,3,5,7,2,4,6,8], k 4 输出&#xff1a; [1,2,3,4]提示&#xff1a; 0 < len(arr) < 1000000 <…

Java设计模式之创建型-建造者模式(UML类图+案例分析)

目录 一、基本概念 二、UML类图 三、角色设计 四、案例分析 五、总结 一、基本概念 建造者模式是一种创建型设计模式&#xff0c;它使我们将一个复杂对象的构建步骤分离出来&#xff0c;使得同样的构建过程可以创建不同的表示。该模式的目的是将构建复杂对象的过程抽象化…

JavaScrpt_13 Web API 正则表达式

JavaScrpt_13 Web API 正则表达式 一、 正则表达式1. 正则基本使用2. 元字符边界符量词范围字符类 3. 替换和修饰符4. change 事件5. 判断是否有类 一、 正则表达式 正则表达式&#xff08;Regular Expression&#xff09;是一种字符串匹配的模式&#xff08;规则&#xff09;…

12_Linux异步通知

目录 异步通知简介 驱动中的信号处理 应用程序对异步通知的处理 驱动程序编写 编写测试APP 运行测试 异步通知简介 在使用阻塞或者非阻塞的方式来读取驱动中按键值都是应用程序主动读取的,对于非阻塞方式来说还需要应用程序通过poll函数不断的轮询。最好的方式就是驱动…

【Python爬虫与数据分析】时间、日期、随机数标准库

目录 一、模块化概述 二、time库 1. 时间获取 2. 时间格式化 3. 程序计时 三、datetime库 1. datetime.datetime类 2. datetime.timedelta类 四、random库 1. 基本随机函数 2. 扩展随机函数 3. 随机时间的生成 一、模块化概述 Python程序由模块组成&#xff0c;一个…

MySQL基础篇第4章(运算符)

文章目录 1、算术运算符1.1 加法与减法运算符1.2 乘法与除法运算符1.3 求模&#xff08;求余&#xff09;运算符 2、比较运算符2.1 等号运算符2.2 安全等于<>2.3 不等于运算符2.4 空运算符2.5 非空运算符2.6 最小值运算符2.7 最大值运算符2.8 BETWEEN AND运算符2.9 IN运算…

typeScript(持续吐血版)

typeScript-02-进阶(TSVue3) 结合vue3来使用TypeScript 使用vite来创建vue3TS的项目 使用vite创建项目&#xff0c;并选择带ts的版本 npm create vitelatest my-vue-ts-app – --template vue-ts 参考链接&#xff1a;https://vuejs.org/guide/typescript/composition-api…

7.软件是怎么样炼成的:c++编译器过程

"重新生成解决方案"&#xff0c;"调试"的背后的四个阶段 故事&#xff1a; 渣男是有套路和步骤的。 代码变成软件也是有固定的套路的 总结&#xff1a; 1.预处理 g -e源程序&#xff0c;-o生成的结果。后面的a.cpp是新的源文件。这个时候还是源程序计算…

leetcode-977. 有序数组的平方

leetcode-977. 有序数组的平方 文章目录 leetcode-977. 有序数组的平方一.题目描述二.第1次提交(std::sort)三.第2次提交(左右指针) 一.题目描述 二.第1次提交(std::sort) class Solution {public:vector<int> sortedSquares(vector<int> &nums) {for (int i …

Centos或Linux编写一键式Shell脚本删除用户、组指导手册

文章目录 一、目的二、操作步骤 一、目的 本指导手册为了更加方便使用Centos或者Linux&#xff0c;并在里面删除用户、用户组。 注意点1&#xff1a;userdel命令删除该用户时&#xff0c;并不能删除该用户的所有信息&#xff0c;只是删除了/etc/passwd、/etc/shadow、/etc/gr…

Vue3 +TScript 基本开发

首先你要使用 vite 创建项目 npm init vuelatest 并选择带ts的版本 文件的结构 main.ts 文件 import { createApp } from "vue" import { createPinia } from piniaimport App from "./App.vue" const pinia createPinia() const app createApp(App)a…

map、multimap、set、multiset讲解

文章目录 &#x1f4cd;前言1. 关联式容器2. 键值对3. 树形结构的关联式容器3.1 set3.1.1 set的介绍3.1.2 set的使用 3.2 map3.2.1 map的介绍3.2.2 map的使用 3.3 muitiset3.3.1 multiset的介绍3.3.2 multiset的使用 3.4 multimap3.4.1 multimap的介绍3.4.2 multimap的使用 3.5…

山西电力市场日前价格预测【2023-07-10】

日前价格预测 预测明日&#xff08;2023-07-10&#xff09;山西电力市场全天平均日前电价为374.23元/MWh。其中&#xff0c;最高日前价格为417.10元/MWh&#xff0c;预计出现在19: 45。最低日前电价为323.51元/MWh&#xff0c;预计出现在13: 30。 价差方向预测 1&#xff1a;实…

利用VitePress部署静态网站

前言 之前看到过很多这样的静态网站&#xff0c;基于Markdown格式&#xff0c;风格基本统一&#xff0c;而且这种网站非常常见&#xff0c;例如&#xff1a; 例如&#xff0c;以下的几个网址&#xff1a; Java HashMap 源码分析 | 未读代码BAT大厂面试题与全栈知识体系结合…

实践:devops之K8s环境持续部署

实践&#xff1a;devops之K8s环境持续部署 目录 推荐文章 https://www.yuque.com/xyy-onlyone/aevhhf?# 《玩转Typora》 1、Kubectl 发布流水线 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X2Q6MzL1-1688896509292)(https://bucket-hg.oss-cn-…

【唯一分解】A因子

A-因子_Wannafly挑战赛25 (nowcoder.com) 题意&#xff1a; 思路&#xff1a; Code&#xff1a; #include <bits/stdc.h>#define int long longusing namespace std;const int mxn1e510; const int mxe1e610; const int mod1e97; const int Inf1e18;int N,K; int len0;…