记一次 .NET某智慧出行系统 CPU爆高分析

news2025/1/11 2:42:23

一:背景

1. 讲故事

前些天有位朋友找到我,说他们的系统出现了CPU 100%的情况,让你帮忙看一下怎么回事?dump也拿到了,本想着这种情况让他多抓几个,既然有了就拿现有的分析吧。

二:WinDbg 分析

1. 为什么会爆高

既然说是 100%,作为调试者得拿数据说话,可以使用 !tp 来观测一下。


0:000:x86> !tp
CPU utilization: 100%
Worker Thread: Total: 382 Running: 382 Idle: 0 MaxLimit: 8191 MinLimit: 8
Work Request in Queue: 8694
    Unknown Function: 6f62b650  Context: 4a36bbbc
    Unknown Function: 6f62b650  Context: 4a36e1d4
    Unknown Function: 6f62b650  Context: 4a372384
    Unknown Function: 6f62b650  Context: 239adfec
    Unknown Function: 6f62b650  Context: 4a374994
    Unknown Function: 6f62b650  Context: 239b9e14
    Unknown Function: 6f62b650  Context: 2399fd9c
    ...

从卦中看,不得了,CPU 100% 之外,所有的线程池线程全部被打满,人生自古最忌满,半贫半富半自安。同时线程池队列还累计了8694个任务待处理,说明这时候的线程池已经全面沦陷,要想找到这个答案,需要用 ~*e !clrstack 命令观察每一个线程此时正在做什么,输出如下:


0:000:x86> ~*e !clrstack
OS Thread Id: 0x22f4 (429)
Child SP       IP Call Site
4bc1e060 0000002b [GCFrame: 4bc1e060] 
4bc1e110 0000002b [HelperMethodFrame_1OBJ: 4bc1e110] System.Threading.Monitor.ObjWait(Boolean, Int32, System.Object)
4bc1e19c 24aad7da System.Threading.Monitor.Wait(System.Object, Int32, Boolean)
4bc1e1ac 2376f0d6 ServiceStack.Redis.PooledRedisClientManager.GetClient()
4bc1e1dc 2420bbc6 xxx.Service.CacheService.GetClient()
...
4bc1e234 24206fbe xxxBLL.GetxxxCount(System.Collections.Generic.Dictionary`2<System.String,System.Object>)
4bc1e3e0 216e25f9 DynamicClass.lambda_method(System.Runtime.CompilerServices.Closure, System.Web.Mvc.ControllerBase, System.Object[])
4bc1e3f0 238b86b7 System.Web.Mvc.ActionMethodDispatcher.Execute(System.Web.Mvc.ControllerBase, System.Object[])
...
4bc1eee0 2353d448 System.Web.Hosting.PipelineRuntime.ProcessRequestNotification(IntPtr, IntPtr, IntPtr, Int32)
4bc1efb8 00a9e3c2 [ContextTransitionFrame: 4bc1efb8] 

从卦中可以看到当前有 371个线程在 PooledRedisClientManager.GetClient 中的 Wait 上出不来,那为什么出不来呢?

2. 探究源码

要想找到这个答案,只能从源代码中观察,简化后的代码如下:


    public IRedisClient GetClient()
    {
        lock (writeClients)
        {
            AssertValidReadWritePool();
            RedisClient inActiveWriteClient;
            while ((inActiveWriteClient = GetInActiveWriteClient()) == null)
            {
                if (!Monitor.Wait(writeClients, PoolTimeout.Value))
                {
                    throw new TimeoutException("Redis Timeout expired. The timeout period elapsed prior to obtaining a connection from the pool. This may have occurred because all pooled connections were in use.");
                }
            }
        }
    }

    private RedisClient GetInActiveWriteClient()
    {
        int num = WritePoolIndex % writeClients.Length;
        for (int i = 0; i < ReadWriteHosts.Count; i++)
        {
            int num2 = (num + i) % ReadWriteHosts.Count;
            RedisEndPoint redisEndPoint = ReadWriteHosts[num2];
            for (int j = num2; j < writeClients.Length; j += ReadWriteHosts.Count)
            {
                if (writeClients[j] != null && !writeClients[j].Active && !writeClients[j].HadExceptions)
                {
                    return writeClients[j];
                }
            }
        }
        return null;
    }

仔细阅读卦中代码,之所以进入Wait主要是因为 GetInActiveWriteClient() 方法返回 null 所致,从异常信息看也知道此时是因为 writeClients 池已满,那这个池是不是满了呢?可以把 writeClients 数组挖出来,使用 !dso 命令。


0:429:x86> !dso
OS Thread Id: 0x22f4 (429)
ESP/REG  Object   Name
...
4BC1E0D0 0ea38d18 ServiceStack.Redis.RedisClient[]
4BC1E100 0ea38bb0 ServiceStack.Redis.PooledRedisClientManager
...

0:429:x86> !da 0ea38d18
Name:        ServiceStack.Redis.RedisClient[]
MethodTable: 237af1c0
EEClass:     0129a224
Size:        52(0x34) bytes
Array:       Rank 1, Number of elements 10, Type CLASS
Element Methodtable: 237ae954
[0] 0ea38dd4
[1] 0a9f9f58
[2] 0296e468
[3] 0c9786a0
[4] 0a9fe768
[5] 04a21f24
[6] 0aa0d758
[7] 10946d90
[8] 04a8c8b0
[9] 02a2a2a0

0:429:x86> !DumpObj /d 0ea38dd4
Name:        ServiceStack.Redis.RedisClient
MethodTable: 237ae954
EEClass:     2375d154
Size:        152(0x98) bytes
File:        C:\Windows\xxx\ServiceStack.Redis.dll
Fields:
...
0129aa48  4000169       7d       System.Boolean  1 instance        1 <Active>k__BackingField
...

从卦中看 writeClients 池只有10个大小,并且都是 Active=1,所以返回 null 就不足为奇了。

3. 为什么client都在使用中呢

要想找到这个答案,需要看下上层的 xxxBLL.GetxxxCount 方法是如何调用的,为了保护隐私,就多模糊一点。

从图中可以看到,问题出在用 foreach 去不断的迭代 ServiceStack.Redis 导致 writeClient 池耗尽,导致大量的请求在不断的阻塞,不要忘了这里有371个线程在争抢哦,真是大忌。

接下来顺带洞察下这个 foreach 要 foreach 多少次? 继续用 !dso 去挖。


0:429:x86> !DumpObj /d 077cec20
Name:        System.Collections.Generic.List`1[[xxxInfo, xxx]]
MethodTable: 241ad794
EEClass:     0193166c
Size:        24(0x18) bytes
File:        C:\Windows\Microsoft.Net\assembly\GAC_32\mscorlib\v4.0_4.0.0.0__b77a5c561934e089\mscorlib.dll
Fields:
      MT    Field   Offset                 Type VT     Attr    Value Name
01860eec  4001891        4     System.__Canon[]  0 instance 077e0048 _items
0129c9b0  4001892        c         System.Int32  1 instance      307 _size
0129c9b0  4001893       10         System.Int32  1 instance      307 _version
01296780  4001894        8        System.Object  0 instance 00000000 _syncRoot
01860eec  4001895        4     System.__Canon[]  0   static  <no information>

从卦中看当前需要循环307次,也就再次验证了池耗尽的说法,我知道心细的朋友肯定会说,卡死这个我认,但能导致 CPU爆高 我就不能理解了,其实你仔细阅读源码就能理解了,这是经典的 锁护送(lock convoy) 现象,因为满足如下两个条件。

  1. 多线程的 foreach 高频调用。
  2. Wait 导致线程暂停进入等待队列。

4. 如何解决这个问题

知道了前因后果,解决起来就比较简单了,三种做法:

  1. 将 foreach 迭代 改成 批量化处理,减少对 writeclient 的租用。
  2. 增加 writeclient 的池大小,官网有所介绍。
  3. ServiceStack.Redis 的版本非常老,又是收费的,最好换掉已除后患。

三:总结

这次生产事故分析还是非常有意思的,一个看似阻塞的问题也会引发CPU爆高,超出了一些人的认知吧,对,其实它就是经典的 lock convoy 现象,大家有任何dump问题可以找我,一如既往的免费分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1995099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL笔记-基础篇(二):多表查询

​ 博客主页: 南来_北往 系列专栏&#xff1a;Spring Boot实战 前言 MySQL的多表查询是一项非常实用的数据库操作技术&#xff0c;它能够通过关联不同表中的数据来提供更加丰富和准确的信息。在实际应用中&#xff0c;数据通常不是孤立存在的&#xff0c;而是分布在多个…

怎么用云手机进行TikTok矩阵运营

TikTok作为炙手可热的社交媒体巨头&#xff0c;已经吸引了亿万用户的目光。随着科技的飞速发展&#xff0c;云手机的出现为TikTok矩阵运营注入了新的活力。本文将深入探讨云手机在TikTok矩阵运营中的实际应用&#xff0c;并分享一系列高效策略与技巧。 &#xff08;1&#xff0…

《暗黑破坏神 IV》是什么类型的游戏,苹果电脑能玩暗黑破坏神吗 crossover玩暗黑4

《暗黑破坏神 IV》&#xff08;Diablo IV&#xff09;是由暴雪娱乐开发的一款动作角色扮演游戏&#xff08;Action RPG&#xff09;&#xff0c;是广受欢迎的《暗黑破坏神》系列的最新作品。暗黑破坏神4拥有出色的游戏画面、音效和丰富的游戏玩法&#xff0c;非常值得玩家们去尝…

Sqli-labs靶场详解(二)

一.sqli-labs靶场(15~17) 15.less15 第15关发现联合查询和报错注入无效,使用and探测时发现有两个页面,于是判断是盲注中的布尔盲注 猜解库名长度 or (length(database()))8-- gwe 利用ASCI码猜解当前数据库名称: or(ascii(substr(database(),1,1)))115-- gwe返回正常&#xf…

Linux内核机制开发 - DEFINE_PER_CPU和DECLARE_PER_CPU

By: fulinux E-mail: fulinuxsina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅&#xff01; 你的喜欢就是我写作的动力&#xff01; 目录 1. DEFINE_PER_CPU和DECLARE_PER_CPU1. 1. DEFINE_PER_CPU1.2. DECLARE_PER_CPU 2. 区别2.1. 定义与声明:2.2. 使…

mac专业图表绘制软件:OmniGraffle Pro for mac 激活版

OmniGraffle Pro for Mac 是一款功能强大的图表、流程图、快速页面布局、网站线框和图形设计绘制软件。它具备保持线条与形状连接的功能、有效的样式工具&#xff0c;以及简单易用的组织图表能力&#xff0c;能够快速帮助用户制作出色的图形文稿。OmniGraffle Pro 适用于制作从…

“绿色积分引领新风尚:‘我店‘平台重塑消费市场格局“

在数字化浪潮席卷全球的今天&#xff0c;消费市场正经历一场前所未有的深刻变革与重塑。传统商业模式在数字化的大潮中面临严峻挑战&#xff0c;而“我店”平台凭借其开创性的绿色积分体系&#xff0c;犹如破晓之光&#xff0c;照亮了行业前行的道路&#xff0c;迅速成为市场瞩…

visual studio 2019 以及 TwinCAT3 安装教程

环境&#xff1a; 系统&#xff1a;windows11系统&#xff0c;CPU&#xff1a;Inter I5 一.安装visual studio 这里安装版本不要太高&#xff0c;建议2019或者2017的profession就好。如果你电脑上已经有了一个更高的版本&#xff0c;也不用去卸载高版本再安装低版本&#…

电子纸打造智能、自动化、绿色的工作流程

电子纸打造智能、自动化、绿色的工作流程 RFID技术最早在1940年代问世&#xff0c;1980年开始商业化使用。直到现在RFID&#xff08;无线射频识别&#xff09;技术已经深入到我们生活的方方面面。特别是在工业生产、物流运输等领域&#xff0c;RFID技术发挥着越来越重要的作用…

达梦数据库:无法解析的成员访问表达式[GROUP_CONCAT]

目录 异常原因解决1、LISTAGG()&#xff08;推荐&#xff09;2、WM_CONCAT() 异常 原因 达梦数据库没有GROUP_CONCAT()函数 解决 1、LISTAGG()&#xff08;推荐&#xff09; 2、WM_CONCAT() Java结果集映射后&#xff0c;会是一个地址值

北斗三号5G遥测终端机系统在水库大坝安全监测应用

一、概述 我国现有水库大坝9.8万余座&#xff0c;是世界上拥有水库大坝最多的国家。这些水库大坝在防洪、发电、供水、灌溉等方面发挥巨大效益的同时&#xff0c;所存在的安全风险不容忽视。大坝安全监测是大坝安全管理的重要内容&#xff0c;是控制大坝风险的重要措施。大坝安…

java面向对象--继承(构造方法的访问特点)

一、引言 &#xff08; 简单介绍构造方法的特点) 在 Java 中&#xff0c;面向对象编程中的继承机制允许子类继承父类的属性和方法。当涉及到构造方法时&#xff0c;有一些特定的规则需要遵循。以下是在继承中构造方法访问的一些关键特点&#xff1a; 构造方法的访问特点1、构造…

Docker学习(6):Docker Compose部署案例

一、docker-compose部署mysql 1、准备镜像 2、编写my.cnf配置文件 # 服务端参数配置 [mysqld] usermysql # MySQL启动用户 default-storage-engineINNODB # 创建新表时将使用的默认存储引擎 character-set-serverutf8mb4 # 设置mysql服务端默认字符集…

【电控笔记z56】ADRC回路设计(与smo比较)

用在IPM ADRC 估测反电动势 参数变动 : 内部扰动 SMO : 有高频成分 需要低通滤波器滤去 - 需要补偿延迟 两轴同步旋转坐标下做adrc adrc适合去做变化速度比较低的扰动 ADRC : 估测高速变化的扰动 , 需要修改估测器 电机模型 Ld不等于Lq 式7如下蓝色框图 eso等效成一个纯积分…

基于zynq的图像视频数据采集处理项目一

基于zynq的图像视频数据采集处理项目一 文章目录 基于zynq的图像视频数据采集处理项目一1.整体的架构2.整体的时钟和复位设计3.详细方案设计3.1 ps端spi对摄像头的配置&#xff0c;数据的dvp口截断输入3.2 看手册对 IMX2221080P 模式图像解析3.3 拜耳图像格式转换为 RGB 图像3.…

两地三中心异地多活网络

基于阿里云洛神网络全球基础设施及云原生SDN技术&#xff0c;帮助企业客户在云上快速构建两地三中心跨域多活网络&#xff0c;保障企业核心业务在全球多地域的高品质互联。两地三中心多活网络解决方案提供了弹性、安全、高质量的网络能力&#xff0c;结合数据传输服务DTS轻松实…

下一个人工智能趋势令人恐惧

在技​​术进步的昏暗走廊中&#xff0c;我们站在悬崖边&#xff0c;凝视着广阔而难以预测的人工智能未来。 其进化过程中的每一次曲折都伴随着惊叹和恐惧的低语。当风吹过数字树木时&#xff0c;它讲述了各种可能性的故事&#xff0c;但在其歌声中交织着谨慎的音符。 下一个人…

C语言随机数小游戏

目录 前言 一、游戏要求&#xff1a; 二、游戏实现 1.游戏界面 2.游戏主体 3.主函数 4.运行结果&#xff1a; 总结 前言 前面我们学到了C语言随机数的相关知识&#xff0c;我们今天用这个知识做一个有趣的小游戏&#xff0c;会有一点函数的知识&#xff0c;不过后面会…

WPF中的图形对象

前言 在WPF中可以根据需要在前台绘制自己所需要的几何开状&#xff0c;可设置性很丰富&#xff0c;而且在xaml中很好的实时性&#xff0c;如果是设计时还可以考虑使用Blend for Visual Studio来添加元素&#xff0c;它的设计交互性更高。 1、形状基类Shape 为 Ellipse、Poly…

ATG(地空通信)

█ 到底什么是ATG&#xff1f; ATG&#xff0c;就是Air To Ground&#xff0c;空对地通信&#xff0c;也叫地空通信。 它是一种非常特殊的通信技术&#xff0c;专门为天上的飞机提供服务。 简单来说&#xff0c;就是沿着飞机的航线&#xff0c;设置大量的地面基站。基站天线…