CPU标高load标高;linux故障日志排查

news2025/3/11 2:51:01
        一般情况下,服务器不太会出问题。但是遇到特别诡异的情况,多半是服务器本身的问题。遇到问题,我们不能一味的去排查应用,中间件。更应该想到服务器的问题。否则很容易出现南辕北辙的情况。
        这次分享的是一次服务器故障,导致的线上问题。涉及到了服务器的内存的排查,和CPU的排查。

现象:  

线上es集群突然报警。本来一个机器上两个节点,但是在早晨6点48分,突然cpu飙升到100,期间没有什么查询,正常量的写入。

关闭一个节点以后,负载正常,但是再启动节点,集群负载还是很高。

请求命中此台机器,触发了很多的慢查询告警 。

该节点 gc的时间特别长

[2023-11-21T11:36:38,263][WARN ][o.e.m.j.JvmGcMonitorService] [10.99.100.98] [gc][young][1279][13] duration [2.4s], collections [1]/[2.5s], total [2.4s]/[44.4s], memory [2.9gb]->[1.4gb]/[31.9gb], all_pools {[young] [1.5gb]->[0b]/[0b]}{[old] [1.3gb]->[1.3gb]/[31.9gb]}{[survivor] [52.5mb]->[32.3mb]/[0b]}
[2023-11-21T11:36:38,274][WARN ][o.e.m.j.JvmGcMonitorService] [10.99.100.98] [gc][1279] overhead, spent [2.4s] collecting in the last [2.5s]

监控如下,可以看出来CPU飙升

同时间段其它机器的监控

排查linux日志 

grep -i cpu /var/log/messages

使用 dmesg 命令可以查看内核环缓冲区的内容,其中包含了系统启动时和运行时的信息,包括一些硬件错误。查看排查cup问题。

dmesg | grep -i cpu

[11215201.664127] CPU20: Package temperature above threshold, cpu clock throttled (total events = 1493)
[11215201.664168] CPU56: Package temperature above threshold, cpu clock throttled (total events = 1493)
这里是cpu过热保护发生的次数

[20227904.755122] EDAC skx MC0: CPU 0: Machine Check Event: 0x0 Bank 1: 0x940000000000009f
[20227904.755820] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:slot:page:0x7c960e offset:0xdc0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:imc:rank:bg:ba:row:0x1d4a9 col:0x2d8)

dmesg | grep -i memory

查看排查内存问题

[20227904.755121] EDAC skx MC0: HANDLING MCE MEMORY ERROR
[20227904.755820] EDAC MC0: 0 CE memory read error on CPU_SrcID#0_MC#0_Chan#0_DIMM#0 (channel:slot:page:0x7c960e offset:0xdc0 grain:32 syndrome:0x0 -  err_code:0x0000:0x009f socket:imc:rank:bg:ba:row:0x1d4a9 col:0x2d8)

section_type: memory error 表示这是一个内存错误。

EDAC skx MC0 表示这是与 EDAC(Error Detection and Correction)相关的信息。

HANDLING MCE MEMORY ERROR 指示系统正在处理一个 MCE(Machine Check Exception)的内存错误。

EDAC MC0: 0 CE memory read error 表示这是一个可纠正的内存读取错误。

CPU_SrcID#0_MC#0_Chan#0_DIMM#0 提供了有关错误位置的详细信息,指明了错误发生在第一个 CPU(CPU 0)的第一个内存通道(channel 0)的第一个 DIMM(DIMM 0)。

channel:0 slot:0 指示错误发生在通道 0 的插槽 0。

page:0x7c960e offset:0xdc0 提供了错误地址的详细信息,包括页面、偏移。

syndrome:0x0 表示错误的纠错码。

err_code:0x0000:0x009f 提供了错误代码,这里指示了一个 CE(Correctable Error)错误。

socket:0 imc:0 rank:1 bg:1 ba:0 row:0x1d4a9 col:0x2d8 提供了更详细的关于错误位置的信息,包括套接字、内存控制器、rank、bank、行和列。

这里有一篇参考文

和我遇到的现象一样。可能是内存有问题

Linux服务器EDAC CE memory read error - 简书

故障处理

结合监控信息,我最先想到的是的服务器存在问题。于是就检查了内存和cpu。从排查的信息来看,多半是硬件存在问题。于是联系运维,与机房人员。由于是数据集群,先把服务器上的数据迁移到别的机器上,然后做重启操作。结果发现服务器起不开了,厂商的人过来升级了固件版本,做了修复。然后观察了两天,没有再发现系统异常日志。重新加回集群。我们这次遇到的不算是内存条有问题。但是也属于服务器故障,导致的应用故障。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1280272.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript添加快捷键、取消浏览器默认的快捷操作、js查看键盘按钮keycode值

document.addEventListener("keydown",function (event) {// 如果不知道按键对应的数字(keyCode)是多少可以弹出查看一下// alert(event.keyCode)if (event.ctrlKey && event.altKey && event.view["0"] null){if(…

Spring学习笔记:Day2

昨天定的学习计划发现通过文心4.0来实现不靠谱,坑太多,今天开始跟随B站进行学习,争取10-15天学习一遍,冲啊! 地址:001-课程介绍_哔哩哔哩_bilibili 今日规划: pt 001 - pt 018,提到…

Vue3实现滚动到容器底部时发送请求,加载新数据

问题来源 在项目中出现了需要在容器滚动到底部时,加载新的数据的需求,以下是解决的方案笔记 解决 画了个流程图: 如图,先添加一个动态加载的图标,还有全部数据载完的《到底啦...》 大概这么个样子,之后呢…

【C++ Primer Plus学习记录】第5章复习题

1.入口条件循环和出口条件循环之间的区别是什么?各种C循环分别属于其中的哪一种? C提供了3种循环:for、while和do while循环。for和while循环都是入口条件循环,意味着程序将在执行循环体中的语句之前检查测试条件。do while循环是…

【IDEA】导入项目发现目录消失

错误截图 这个目录里我是有文件的,但是导入到idea后却看不见文件 错误原因: 删除目录的时候不小心将.iml文件给删除了! 解决办法 进入项目结构 选择模块,点击 导入模块 选择需要导入的模块的目录 从现有项目创建模块 --> 下…

智慧用电安全动态监控系统

智慧用电安全动态监控系统是一种先进的电力监控技术系统,它运用物联网、大数据、云计算等先进技术,对电力系统的运行状况进行实时监控和预警。 该系统依托电易云-智慧电力物联网,通过智能传感终端采集电气线路的实时运行数据,客户…

Redis的高可用模式

1. 什么是高可用? 高可用(High Availability, HA)是指在信息技术中确保系统、服务或应用程序在绝大多数时间内都是可操作和可访问的能力。这通常涉及以下几个关键方面: 最小化停机时间: 高可用系统的目标是减少因硬件故障、系统升…

【面试HOT200】二叉树——广度优先搜索篇

系列综述: 💞目的:本系列是个人整理为了秋招面试的,整理期间苛求每个知识点,平衡理解简易度与深入程度。 🥰来源:材料主要源于【CodeTopHot200】进行的,每个知识点的修正和深入主要参…

怎样使用rtsp,rtmp摄像头低延时参于Web视频会议互动直播

业务系统中有大量的rtsp,rtmp等监控直播设备,原大部分都是单一业务监控直播之类,目前很多业务需要会议互动,需要监控参会,提出需摄像头拉流参会的需求,由于rtmp,rtsp原生不支持web播放&#xff…

springboot足球社区管理系统

springboot足球社区管理系统 成品项目已经更新!同学们可以打开链接查看!需要定做的及时联系我!专业团队定做!全程包售后! 2000套项目视频链接:https://pan.baidu.com/s/1N4L3zMQ9nNm8nvEVfIR2pg?pwdekj…

activemq启动成功但web管理页面却无法访问

前提: 在linux启动activemq成功!本地能ping通linux 处理方案: 确定防火墙是否关闭, 有两种处理方案:第一种-关闭防火墙;第二种-暴漏8161和61616两个端口 netstat -lnpt查看8161和61616端口 注意&#xf…

【超全】React学习笔记 下:路由与Redux状态管理

React学习笔记 React系列笔记学习 上篇笔记地址:【超全】React学习笔记 上:基础使用与脚手架 中篇笔记地址:【超全】React学习笔记 中:进阶语法与原理机制 React路由概念与理解使用 1. 引入 React路由是构建单页面应用(SPA, Sin…

【斗破年番】小医仙沐浴以毒攻毒,彩鳞怒杀蝎毕岩,泪目暂时下线

Hello,小伙伴们,我是拾荒君。 《斗破苍穹年番》国漫更新啦!刚更新,拾荒君就和我的小伙伴们去观看了。在斗破年番第73集中,蝎毕岩为了击败萧炎,不惜耗尽全身实力释放出魔毒斑,假装攻击小医仙,却…

C++ 基础篇

目录 C开发概述 C特点 C跨平台的原因 C编译器 C库 操作系统API C基本概念 注释 变量 常量 两种定义常量方式的区别 表示符命名规则 常见的关键字 数据类型 整型 浮点数 字符型 转义字符 字符串型 布尔类型 运算符 算术运算符 赋值运算符 比较运算符 逻…

linux常用命令-find命令与scp命令详解(超详细)

文章目录 前言一、find命令介绍1. find命令简介2. find命令的基本语法3. 常用的find命令选项和表达式 二、find命令示例用法1. 按照名称进行搜索2. 按照类型进行搜索3. 按照修改时间进行搜索4. 按照文件大小进行搜索5. 对搜索到的文件执行指定的命令6. 删除搜索到的文件 三、sc…

affinity好用还是ps好用?2024年最新功能解析

多年来,ps已经有了大量竞争对手。然而每次Photoshop都足以保持其领先地位。开源GIMP和Pixelmator都试图取代Photoshop,不过Photoshop对此不屑一顾。英国Serif公司研发了一款名为Affinity Photo的软件,声称可以叫板ps。今天我们看看有最有可能…

KRaft使用SASL_PLAINTEXT进行认证

需要有KRaft相关的基础,才行。可参阅之前学习记录Kafka 一、配置 首先需要了解SASL的含义,SASL全称为Simple Authentication and Security Layer,它主要是用于在客户端和服务器之间提供安全的身份验证机制。 Kafka 支持以下几种 SASL 验证…

【vue】尚硅谷vue3学习笔记

Vue3快速上手 1.Vue3简介 2020年9月18日,Vue.js发布3.0版本,代号:One Piece(海贼王)耗时2年多、2600次提交、30个RFC、600次PR、99位贡献者github上的tags地址:https://github.com/vuejs/vue-next/release…

【C语言之 CJson】学CJson看这一篇就够了

文章目录 前言一、下载CJson二、创建一个json2.1 创建json对象cJSON类型详解 2.2 创建键值对2.3 添加嵌套的 JSON 对象2.4 添加数组创建数组添加元素到数组添加数组到obj 2.5 将 JSON 对象转为字符串2.6 释放内存2.7 示例代码 三、解析json3.1 解析json root3.2 把一个key解析出…

SSM框架(六):SpringBoot技术及整合SSM

文章目录 一、概述1.1 简介1.2 起步依赖1.3 入门案例1.4 快速启动 二、基础配置2.1 三种配置文件方式2.2 yaml文件格式2.3 yaml读取数据方式(3种) 三、多环境开发3.1 yml文件-多环境开发3.2 properties文件-多环境开发3.3 多环境命令行启动参数设置3.4 多…