网卡bond和信息查看 EDACDIMMCEError错误导致服务器重启

news2024/11/22 21:19:08

https://blog.csdn.net/weixin_45720992?spm=1001.2101.3001.5343

EDACDIMMCEError错误导致服务器重启
现象:

最近几天一个华为RH2285服务器一直不定时自动重启,基本每天一两次,查看系统日志报下面的错误,每秒记录一条错误日志

OS:OEL 6.5

$ more /var/log/message

Jul 21 08:54:32 customerkernel: EDAC MC1: 5486 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:33 customerkernel: EDAC MC1: 11480 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:34 customerkernel: EDAC MC1: 11330 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:35 customerkernel: EDAC MC1: 6584 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:36 customerkernel: EDAC MC1: 27428 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:37 customerkernel: EDAC MC1: 30113 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:38 customerkernel: EDAC MC1: 4453 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:39 customerkernel: EDAC MC1: 6269 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:40 customer kernel:EDAC MC1: 15720 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1 page:0x0offset:0x0 grain:8 syndrome:0x0)

Jul 21 08:54:41 customerkernel: EDAC MC1: 16107 CE error on CPU#1Channel#2_DIMM#1 (channel:2 slot:1page:0x0 offset:0x0 grain:8 syndrome:0x0)

分析解决:

这个是EDAC (Error Detection AndCorrection) 的日志.

CE Error 是 Correctable Error 的简称,另外还有 UE(Uncorrectable Error)

按照上面的文档, 找出错误的DIMM:

[root@customer log]# grep “[0-9]” /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count

/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow0/ch3_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow0/ch4_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow1/ch3_ce_count:0

/sys/devices/system/edac/mc/mc0/csrow1/ch4_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow0/ch3_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow0/ch4_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow1/ch3_ce_count:0

/sys/devices/system/edac/mc/mc1/csrow1/ch4_ce_count:554836518

count:不为0的行即代表存在内存错误。
mc:第几个CPU。
csrow:内存通道。
ch
:通道内的第几根内存。
*

查到是 /mc1/csrow1/ch4, 根据结构图:

Channel 0 Channel 1

===================================

csrow0 | DIMM_A0 | DIMM_B0 |

csrow1 | DIMM_A0 | DIMM_B0 |

===================================

===================================

csrow2 | DIMM_A1 | DIMM_B1 |

csrow3 | DIMM_A1 | DIMM_B1 |

===================================

然后通过dmidecode查看:

[root@customer log]# dmidecode -t memory |grep ‘Locator: DIMM’

Locator: DIMM_D0

Locator: DIMM_D1

Locator: DIMM_E0

Locator: DIMM_E1

Locator: DIMM_F0

Locator: DIMM_F1

Locator: DIMM_A0

Locator: DIMM_A1

Locator: DIMM_B0

Locator: DIMM_B1

Locator: DIMM_C0

Locator: DIMM_C1

通过服务器控制台查看内存:
在这里插入图片描述
在这里插入图片描述

结合报错日志:kernel: EDAC MC1: 16107 CE error on CPU#1Channel#2_DIMM#1 (channel:2slot:1

应该是内存插槽DIMM_F1的问题。

解决:

最后我们要做的就是,把有问题的F1插槽上的内存拔出来或是更换到其它的内存插槽上面,之后系统启动后不再报错。

参考:

http://blog.tankywoo.com/2014/12/02/edac-dimm-ce-error.html

http://serverfault.com/questions/648240/how-can-i-find-which-memory-have-ce-error

http://www.taodudu.cc/news/show-3468474.html?action=onClick

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1003599.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单位固定资产应该怎么管理

对于单位固定资产的管理,更是需要我们以创新的方式,以科技的手段,以严谨的态度来对待。那么,单位固定资产应该如何进行有效的管理呢? 建立一个完善的资产管理系统  我们需要建立一个完善的资产管理系统。这个系统应…

图片怎么压缩大小?这样压缩图片很简单

在日常生活中,我们常常需要处理各种各样的图片文件,但有时候图片的大小可能会成为问题。比如在上传图片到网站或者将图片发送给朋友时,过大的图片可能会导致上传速度变慢或者占用过多内存。这时,我们就需要用到图片压缩了&#xf…

从“白人饭”到美味佳肴,拓世AI为你打造独一无二的饮食计划

最近“白人饭”作为一种饮食方式在社交媒体上火了,成为打工人新的“午餐之光”。所谓“白人饭”,就是花最少的功夫准备仅仅能维系基本器官正常运作的食物,主打生吃或者简单炒,比如一个丹麦网友晒出的同事的午饭就是几根小胡萝卜和…

【UE】刀光粒子效果——part2 材质函数部分

效果 步骤 1. 新建一个材质函数,这里命名为“MF_TextureCommon” 2. 新建一个材质,这里命名为“Mat_GuangBan1”,添加如下节点 3. 接下来将该材质的逻辑添加到材质函数上,复制材质“Mat_GuangBan1”中的如下节点,粘贴…

虚拟机挂起后再解挂后网络图标消失,没有网络/虚拟机ubuntu系统没有网络

现象描述: 本人虚拟机跑的是Ubuntu20.04的系统,每次当我挂起虚拟机后,再次打开虚拟机的时候网络图标就会消失,如下图 而实际有网的样子如下图 解决办法: 方法一:重启网络编辑器 sudo service network-ma…

FlowJo 10.4.0(流式细胞分析器工具)

FlowJo mac是一款流式细胞仪数据分析软件,广泛用于生物医学研究领域。它提供了强大的功能和直观的用户界面,使用户能够对流式细胞仪收集的数据进行高级分析和可视化。 FlowJo for mac具有以下主要特点: 数据导入和预处理:FlowJo支…

写代码中碰到的错误

bind绑定类内成员导致 "no matching function for call to ..." 当bind绑定类内成员时,需要指明绑定的成员所在类的位置。 上面未指明Remove函数在哪个类中从而导致错误。 此外 bind 的函数指针类型是const类型的,都需要添加 const 修饰。 S…

华为云云耀云服务器L实例评测 | 瑞吉外卖下载与部署

本篇博客将会带着大家从0到1 搭建后端程序员无人不知的 瑞吉外卖 项目! 如果对您有帮助欢迎三连加关注一波支持! 首先向大家简单介绍一下《瑞吉外卖》: 瑞吉外卖 对象转换器 公共字段自动填充 文件上传/下载 阿里云短信_软工菜鸡的博客-CSDN博…

企业网上订货管理系统APP|订单管理软件介绍

企业网上订货管理系统APP|订单管理软件介绍 订货系统可解决,不同客户不同价格,客户登录订货端后即可通过订货端设置好的类型打折方式进行显示订货的客户应该看到的订货价格。 系统主要用于公司和订货商建立订货关系,绑定订货商 属于是 经销商…

win11设置固定IP

1 3. 4.设置ip 5.点击保存就大功告成拉

Pyspark综合案例(pyspark安装和java运行环境配置)

一、RDD对象 PySpark支持多种数据的输入,在输入完成后,都会得到一个:RDD类的对象 RDD全称为:弹性分布式数据集(Resilient Distributed Datasets) PySpark针对数据的处理,都是以RDD对象作为载…

Python灰帽编程——初识Python上

1. Python 简介 常用安全工具语言示例perljoomscan whatwebrubymetasploit-frameworkpythonsqlmap pocsuite3gogoby 1.1 Python 起源 1.1.1 语言的作者 贵铎范罗萨姆(Guido van Rossum)荷兰人于1989 年圣诞节始创了python。 大神就是大神&#xff0…

TypeScript 类

类在面向对象编程中起着创建对象的蓝图,描述所创建的对象共同的属性和方法的作用。 创建类 与JS差不多,通过 Class 关键字来定义一个类: class Greeter {// 静态属性static cname: string "Greeter";// 成员属性greeting: strin…

音乐格式转换mp3怎么转?跟着步骤操作一遍

音乐格式转换mp3怎么转?mp3,一种音频数据压缩格式,由于其极具优势的文件尺寸小和高质量音效,自诞生之日起就占据了主流音乐格式的头把交椅,并且至今仍然受到用户的青睐,稳居音乐领域的霸主地位。在我们繁忙…

Postman接口压力测试 ---- Tests使用(断言)

所谓断言,主要用于测试返回的数据结果进行匹配判断,匹配成功返回PASS,失败返回FAIL。 下图方法一,直接点击右侧例子函数,会自动生成出现在左侧窗口脚本,只需修改数据即可。 方法二:直接自己写脚…

前端实现页面通过canvas添加全屏水印

写在前面,博主是个在北京打拼的码农,从事前端工作5年了,做过十多个大大小小不同类型的项目,最近心血来潮在这儿写点东西,欢迎大家多多指教。 对于文章中出现的任何错误请大家批评指出,一定及时修改。有任何…

【STM32】片上ADC的初步使用

基于stm32f103系列 基于《零死角玩转 STM32F103—指南者》 ADC简介 stm32f103上的ADC 数量:3 精度:12bit(4096) 通道:ADC1,ADC2均有16个通道,ADC3有8个 功能:   转换结束、注入转换结束和发生模拟看门狗事件时产生中断。   …

Git入门图文教程(深入浅出,详细了解Git,以及操作)

01、认识一下Git!—简介 Git是当前最先进、最主流的分布式版本控制系统,免费、开源!核心能力就是版本控制。再具体一点,就是面向代码文件的版本控制,代码的任何修改历史都会被记录管理起来,意味着可以恢复…

HCS 中的一些概念

一、HCS功能层 1、基础设施:服务器、存储、网络、防火墙…… 2、资源池:Fusion Sphere OpenStack资源池、虚拟化资源池、裸金属服务器池、块存储池、文件存储池、网络资源池灾备资源池…… 3、管理域:ManageOne提供多个数据中心的统一管理和调…

解决:华为ensp软件中AR和AC,AP设备无法启动报错“40”的问题

AR为路由器设备,AC,AP为无线局域网设备。 报错信息 报错原因以及解决方案: 1.系统虚拟化hyper-v正在运行 计算机安装过virtualBox,Vmvere之类的虚拟化软件,默认系统虚拟化安全性属于运行状态。 解决方案: 1.搜索cm…