超融合系统疑难故障定位与解决实践 3 例(含信创技术栈)

news2024/10/1 3:27:29

当 IT 系统出现故障,问题定位往往是运维人员最头疼的环节。尤其是超融合系统,由于整体涉及的技术栈比较复杂,且有越来越多的用户基于信创环境进行部署,非常考验厂商和技术人员的专业能力:厂商研发和售后工程师不仅应能快速定位自家产品的问题,还可帮助用户定位和解决相关硬件、存储、虚拟化、宿主机操作系统等不同层面的故障。

得益于核心组件的自主研发能力、深度的信创生态支持和专业的技术团队实力,SmartX 可为用户提供“全栈”的超融合系统故障定位与解决支持,帮助用户解决基础设施软硬件(含信创技术栈)多个层面的技术问题。下面,我们将通过 3 个案例,分享 SmartX 技术人员在硬件、虚拟化平台和虚拟机层面的故障定位与处理经验。

服务器硬件层问题定位与解决案例

某制造企业:存储出现过长延迟,SmartX 工程师分析日志发现“可疑”SSD

某制造业用户在使用 SmartX 超融合时多次触发“存储平均延迟超过 2s”的告警(未产生使用影响)。得到联系后,SmartX 工程师为客户提供了远程排查,发现所有节点均存在零星的 Slow I/O,但并没有检测到异常磁盘。工程师进一步检查了各个节点的日志,发现在发生 Slow I/O 时存在异常日志:

hci-fault-locating-1.png

一线工程师与开发团队共同分析后,判断该日志为 SSD I/O 太慢导致的。经过进一步排查,工程师排除了 HBA 卡的问题,在检查 SSD 时,发现服务器厂商提供的硬件与客户要求的不一致,可能由于 SSD 兼容性问题导致 I/O 延迟。随后 SmartX 帮助用户多次与服务器供应商及硬件厂商沟通、测试,证实该 SSD 确实不符合客户预期,且由于硬盘自身的资源回收机制存在问题,会导致性能下降,因此触发了告警。SmartX 随即协助客户完成了 SSD 更换,有效解决了这一问题。

信创技术栈虚拟化平台层问题定位与解决案例

某金融机构:虚拟机突然暂停,SmartX 工程师发现 KVM 内存申请问题并提供 Kernel Patch

某金融机构在 ARM 架构信创环境部署 SmartX 超融合集群(基于原生虚拟化 ELF),在正常运行时,发生虚拟机暂停现象,从运维管理界面观察到虚拟机处于暂停状态,无法 ping 通,无法对外提供服务。

为了方便故障排查,同时保证当前业务的正常进行,SmartX 工程师利用 SmartX 超融合快速克隆功能新建一台虚拟机供用户临时使用,随后协助用户进行远程诊断。在检查日志时,SmartX 工程师发现“kernel: kvm[74555]: Unexpected L2 read permission error”记录,且发生时间与虚拟机暂停的时间点基本吻合。基于这一线索,工程师高度怀疑虚拟机暂停与 KVM 有关,并协调服务器厂商一起进行问题排查。

hci-fault-locating-2.png

为了避免再发生虚拟机暂停的情况,SmartX 先为用户提供了一个临时方案,该方案能够在 2 分钟内发现暂停的虚拟机,并以邮件方式通知管理员,由管理员操作恢复虚拟机。同时,SmartX 开发团队在进一步分析后发现了问题原因:当虚拟机里产生缺页中断,会进入 KVM 申请内存,这时 KVM 对内存页交换条件进行了错误判断,导致虚拟机申请内存失败,进而导致暂停。

定位问题后,SmartX 开发团队在一周内就提供了 Kernel Patch,通过仅修改判断条件而不改动 Kernel 和 Swap 的方式解决了该问题。用户在测试集群更新 Patch 包后,虚拟机正常运行,并于 3 周后对生产集群进行了升级,再未出现虚拟机暂停的情况。

信创技术栈虚拟机层问题定位与解决案例

某金融机构:信创集群切换虚拟网络后网卡丢失,SmartX 工程师多次测试定位网卡热插拔速率

某金融用户信创超融合集群(基于 ARM 架构的信创操作系统)在编辑虚拟网卡关联网络后,发生虚拟机网卡丢失的现象。SmartX 工程师在初步检查后,发现用户原 POC 环境中并未出现该问题,再次测试验证后,初步判断该问题是由于跨 VDS 修改网卡网络导致的:在正式集群中,虚拟机网卡关联网络跨越了不同的 VDS,可能存在虚拟机内部无法识别网卡的情况,而 POC 环境不存在跨 VDS 的情况。

为了进一步准确根因,SmartX 研发团队检查了 Guest OS 内部日志,并开展了多次复现测试,针对虚拟机开关机状态、虚拟 PCI 插槽、热插拔时间间隔等因素进行逐一排查。最后发现,仅当 Guest OS 为某国产操作系统特定版本时,基于同一虚拟 PCI 插槽执行热拔设备后立即执行热插设备操作,操作系统的 Kernel pciehp 驱动中断处理异常,会导致热插设备被自动卸载。后经研发团队反复测试,将安全热插拔间隔时间确定在 3 秒及以上。

针对这一问题,SmartX 为用户提供了 Patch,确保用户在该操作系统上能够正常进行网络切换,随后与操作系统厂商进行了沟通,由操作系统厂商进一步定位并修复了该问题。

SmartX 超融合:自研核心技术助力全栈故障根因

SmartX 技术团队卓越的故障定位与解决能力,不仅源自于过硬的专业技能,更得益于 SmartX 核心组件自主研发,和信创技术栈的深度适配:

  • 超融合核心组件 100% 自主可控,SmartX 一线工程师和开发团队具备过硬的基础设施软硬件技术实力和丰富的故障根因经验,帮助用户解决多个层面的技术问题。
  • 深度适配国产主流 CPU 架构、操作系统、数据库与中间件,可为用户提供针对信创技术栈的技术支持。
  • SmartX 超融合的高可用与简易运维特性,可在降低故障定位难度的同时保障业务连续性。

欲详细了解 SmartX 超融合信创适配与运维支持特性,请阅读:

  • SmartX 超融合和分布式存储支持哪些信创硬件?如何选型配置?
  • 志凌海纳 SmartX 在信创:已成为金融机构“轻量信创云底座”首选
  • 一文了解 SmartX 超融合硬盘健康检测机制与运维实践
  • 一文了解 SmartX 超融合勒索攻击应对方案​​​​​​

您还可点击阅读电子书《超融合技术原理与特性解析合集:管理与运维》,了解 SmartX 超融合如何通过磁盘健康检测、存储性能管理、弹性扩容等特性,降低用户运维压力。

阅读原文:超融合系统疑难故障定位与解决实践 3 例(含信创技术栈)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1406977.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

web安全学习笔记【07】——非http\https抓包

#知识点: 1、Web常规-系统&中间件&数据库&源码等 2、Web其他-前后端&软件&Docker&分配站等 3、Web拓展-CDN&WAF&OSS&反向&负载均衡等 ----------------------------------- 1、APP架构-封装&原生态&H5&flutter…

2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!

一些结论 沉浸式翻译是一款免费的AI驱动的双语网页翻译扩展工具。 主要功能包括:一键网页翻译,PDF翻译,输入框翻译,鼠标悬停翻译等多种翻译场景。 目前核心功能均免费使用。 沉浸式翻译是什么? 沉浸式翻译是一款免费的…

低噪声放大器LNA 之 噪声系数

​ 一、噪声系数的定义 在定义噪声系数之前,先看一个放大器输入输出端信噪比(信号功率与噪声功率之比,写作SNR) 对比图: ​​从上图可用看出,从输入端到输出端,信号和噪声功率都得到了放大&…

5G网络变压器应用领域

5G网络变压器在多个应用领域发挥着重要作用。以下是一些主要的应用领域: 1. **通信基站:** 5G网络变压器在通信基站中扮演关键角色。它们用于转换电力,确保通信基站设备的正常运行。稳定的电力供应对于保障高速、高频率的5G通信至关重要。 …

计算机网络-以太网链路聚合简介

一、网络可靠性是什么? 网络的可靠性指当设备或者链路出现单点或者多点故障时保证网络服务不间断的能力。 实际工作中网络需要保证可靠性,实现冗余设计。会从三个层次实现: 链路冗余 单板冗余 整机设备冗余 网络的可靠性指当设备或者链路出现…

【操作系统】实验三 编译 Linux 内核

🕺作者: 主页 我的专栏C语言从0到1探秘C数据结构从0到1探秘Linux 😘欢迎关注:👍点赞🙌收藏✍️留言 🏇码字不易,你的👍点赞🙌收藏❤️关注对我真的很重要&…

《WebKit 技术内幕》学习之十二(1):安全机制

第12章 安全机制 安全机制对于浏览器和渲染引擎来说至关重要。一个不考虑安全机制的HTML5规范体系肯定不会受到广泛地使用,同时一个不安全的浏览器也不会得到广大用户的青睐。本章介绍的安全机制分成两个不同的部分,第一个部分是网页的安全,…

EVRPD-44U电机保护器参数设置您了解了么?

EVRPD-44U电机保护器是一款用于电动机保护的设备,其产品参数设置如下: 额定电流:EVRPD-44U电机保护器的额定电流为5-80A,可以根据实际负载电流进行选择。启动时间:电机保护器的启动时间可以通过设置菜单进行修改&…

动态规划解决马尔可夫决策过程

马尔可夫决策过程是强化学习中的基本问题模型之一,而解决马尔可夫决策过程的方法我们统称为强化学习算法。 动态规划( dynamic programming, DP )具体指的是在某些复杂问题中,将问题转化为若干个子问题,并在求解每个子…

实用VBA:17.大量word文件中的文本内容进行批量替换

1.需求场景 在工作中可能会遇到需要对大量word文件中的文字内容进行批量替换的情况。相比excel的批量处理,个人感觉word文档中由于包含大量样式信息,批处理时总感觉有顾虑。一者担心影响了文档的格式,误修改了文档的样式,那后果……

9.scala 伴生对象、伴生类、case class、case object

目录 概述伴生case 相关特性结束 概述 比较 case class vs class 1.toString equals hashcode 重写 2.不用 new 3.默认实现了序列化接口 case class vs case object 1.case class 修饰的类,必须要有参数列表 2.case object 修饰的对象,必须不能有参数列…

Redis(发布订阅、事务、redis整合springboot、集成 Spring Cache)

目录 一.redis的发布订阅 1、什么 是发布和订阅 2、Redis的发布和订阅 3、发布订阅的代码实现 二.Redis事务 1.事务简介 1、在事务执行之前 如果监听的key的值有变化就不能执行 2、在事务执行之前 如果监听的key的值没有变化就能执行 3、Exec之前就出现错误 4、Exec之…

多窗口大小和Ticker分组的Pandas滚动平均值

最近一个学弟在在进行数据分析时,经常需要计算不同时间窗口的滚动平均线。当数据是多维度的,比如包含多个股票或商品的每日价格时,我们可能需要为每个维度计算滚动平均线。然而,如果我们使用传统的groupby和apply方法,…

小红书商品笔记发布流程,如何避免盘营销

随着平台营销内容不断被管制,商品笔记慢慢出现在了人们的视野,这同时也意味着达人和品牌方们,可以名正言顺的在笔记内容中植入产品。商品链接的开通意味着,不管是达人还是品牌转化率都会进一步提升,今天来马文化传媒和…

遇到流氓软件无法删除?强制删除文件解救你!

在使用电脑的过程中,我们有时会遇到一些文件无法正常删除的情况,这可能是由于文件被其他程序占用或者权限问题。本文将介绍三种常见的方法,详细解释如何在电脑上强制删除文件,以便用户在面对这一问题时能够快速解决。 方法1&#…

数据挖掘笔记1

课程:清华大学-数据挖掘:理论与算法(国家级精品课)_哔哩哔哩_bilibili 一、Learning Resources 二、Data 数据是最底层的一种表现形式。数据具有连续性。从存储上来讲,数据分为逻辑上的和物理层的。大数据&#xff1…

python-分享篇-代码雨

文章目录 代码效果 代码 import sys import random import pygame from pygame.locals import *# 屏幕大小 WIDTH 800 HEIGHT 600 # 下落速度范围 SPEED [15, 30] # 字母大小范围 SIZE [5, 30] # CODE长度范围 LEN [1, 8]# 随机生成一个颜色 def randomColor():return (r…

按条件自动搜索文件

在计算机的某个文件夹中,假如有一大堆不同格式的文件,如下图: 我们的目的:快速查找出文件名中包含某文字内容的指定格式的文件,看看它们都放在哪里?通过分析,可能在当前文件夹中也可能在某个子…

【寒假打卡】Day01

文章目录 选择编程HJ99 自守数OR86 返回小于 N 的质数个数 选择 如下代码输出的是什么( ) char a101; int sum200; a27;suma; printf("%d\n",sum);A: 32 B: 99 C: 328 D: 72 答案: C 解析: 首先,char a …

Idea Community社区版如何添加Run Dashboard

最近在学习spring cloud,跟着视频添加run dashboard,发现里面介绍的方法无法适用于idea community(社区版)。 然后自己研究了一下,成功添加,下面分享自己的方法。 如图,我的项目里添加了两个module,我想通…