大数据-之LibrA数据库系统告警处理(ALM-12045 网络读包丢包率超过阈值)

news2024/11/17 21:32:24
告警解释

系统每30秒周期性检测网络读包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包丢包率连续多次(默认值为5)超过阈值时产生该告警。

用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”修改阈值。

平滑次数为1,网络读包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包丢包率小于或等于阈值的90%时,告警恢复。

该告警检测默认关闭。若需要开启,请根据“检查系统环境”步骤,确认该系统是否可以开启该告警发送。

告警属性

告警ID

告警级别

可自动清除

12045

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

NetworkCardName

产生告警的网口名。

Trigger Condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

业务性能下降或者个别业务出现超时问题。

风险提示:在SUSE内核版本3.0以上或RedHat 7.2版本,由于系统内核修改了网络读包丢包数的计数机制,在该系统下,即使网络正常运行,也可能会导致该告警出现,对业务无影响,建议优先按照“检查系统环境”进行排查。

可能原因
  • 操作系统问题。
  • 网卡配置了主备bond模式。
  • 告警阈值配置不合理。
  • 网络环境异常。
处理步骤

查看网络丢包率

  1. 使用PuTTY工具,以omm用户登录集群中任意非告警节点,执行ping 告警节点IP地址 -c 100命令检查网络中是否存在丢包。

     说明: 
      
    • 告警节点IP地址:根据告警定位信息中的HostName字段值,在FusionInsight Manager的“主机管理”界面查询对应的IP地址,管理平面和业务平面IP都需要检查。
    • -c参数:检查次数,默认100次。
    • 是,执行步骤 10。
    • 否,执行步骤 2。

检查系统环境

  1. 使用PuTTY工具,以omm用户登录主OMS节点或者告警所在节点。
  2. 执行cat /etc/*-release命令,确认操作系统的类型。

    • RedHat,执行步骤 4。
       
    • SuSE,执行步骤 5。
       
    • 其他,执行步骤 10。

  3. 执行cat /etc/redhat-release命令,查询操作系统版本是否为RedHat 7.2。

     
      
    • 是,不能开启告警发送,执行步骤 6。
    • 否,执行步骤 10。

  4. 执行cat /proc/version命令,查询SuSE内核版本是否为3.0及以上。

    # cat /proc/version
    Linux version 3.0.101-63-default (geeko@buildhost) (gcc version 4.3.4 [gcc-4_3-branch revision 152973] (SUSE Linux) ) #1 SMP Tue Jun 23 16:02:31 UTC 2015 (4b89d0c)
    • 是,不能开启告警发送,执行步骤 6。
    • 否,执行步骤 10。

  5. 登录FusionInsight Manager,进入“系统设置 > 配置 > 阈值配置”页面。
  6. 在“阈值配置”页面左侧树形结构中选择“网络读信息 > 网络读包率信息 > 读包丢包率”,在弹出的右侧信息中,查看“发送告警”是否已经勾选。
  • 是,说明开启了告警发送,执行步骤 8。
  • 否,已经关闭告警发送,执行步骤 9。

 7.在弹出的右侧信息中,去勾选“发送告警”,屏蔽对“网络读包丢包率超过阈值”的检测,操作后的结果如下图所示。

  1. 8.在FusionInsight Manager的“告警管理”界面,搜索“12045”告警,将未自动清除的该告警全部手动清除,处理完毕。

检查网卡是否配置了主备bond模式

  1. 使用PuTTY工具,以omm用户登录告警所在节点,执行ls -l /proc/net/bonding命令,查看该节点是否存在“/proc/net/bonding”目录。

    • 是, 如下所示,则该节点配置了bond模式,执行步骤 11。
      # ls -l /proc/net/bonding/
      total 0
      -r--r--r-- 1 root root 0 Oct 11 17:35 bond0
    • 否,如下所示,则该节点未配置bond模式,执行步骤 13。
      # ls -l /proc/net/bonding/
      ls: cannot access /proc/net/bonding/: No such file or directory

  2. 执行cat /proc/net/bonding/bond0命令,查看配置文件中Bonding Mode参数的值是否为fault-tolerance。

    说明:

    bond0为bond配置文件名称,请以步骤 10查询出的文件名称为准。

    # cat /proc/net/bonding/bond0 
    Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011)
    
    Bonding Mode: fault-tolerance (active-backup)
    Primary Slave: eth1 (primary_reselect always)
    Currently Active Slave: eth1
    MII Status: up
    MII Polling Interval (ms): 100
    Up Delay (ms): 0
    Down Delay (ms): 0
    
    Slave Interface: eth0
    MII Status: up
    Speed: 1000 Mbps
    Duplex: full
    Link Failure Count: 1
    Slave queue ID: 0
    
    Slave Interface: eth1
    MII Status: up
    Speed: 1000 Mbps
    Duplex: full
    Link Failure Count: 1
    Slave queue ID: 0
    • 是,该环境的网卡为主备bond模式,执行步骤 12。
    • 否,执行步骤 13。

  3. 检查该告警详情中NetworkCardName参数对应的网卡是否为备网卡。

    • 是,备网卡的告警无法自动恢复,请在告警管理页面手动清除该告警,处理完毕。
    • 否,执行步骤 13。 

 说明:

备网卡判断方式:查看配置文件/proc/net/bonding/bond0,NetworkCardName参数对应的网卡名称等于其中一个Slave Interface,但是不等于Currently Active Slave(当前主网卡),则该网卡为备网卡

检查阈值设置是否合理。

  1. 登录FusionInsight Manager,查看该告警阈值是否合理(默认0.5%为合理值,用户可以根据自己的实际需求调整)。

    • 是,执行步骤 16。
    • 否,执行步骤 14。

  2. 根据实际服务的使用情况在“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”中更改告警阈值。如图1所示。

    图1 设置告警阈值

  3. 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 16。

检查网络是否异常。

  1. 联系系统管理员,检查网络是否存在异常。

    • 是,恢复网络故障,执行步骤 17。
    • 否,执行步骤 18。

  2. 等待5分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 18。

收集故障信息。

  1. 在主集群的FusionInsight Manager界面,单击“系统设置 > 日志下载”。
  2. 在“服务”下拉框中勾选“Manager”,单击“确定”。
  3. 设置“主机”为告警所在节点和主OMS节点。
  4. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1211197.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Flink】Flink任务缺失Jobmanager日志的问题排查

Flink任务缺失Jobmanager日志的问题排查 问题不是大问题,不是什么代码级别的高深问题,也没有影响任务运行,纯粹因为人员粗心导致,记录一下排查的过程。 问题描述 一个生产环境的奇怪问题,环境是flink1.15.0 on yarn…

【腾讯云 HAI域探秘】浅尝一番AI绘画

前言 腾讯云高性能应用服务 HAI 是为开发者量身打造的澎湃算力平台。无需复杂配置,便可享受即开即用的GPU云服务体验。 我之前也参与锅一个AI绘画的活动,是基于InsCode的,都可以在线训练大模型,开发自己的AI应用程序。 这次腾讯…

最强大模型训练芯片H200发布!141G大内存,AI推理最高提升90%,还兼容H100

梦晨 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达老黄,带着新一代GPU芯片H200再次炸场。 官网毫不客气就直说了,“世界最强GPU,专为AI和超算打造”。 听说所有AI公司都抱怨内存不够? 这回直接141GB大内存,与…

java调用GDAL向GeoPackage写入数据慢的解决方法

目录 一、问题描述 二、解决方法 三、代码例子 四、总结 一、问题描述 GeoPackage(简称“GPKG”)是本地化的轻量地理数据库,在一次使用GDAL函数创建GeoPackage的时候,直接用了原先写过的写Shapefile属性的代码(大…

企业云盘:作用和特点全解析

一、什么是企业云盘? 企业云盘是基于云计算理念推出的企业数据网络存储和管理解决方案,利用互联网后台数据中心的海量计算和存储能力为企业提供数据汇总分发、存储备份和管理等服务。 简单来讲,企业云盘其实就是企业网盘,是一种为…

那些让我苦笑不得的 Bug:编码之路的坎坷经历

文章目录 1. CSS 中的样式“消失”问题2. JavaScript 的变量命名引发的混乱3. 时间格式的困扰4. 数据库查询条件引发的错误结语 🎉欢迎来到Java学习路线专栏~那些让我苦笑不得的 Bug:编码之路的坎坷经历 ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨…

十大适合外贸企业邮箱的Gmail替代品推荐

电子邮件仍然是许多人选择的媒介,因为它是交换信息的最可靠和正式的方法。无论是个人还是小型企业,电子邮件仍然是个人和专业用途的重要通信工具。它提供了一种安全、可靠且正式的方法来交换信息和文档以及共享文件。 对于大多数人来说,Googl…

Vue中的watch的使用

先看下Vue运行机制图 那么我们思考一件事,vue是通过watcher监听数据的变化然后给发布-订阅,这样实现了dom的渲染,那么我们思考一件事,我们往往需要知道一个数据的变化然后给页面相应的渲染,那么我们工作中在组件中的数…

python安装pip install报错Could not fetch URL https://pypi.org/simple/pip/...更换镜像源

更换镜像源 一. 现象pycharm使用 pip install xxx安装包时,一直报错: 二. 原因:三. 解决办法:一. 临时使用二. 永久更改三. 永久更改1. Windowswindows环境下Windows(示例win10) 2. Linux or Mac3. Pycharm…

下一代VPN工具:体验TailScale的简便和高效

目录 一、概要VPN 是什么?TailScale 是什么 二、使用1、注册2、下载安装3、 Windows4、Linux5、 Android6、测试 三、Nginx整合Tailscale做端口转发 一、概要 VPN 是什么? 看到 VPN 第一反应应该是翻墙,但 VPN 最初应该也是最普遍的用途应该…

亚马逊鲲鹏系统可全自动化批量操作亚马逊买家号

亚马逊鲲鹏系统可以注册买家号、智能养号、自动下单、自动留评、QA等,是一款从注册到下单于一体的软件。 如果想要自动化注册,那么准备好账号所需要的邮箱、ip、手机号之后就可以进行自动注册了,注册时可以自动输入账号密码信息、自动接收验证…

spring cloud alibaba 之哨兵(sentinel)

sentinel (哨兵) 简介 # 官网 - https://spring-cloud-alibaba-group.github.io/github-pages/hoxton/en-us/index.html#_spring_cloud_alibaba_sentinel # github - https://github.com/alibaba/Sentinel/wiki# 简介 - 随着微服务的普及,服务调用的稳定性变得越来…

HPC 工作负载管理 —— IBM Spectrum LSF Suite

全面的工作负载管理解决方案,通过增强用户和管理员体验以及实现规模性能来简化 HPC。 IBM Spectrum LSF Suites 是面向分布式高性能计算 (HPC) 的工作负载管理平台和作业调度程序。基于 Terraform 的自动化现已可用,该功能可在 IBM Cloud 上为基于 IBM …

2023年亚太杯APMCM数学建模大赛数据分析题MySQL的使用

2023年亚太杯APMCM数学建模大赛 以2022年C题全球变暖数据为例 数据分析: 以2022年亚太杯数学建模C题为例,首先在navicat建数据库然后右键“表”,单击“导入向导”,选择对应的数据格式及字符集进行数据导入 导入之后&#xff0c…

录音频用什么软件?助你轻松捕捉声音!

“有没有什么录音频的软件推荐呀?学校要求拍摄一个关于交通安全的纪录片,现在视频拍摄好了,音频却出了问题,需要重新补录声音,但是找不到合适的录音频软件,有人知道吗?” 录制音频是我们在工作…

冯诺依曼体系和操作系统简单介绍

冯诺依曼体系和操作系统简单介绍 冯诺依曼体系 输入设备:键盘,话筒,摄像头,usb,鼠标,磁盘/ssd,网卡等等输出设备:显示器,喇叭,打印机,磁盘&#…

xstream实现xml和java bean 互相转换

目录 pom引用java bean 类XML 转换工具类测试类执行结果注意问题 JAXB方式见: JAXB实现XML和Bean相互转换 Java中实现XML和Bean的转换的方式或插件有以下几种: JAXB(Java Architecture for XML Binding):JAXB是Java …

优化了

v2.0.2版本在 github 发布了。 ## 优化的功能 优化(定时任务): 测试计划与定时任务模块进行了合并,极大的简化了操作步聚。 1、前端页面,测试计划plan,加入1个接口,设置每分钟运行1次。 2、开启定时任务服务,后台日志 …

微信小程序H5 uniapp

最近微信小程序对有视频播放的审核严,需要提供“文娱类资质”。而申请这个资质比较繁琐。所以我们在小程序上用web-view做跳转到H5,H5使用uniapp编写。这是小程序关于web-view文档说明。https://developers.weixin.qq.com/miniprogram/dev/component/web…

NI MIMO原型验证系统硬件介绍 已更新 2023年1月6日

https://www.ni.com/zh-cn/shop/wireless-design-test/what-is-the-mimo-prototyping-system/introduction-to-the-ni-mimo-prototyping-system-hardware.html 概览 随着采用无线连接方式的设备大量涌现,迫切需要研发可满足更高数据与容量需求的无线技术。来势汹汹…