K8s环境下监控告警平台搭建及配置

news2024/11/25 0:49:07

Promethues是可以单机搭建的,参考prometheus入门[1]

本文是就Promethues+Grafana在K8s环境下的搭建及配置


Prometheus度量指标监控平台简介


  • 启动minikube minikube start

  • 安装helm

使用Helm Chart 安装 Prometheus Operator:

helm install prometheus-operator stable/prometheus-operator -n monitoring

报错:

WARNING: This chart is deprecated
Error: INSTALLATION FAILED: failed to install CRD crds/crd-alertmanager.yaml: resource mapping not found for name: "alertmanagers.monitoring.coreos.com" namespace: "" from "": no matches for kind "CustomResourceDefinition" in version "apiextensions.k8s.io/v1beta1"
ensure CRDs are installed first

根据 Kubernetes和微服务监控体系[2](搜索"降低我们的版本")

降低minikube版本: minikube start --kubernetes-version=v1.20.3

(这步可能会卡着不动等半天,耐心等待即可~)

alt
alt

解决该问题后继续:

kubectl create ns monitoring

helm install prometheus-operator stable/prometheus-operator -n monitoring

alt
alt

要等一会儿,全部pod才能都启动起来~

alt

Promethues-Operator基本功能展示


访问prometheus内置浏览器


kubectl port-forward -n monitoring prometheus-prometheus-operator-prometheus-0 9090

kubectl port-forward 什么意思?

kubectl port-forward 是一个 Kubernetes 命令,用于将本地端口与 Kubernetes Pod 或 Service 的端口之间建立临时的网络转发连接。

当你在本地开发环境中需要直接访问运行在 Kubernetes 集群中的 Pod 或 Service 时,kubectl port-forward 命令可以帮助你在本地主机和 Kubernetes 集群之间建立一个网络通道。

使用 kubectl port-forward 命令时,你需要指定要转发的资源类型和名称,并指定本地端口和远程端口。例如,以下命令将本地的 8080 端口与名为 "my-pod" 的 Pod 的 80 端口进行转发:

kubectl port-forward my-pod 8080:80

这将在本地主机的 8080 端口上启动一个转发服务,将所有发送到该端口的请求转发到运行在 "my-pod" Pod 中的 80 端口。你可以使用本地浏览器或工具访问 localhost:8080 来与 Pod 进行交互。

类似地,你也可以使用 kubectl port-forward 命令转发到 Service 的端口。例如:

kubectl port-forward service/my-service 8080:80

这将将本地的 8080 端口与名为 "my-service" 的 Service 的 80 端口进行转发。

kubectl port-forward 命令对于在本地开发和调试过程中与 Kubernetes 集群中的资源进行交互非常有用。它可以方便地将远程服务映射到本地主机,以便你可以直接访问和测试它们。

alt

访问 http://localhost:9090/

alt

prometheus-operator 已经帮我们把相关的监控项配置好了

alt

up指标

alt

node_load1指标

No datapoints found. , issue[3]

alt

但好像没干啥就好了..

alt

查询对promethues web总的成功请求数

alt

查询对promethues metrics端点的成功请求率

alt

告警信息

http://localhost:9090/alerts

alt

配置信息Configuration

alt

告警(alert)和聚合(record)规则Rules

alt

监控目标Targets

alt



访问Alertmanger UI


kubectl port-forward -n monitoring alertmanager-prometheus-operator-alertmanager-0 9093

alt

告警信息

alt

状态和配置

alt



访问Grafana UI


alt

http://localhost:3000/

alt

user: admin

pass: prom-operator

alt
alt

Nodes节点监控

在上图搜索框输入"node"

alt

K8s/Compute Resources/Cluster监控

alt
alt

K8s/Compute Resources/Pod监控

alt



定制Alertmanager邮件通知


安装FakeSMTP


git clone https://github.com/Nilhcem/FakeSMTP.git
cd FakeSMTP

mvn package

java -jar target/fakeSMTP-2.0-SNAPSHOT.jar -p 2525
alt

现在需要改为 java -jar target/fakeSMTP-2.1-SNAPSHOT.jar -p 2525

alt

点击 启动服务器

alt

Alertmanager缺省配置(Secret)


kubectl get secret -n monitoring alertmanager-prometheus-operator-alertmanager -o go-template='左括号 左括号 index .data "alertmanager.yaml" 右括号 右括号' | base64 --decode (把汉字替换为对应符号,不这样hexo会解析出错)

alt

该命令用于从 Kubernetes 集群中的指定命名空间(-n monitoring)获取名为 alertmanager-prometheus-operator-alertmanager 的 Secret 对象,并提取其中名为 alertmanager.yaml 的数据字段的值。然后使用 base64 命令对该值进行解码,以便将其转换回原始的 YAML 格式。

换句话说,这个命令的目的是获取监控系统中 Alertmanager 的配置文件,并将其解码为可读的 YAML 格式,以便查看其中的配置详细信息。


因为这个配置是secret形式存储的

alt

Opaque类型,所以最后要用 base64 --decode 转为明文

其实可以通过下面的UI直观查看

Alertmanager缺省配置(UI)


alt

Alertmanager config更新


参考 https://github.com/helm/charts/blob/master/stable/prometheus-operator/values.yaml#L133

  • 增加 邮件smtp等配置
  • 增加静默配置(发送给null)
  • 增加抑制配置(inhibit)

Prometheus监控系统中,"静默配置"(inhibit configuration)用于在发生警报时控制通知的行为。通过静默配置,可以防止某些特定警报触发通知,以避免不必要的干扰或重复的通知。

静默配置定义了在特定条件下阻止警报通知的规则。这些规则通常基于警报标签和标签值的匹配。当触发一个警报时,系统将根据静默配置中的规则检查是否有匹配的规则存在。如果有匹配的规则,那么该警报将被静默,即不会触发通知。

通过使用静默配置,可以灵活地控制在某些情况下抑制警报通知,例如:

  • 阻止在维护窗口期间触发通知。
  • 抑制由特定部署环境引起的虚假警报。
  • 防止多个相关的警报同时触发大量通知。

在Prometheus中,静默配置可以通过修改Alertmanager的配置文件(alertmanager.yaml)来实现,具体的配置语法和规则定义可以参考Prometheus的官方文档。


在Prometheus中,将通知发送给null属于静默配置的一种。当将静默规则配置为将通知发送给null时,实际上是将该警报完全静默化,意味着不会有任何通知发送。

这种配置适用于那些不希望触发任何通知的警报。通常,这可能是对特定类型的警报或某些特定条件下的警报进行静默化的一种方式。通过将通知发送给null,可以确保该警报不会引起任何干扰或通知负担。

静默规则配置示例:

inhibit_rules:
  - source_match:
      severity: critical
    target_match:
      severity: warning
    equal: ['alertname', 'service']
    target_receivers:
      - 'null'

上述示例中的静默规则指定了在警报的严重性为critical,并且警报名称和服务名称相同时,将通知发送给null,即静默该警报。

更新后的配置在 https://github.com/spring2go/k8s-msa-in-action/blob/master/ch08/07/values_alertmanager.yml

alt

修改ip为本机地址


更新prometheus-operator release


helm upgrade prometheus-operator stable/prometheus-operator --values=shuang_alertmanager.yml -n monitoring

helm history prometheus-operator -n monitoring

alt

如果有问题,可以看pod日志进行排查~

kubectl logs -n monitoring alertmanager-prometheus-operator-alertmanager-0


校验配置更新成功


打开 http://localhost:9093/#/status, 通过UI校验看是否修改成功~

alt

启动FakeSMTP接收告警


此时已经收到了邮件

alt

其中 etcd这项告警 message = etcd cluster "kube-etcd": members are down (1).是因为用minikube,etcd节点本来就不足~

alt

.+Overcommit本来应该要收到告警,但通过配置抑制掉了




参考自

Kubernetes和微服务监控体系[4]

Kubernetes和微服务监控体系[5]

更多参考:

从零用Helm部署prometheus,并配置钉钉告警[6]

helm 安装配置 prom-operator[7]

参考资料

[1]

prometheus入门: https://dashen.tech/2020/09/14/prometheus%E5%85%A5%E9%97%A8/

[2]

Kubernetes和微服务监控体系: https://blog.csdn.net/weixin_35821291/article/details/122877311

[3]

issue: https://github.com/prometheus/prometheus/issues/1022

[4]

Kubernetes和微服务监控体系: https://www.bilibili.com/video/BV1Qi4y1b79r/?p=8

[5]

Kubernetes和微服务监控体系: https://blog.csdn.net/weixin_35821291/article/details/122877311

[6]

从零用Helm部署prometheus,并配置钉钉告警: https://blog.csdn.net/lingjinghe/article/details/127646375

[7]

helm 安装配置 prom-operator: https://blog.csdn.net/zhangxueleishamo/article/details/130339221

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/865680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

kubernetes的存储卷使用

目录 一、为什么使用存储卷 二、emptyDir存储卷 1.概念 2.创建Pod emptyDir 3. 验证emptyDir存储卷 三、hostPath存储卷 1.概念 2.创建Pod hostPath 3.验证hostPath存储卷 三、nfs共享存储卷 1.概念 2.安装nfs,配置nfs服务 3.创建Pod 4.验证nfs存储卷 一、…

quartz定时任务空指针异常

1.错误方式 通过注解把对象给引用进来,然后直接使用。会报空指针异常的,拿不到exportRecordRepository对象。 2.正确方式 网上搜了很多,改完之后依然不能用,最终解决办法。 1.添加自动注入方法 Component public class AutoBe…

适合大学生的兼职有什么?推荐四个靠谱的副业!

不知不觉新学期也要开始了,大学生们会不会因为苦恼的钱不够花而不够尽兴,很多大学生都想利用下课的时间来做一份兼职,但是有很多鉴于学校封校不知道自己可以做什么,我来为大家整理了以下几个大学生在学校内相对可靠的兼职。 第一个…

什么是Node js?什么是React?有什么区别

JavaScript是当今最流行的编程语言之一,它用于开发多种技术,两种这样的技术是Node.js和React。许多学生很难理解Nodejs和React之间的区别。 React和Nodejs之间的主要区别在于它们的使用位置。Nodejs 用于开发应用程序的服务器端,而Reactjs用于…

Co-Occurrence Matrix——共现矩阵原理介绍

文章目录 共现和上下文窗口共现矩阵的生成共现矩阵存在的问题及解决方法主成分分析 PCA奇异值分解 SVD 共现和上下文窗口 共现(Co-occurrence)——对于给定的语料库,一对单词(如w1和w2)的共现是指它们在上、下文窗口中…

Air001基于Keil环境开发,使用airisp串口命令行烧录

Air001基于Keil环境开发,使用airisp串口命令行烧录 有人会有这样的疑惑,使用Keil平台开发,为什么不直接使用CMSIS-DAP直接烧录,还要使用串口方式来去单独烧录,不是我不想,目前使用合宙官方的Air103芯片版本…

SAP采购订单“交货已完成”勾选后仍可收货的原因分析及解决方案

在SAP MM模块项目实施中,很多用户对采购订单中“交货已完成”这个字段(如下图)的功能用途存在困惑。 比如:上图采购订单100个,已收货50个,另外50个因为质量或其它原因不需要供应商再交货,很多用…

echarts 图表设置 滚动条

效果图: 代码实现: 第一种方式: 通过 dataZoom 属性缩放进行配置滚动条。 //给x轴设置滚动条 dataZoom: [{start:0,//默认为0end: 100-1500/31,//默认为100type: slider,show: true,xAxisIndex: [0],handleSize: 0,//滑动条的 左右2个滑…

途乐证券-最准确的KDJ改良指标?

KDJ目标是技术剖析的一种重要目标之一,它是利用随机目标(%R)发展而来的,是一种反映商场超买和超卖状况的买卖目标。KDJ目标由快线(K线)、慢线(D线)和随机值(J线&#xff…

【UE4 RTS】10-RTS HUD Setup

前言 本篇博文主要制作了一个控件蓝图界面,用于显示当前的游戏时间 效果 步骤 1. 新建一个名为“Widgets”的文件夹 在该文件夹中新建一个控件蓝图,命名为“GameTime_HUD” 打开“GameTime_HUD”,添加如下控件 2. 打开玩家控制器“RTS_Pla…

c++雅兰亭库 (yalantinglibs) 介绍及使用(序列化、json和结构体转换、协程)

雅兰亭库(yalantinglibs)介绍 雅兰亭库,名字很优雅,也很强大。它是阿里开源的一个现代C基础工具库的集合, 现在包括 struct_pack, struct_json, struct_xml, struct_yaml, struct_pb, easylog, coro_rpc, coro_io, coro_http 和 async_simple等功能, 也…

斗象科技-2023攻防演练必修高危漏洞集合下载(2个版本)

高危风险漏洞一直是企业网络安全防护的薄弱点,也成为HW 攻防演练期间 红队的重要突破口;每年HW 期间爆发了大量的高危风险漏洞成为红队突破网络 边界防护的一把利器,很多企业因为这些高危漏洞而导致整个防御体系被突破、 甚至靶标失守而遗憾出…

TepeScript 问题记录

问题 对object的所有属性赋值或清空&#xff0c;提示类型错误不能赋值 type VoiceParams {_id?: string | undefined;name: string;sex: string;vc_id: string;model_url: string;preview_url: string;isPrivate: boolean;visible: boolean; }const formData reactive<V…

AI绘画网站都有哪些比较好用?

人工智能绘画网站是一种利用人工智能技术进行图像处理和创作的网站。这些绘画网站通常可以帮助艺术家以人工智能绘画的形式快速生成有趣、美丽和独特的绘画作品。无论你是专业的艺术家还是对人工智能绘画感兴趣的普通人&#xff0c;人工智能绘画网站都可以为你提供新的创作灵感…

痛点缠身的科沃斯!如何重回“扫地茅”?

一度被称为扫地机器人代名词的“扫地茅”科沃斯&#xff0c;尽管仍处于头部阵营的头部&#xff0c;但是从多个角度来看&#xff0c;科沃斯的现状却也称得上是痛点缠身。 而对于这个曾经将扫地机产品带入国内大众视野、完成了用户认知培养的领跑者&#xff0c;到底应该如何去直…

ddia(3)----Chapter3. Storage and Retrieval

However, first we’ll start this chapter by talking about storage engines that are used in the kinds of databases that you’re probably familiar with: traditional relational databases, and also most so-called NoSQL databases. We will examine two families o…

【C语言学习】函数原型

函数原型 代码一 #include<stdio.h> void sum(int begin, int end) {int i;int sum 0;for(ibegin; i<end; i){sum sum i;}printf("%d到%d的和是%d\n", begin, end, sum); }int main() {sum(1,10);sum(20,30);sum(40,50);return 0; }代码二&#xff08;函…

Camunda 7.x 系列【12】创建流程引擎

有道无术,术尚可求,有术无道,止于术。 本系列Spring Boot 版本 2.7.9 本系列Camunda 版本 7.19.0 源码地址:https://gitee.com/pearl-organization/camunda-study-demo 文章目录 1. ProcessEngine2. 创建流程引擎2.1 Java API2.2 XML 配置2.3 Spring2.4 Spring Boot1. Pr…

大专非科班转码成功自白

大专非科班转码成功自白 文章目录 大专非科班转码成功自白初步学习进阶学习提供阶段面试阶段总结 2023年是博主从业18年以来找工作最难的一年。但程序员这个行业还是被很多毕业生青睐。就业相对比较好&#xff0c;收入相对比较高&#xff0c;虽然面临996&#xff0c;依然给很多…

外来jar包运行项目,更换部分文件重新压缩成jar包部署运行

跟公司一个外部支援同事合作开发&#xff0c;发包版本在他那里&#xff0c;功能开发工作我来做&#xff0c;可能是因为我是后来加入的&#xff0c;他不想把代码交到公司来&#xff0c;每次要发布新版本急于测试&#xff0c;联系他发包一直不回复消息&#xff0c;打电话也不接&a…