对远程http服务的拨测体验

news2024/11/28 9:45:16

背景:

过程是这样的,需要与合作方数据进行交互(肯定是不允许直接连对方数据源的),对方提供了两台server,后端同事在server上面作了proxy搭建了桥接的应用(两台server没有公网ip,通过一个超级难用的堡垒机明御进行管理)。两台server挂在在了负载均衡slb上对外提供http服务(环境为阿里云环境)。项目马上要上线了,然后就面临一个问题,如何监控这个桥接程序的健康状态呢?想到了几种方式:
1 .云商的拨测服务:比如腾讯云的云拨测(Cloud Automated Testing,CAT)
2.还搜到了开源的项目Uptime Kuma。
3.当然了还找到了可以与prometheus结合使用的blackbox_exporter(Prometheus 社区提供的官方黑盒监控解决方案)
个人的prometheus集群是kube-prometheus,搭建方式参照:Kubernetes 1.20.5 安装Prometheus-Oprator。下面主要基于腾讯云的云拨测blackbox_exporter的方式实现一下对远程web服务的拨测:

对远程http服务的拨测体验

云拨测CAT

配置以及体验

打开腾讯云可观测平台:https://console.cloud.tencent.com/monitor/overview2,点击左侧边栏云拨测服务:
image.png
可以看到上方云拨测的应用场景: 网络质量 页面性能 文件传输(上传/下载) 端口性能 音视频体验。我这里的场景主要使用了端口性能!
image.png
当然了点击云拨测的时候还出现了这404的页面,忽略这该死的体验感!
zzsv3GBJQw.png
新建任务参照:新建自定义拨测,我这里使用了新建端口性能任务:
image.png
拨测的频率最低这里只能支持到五分钟…(试用版,传输类型,移动端不支持一分钟粒度),拨测点配置试用版只支持6 个拨测点,我这里随手点了五个,然后创建了任务:
点击查看分析
image.png
分析页面初始是空白的需要等待一会才能出现相关数据
image.png
大概等待五分钟左右(拨测粒度时间)
image.png
但是吐槽一下 这里有默认的 502也会显示正常 100%,因为这里没有做statuscode验证,点击任务,进行编辑添加验证方式:
image.png
这里简单修改了一下任务设置拨测参数配置,验证方式 验证statusCode 200
image.png
恩这样就可以了,非200默认为失败,当然了这里正常应该根据实际需求来设置,我这里就是探测源站存活,没有针对uri进行更详细的探测!
image.png
接下来是报警:
image.png
image.png
很恶心连贯性很差 佛系设置了。这里吐槽一下正确率不应该设置默认的小于号吗?
image.png
image.png
另外这种的云拨测的 能弹性伸缩…伸缩可以带来什么呢?告警模板可以根据自己需求创建:参照:
告警接收

image.png
短信报警大概就是这个样子:
image.png

对此产品的不满

价格问题

参照:https://cloud.tencent.com/document/product/280/79416。我想创建一个探测任务一个月需要1299?如果我对一个网站做网络质量 页面性能 文件传输(上传/下载) 端口性能 音视频体验,貌似需要1299*6(任务里面上传下载是分开的)?如果我对一个网站的100个接口进行拨测呢?那这是多少任务?怎么收费…对于我个人来说,我宁愿国内搭建七个节点的边缘集群,自己去做探测了…
image.png

页面的连贯,一致性

眼神好的应该看到上面截图的差别了,可观测平台里面的云拨测与云拨测这里的标题基本分类都有点不一致了?
image.png
image.png
另外关于拨测添加告警监控,在任务上面设置是不是更好?我做了任务了不能顺畅的创建监控告警,如果在观测平台需要跳转到告警管理这里配置…
image.png

告警模板

告警模板也很刺激…操作这里竟然没有修改?要点击告警模板的链接进入才能修改告警策略?
image.png
另外个人用cls日志服务较多,日志服务中监控告警跟可观测平台没有融合在一切,且cls日志中监控告警的通知渠道组是不是就是理论上告警管理这里的通知模板呢?竟然也没有打通…
image.png
完全是孤岛…

Blackbox简单使用

关于Blackbox

参照github:https://github.com/prometheus/blackbox_exporter.The blackbox exporter allows blackbox probing of endpoints over HTTP, HTTPS, DNS, TCP, ICMP and gRPC(blackbox exporter允许通过 HTTP、HTTPS、DNS、TCP、ICMP 和 gRPC 对端点进行黑盒探测)
这里的blackbox exporter已经默认安装了:Kubernetes 1.20.5 安装Prometheus-Oprator

 kubectl get pods -n monitoring

image.png
blackbox-exporter为对应pod服务!这里演示只进行简单的http code 200检测

修改配置文件

想查看一下monitoring命名空间下的configmap

kubectl get cm -n monitoring

image.png
通过名字可以看出blackbox-exporter-configuration为blackbox-exporter的配置文件,查看一下此配置文件内容:

kubectl get cm blackbox-exporter-configuration  -n monitoring -o yaml

guGP5deCJ2.png
稍微修改了一下下http_2xx

kubectl edit cm blackbox-exporter-configuration  -n monitoring

image.png

      "http_2xx":
        "http":
          "valid_http_versions": ["HTTP/1.1", "HTTP/2"]
          "valid_status_codes": [200]
          "method": "GET"
          "preferred_ip_protocol": "ip4"
        "prober": "http"

然后重启BlackBox服务,删除pod基本是:

kubectl delete pods blackbox-exporter-84b6467dcb-9jzbm  -n monitoring

接着在 Prometheus 的配置文件中加入对 BlackBox 的抓取设置,咱们的prometheus配置文件是写入secret中的,参照:
image.png

kubectl get secret  -n monitoring

image.png

kubectl get secret additional-configs -n monitoring -o yaml

image.png
base64加密后的数据这是,可以delete secret然后用下面的文件apply 重新生成secret:
cat prometheus-additional.yaml

- job_name: 'kubernetes-endpoints'
  kubernetes_sd_configs:
  - role: endpoints
  relabel_configs:
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]
    action: keep
    regex: true
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scheme]
    action: replace
    target_label: __scheme__
    regex: (https?)
  - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_path]
    action: replace
    target_label: __metrics_path__
    regex: (.+)
  - source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]
    action: replace
    target_label: __address__
    regex: ([^:]+)(?::\d+)?;(\d+)
    replacement: $1:$2
  - action: labelmap
    regex: __meta_kubernetes_service_label_(.+)
  - source_labels: [__meta_kubernetes_namespace]
    action: replace
    target_label: kubernetes_namespace
  - source_labels: [__meta_kubernetes_service_name]
    action: replace
    target_label: kubernetes_name
  - source_labels: [__meta_kubernetes_pod_name]
    action: replace
    target_label: kubernetes_pod_name
- job_name: 'blackbox'
  metrics_path: /probe
  params:
    module: [http_2xx]
  static_configs:
    - targets:
      - http://baidu.com
      - https://baidu.com
  relabel_configs:
    - source_labels: [__address__]
      target_label: __param_target
    - source_labels: [__param_target]
      target_label: instance
    - target_label: __address__
      replacement: 172.22.255.22:9115

当然也可以将配置文件base64加密替换secret中prometheus-additional.yaml的base64内容:https://base64.us/
image.png

kubectl edit secret additional-configs -n monitoring

image.png
然后重启prometheus服务,重启服务两种方式:

  1. 暴力delete pod
curl -X POST "http://xxxxx:9090/-/reload"  # promethues pod ip

我是直接暴力删除了pod!
等待prometheus pod running(我是有两个prometheus副本,要两个都重启了),打开 Prometheus 的 Target 页面,就会看到 上面定义的 blackbox任务了但是都是down:
image.png

kubectl get svc -n monitoring

image.png
不求甚解直接将

      replacement: 172.22.255.22:9115

修改为:

      replacement: 172.22.255.22:19115

版本问题了早期的貌似 9115 但是9115后面貌似是https的端口了:
image.png
这里就使用19115端口了,重新apply prometheus-additional.yaml.然后targets状态就正常了:
image.png
prometheus graph这里,除了百度外我自定义的域名状态竟然是0:

probe_success{job="blackbox"}

image.png
but 自定义检测的域名状态为什么是0 呢?看了一眼Pod日志:

 kubectl logs -f blackbox-exporter-84b6467dcb-6rzv8 blackbox-exporter -n monitoring

AJ2dsIrkMA.png
看了一眼 http2=false?怀疑为开启http2造成的?

curl -GET "http://172.22.255.22:19115/probe?module=http_2xx&target=https%3A%2F%2xxx.xxx.com"

image.png
测试了一下baidu都没有问题,注释掉了configmap blackbox-exporter-configuration中**“valid_http_versions”: [“HTTP/1.1”, “HTTP/2”]**,删除blackbox-exporter,等待running:
image.png
目测正常了还不能确定是否是这个原因!

grafana添加模板:

grafana控制台左侧边栏-create -import 13659 load
image.png
import
image.png
baidu http的也会down?
image.png7587 模板倒入:
image.png
image.png
还有很多类似的模板,可以找一个合适的倒入,后续有时间的研究一下grafana的图表生成!

prometheus报警

监控完成了,然后有必要搞一下报警,个人觉得应该去修改configmap?:

kubectl get cm -n monitoring
kubectl edit cm prometheus-k8s-rulefiles-0 -n monitoring

image.png
按照个人经验修改configmap,but!修改了cm不生效的…,参照:
prometheus-k8s-rulefiles-0 无法修改问题,创建了一个PrometheusRule crd文件:
cat prometheus-blackbox-rule.yaml

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  labels:
    prometheus: k8s
    role: alert-rules
  name: prometheus-blackbox-rule
  namespace: monitoring
spec:
  groups:
  - name: http_status
    rules:
    - alert: probe_http_status_code
      expr: probe_http_status_code == 200
      for: 1m
      labels:
        severity: critical
      annotations:
        summary: "{{ $labels.job }}"
        description: "{{ $labels.instance}} 域名http 测试code非200, 请尽快检测"
        value: "{{ $value }}"

注意: 以上仅供参考probe_http_status_code == 200 应该替换成probe_http_status_code != 200 .上面这样是为了确认收到测试信息!
image.png
等待pod中rule同步过来!可以进入容器查看
/etc/prometheus/rules/prometheus-k8s-rulefiles-0
目录下role文件生成!
image.png
这里的报警是微信报警方式:
img_v2_57e0379c-b75e-4382-8daa-60c3be2dde1g.jpg
当然了alertmanager相关页面也可以查询到报警信息:
image.png
微信收到相关报警信息!当然了具体内容可以自定义!,将上面创建的role 条件修改回去probe_http_status_code != 200 .apply 正常使用!

后面准备做的

  1. 想搭建一个kubernetes 边缘集群(多地域的)?就跑blackbox。做一下完整的HTTP、HTTPS、DNS、TCP、ICMP 和 gRPC 的测试?
  2. 整理一下**PrometheusRule crd .**自定义完善一下role(现在都是默认的)
  3. grafana 图表自定义生成一下自己想要的模板? prometheus 查询语句研究一下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/590424.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Eclipse 教程Ⅹ

本次内容会涉及到Eclipse 重构菜单、Eclipse 添加书签和Eclipse 任务管理,老规矩,直接开始吧! Eclipse 重构菜单 使用Eclipse重构 在项目开发中我们经常需要修改类名,但如果其他类依赖该类时,我们就需要花很多时间去…

机器学习模型的生命周期

动动发财的小手,点个赞吧! 您的模型如何变化?Source[1] 诞生 当我们构建、训练、拟合或估计我们的模型时,这些数字工具就诞生了。这个阶段几乎从拥有分析目标、数据、计算机、算法以及数据科学家现在已经非常了解的其他一切开始。…

Linux [权限]

Linux 权限 Linux用户分类切换成root方法例子 切换成普通用户方法例子 短暂提权 什么是权限理论知识展示区域 修改权限(1)修改文件属性1. 采用 w/r/x的形式2. 采用八进制的形式 (2)修改身份1. 修改拥有者2. 修改所属组3. 修改拥有者 && 所属组 问题区问题1问题2问题3 L…

实在智能携手各高校打造高端数字化技能教育平台

百年大计,教育为本。2021年在《教育部办公厅关于印发高等职业教育专科英语、信息技术课程标准)的通知中把机器人流程自动化列入专科信息技术课程学习计划之中,进一步明确职业教育中数字化人才发展方向。 一、为什么要大力培养数字化人才&…

毕业5年的同学突然告诉我,他已经是年薪30W的自动化测试工程师,我愣住了...

作为一名程序员,都会对自己未来的职业发展而焦虑。一方面是因为IT作为知识密集型的行业,知识体系复杂且知识更新速度非常快,“一日不学就会落后”。 另外一方面,IT又是劳动密集型的行业,不仅业人员多,而且个…

随机梯度下降法

梯度下降法有两个比较大的缺点: --计算花时间 --容易陷入局部最优解 比如以下形状的函数,最优解取决于初始值的选取。 梯度下降法的表达式如下,这个表达式使用了所有训练数据的误差: 随机梯度下降法表达式: 在随机梯…

Cmake学习记录(九)--使用Cmake交叉编译.so库

文章目录 一、前言二、相关代码三、参考链接 一、前言 目前Android编译.so的话使用Android Studio比较简单,但是有时候时候Android Studio的话还需要创建一个Android的项目,这里记录下脱离Android Studio单纯使用Cmake和C开发工具Clion(或者其他的开发工…

Prometheus+grafana+node_exporter环境搭建

原理: node_exporter采集数据,Prometheus通过配置文件Prometheus.yml配置node_exporter信息获取采集到的数据并做展示,grafana将Prometheus作为数据源展示node_exporter采集到的数据 拓扑图 问题: 1)为什么不直接用…

万众瞩目的Nautilus Chain即将上线主网,生态正式起航

Zebec Protocol 是以流支付为定位 Web3 生态,该生态旨在构建一个全新的支付方式,以进一步丰富加密支付场景,并推动加密支付的大规模采用,该生态此前在 Solans 生态中曾取得了十分亮眼的成绩。目前,Zebec Protocol 正在…

Unity MVC实现背包系统(2)

在上一篇中,我们写了背包系统的伪代码,也说了mvc的设计思路,那么这一篇的任务就是将伪代码补全。 首先制作一个背包面板,我这里比较简单,就是一个滚动视图,还有一个提示文本,外加两个按钮&…

20230530论文整理·1-课题组1

个人观点,现在的NLP文章,有些是在做积木,微创新,有些文章,是可以的,读起来很美,有些,太过逆了,吃起来没味道,反胃。 文章目录 1.CODEIE: Large Code Generat…

【.NET AI Books】问题分类和技能使用大全

第一章 问题分类 我会把问题设定放在首位,也就是我们的第一章。毕竟所有生成式的 AI 都是需要基于问题给出答案。所以我一直不认同人工智能会取代人类,没有人类哪来问题呢? ChatGPT 的神奇之处在于它可以根据你的问题去完成不同的工作&…

【Python实战】Python采集C站热榜数据

前言 大家好,我们今天来爬取c站的热搜榜,把其文章名称,链接和作者获取下来,我们保存到本地,我们通过测试,发现其实很简单,我们只要简单获取数据就可以。没有加密的东西。 效果如下: 环境使用 python 3.9pycharm模块使用 requests模块介绍 requests requests是…

95后阿里P7架构师晒出工资单:狠补了这个,真香...

最近一哥们跟我聊天装逼,说他最近从阿里跳槽了,我问他跳出来拿了多少?哥们表示很得意,说跳槽到新公司一个月后发了工资,月入5万多,表示很满足!这样的高薪资着实让人羡慕,我猜这是税后…

阿里云的消息队列(MQ)服务如何帮助解决应用程序中的消息传递问题?

阿里云的消息队列(MQ)服务如何帮助解决应用程序中的消息传递问题?   [本文由阿里云代理商[聚搜云www.4526.cn]撰写]   随着企业应用程序的复杂性不断增加,消息传递在系统间的通信与协作中扮演着越来越重要的角色。本文将探讨阿里云的消息队列&#x…

Vue-组件的嵌套

组件的嵌套 组件的嵌套也是开发中比较常见的方式 一个大组件里面有多个小组件,大组件一般称为父组件,小组件称为子组件 1 编写案例 首先定义一个school组件 提出新的需求:现在我想在school里面定义一个子组件(student)出现 首先创建student组件&…

uni-app扩展组件(uni-ui)

目录 数字角标(uni-badge) 代码示例: 面包屑(uni-breadcrumb) 代码示例: 日历 代码示例 卡片(uni-card) 代码示例 倒计时(uni-countdown) 更多内容请访问官网 数字角标(uni-badge) 数字角标一般和其它控件(列表、9宫格等&#xff0…

网络编程--多线程服务器客户端

写在前面 此前的回声服务器/客户端都是在主线程中阻塞交互,本文将使用多线程方式实现服务器/客户端。 互斥量相关接口 使用多线程,自然避免不了线程同步问题。 因本文使用互斥量实现线程同步,因此仅介绍互斥量相关接口,其他实…

【MySQL高级篇笔记-索引的数据结构 (中) 】

此笔记为尚硅谷MySQL高级篇部分内容 目录 一、索引及其优缺点 1、索引概述 2、优点 3、缺点 二、InnoDB中索引的推演 1、设计索引 1.一个简单的索引设计方案 2.InnoDB中的索引方案 2、常见索引概念 1. 聚簇索引 2. 二级索引(辅助索引、非聚簇索引&#…

Java阶段三Day06

Java阶段三Day06 文章目录 Java阶段三Day06同步请求和异步请求案例演示创建SpringBoot工程application.propertiesUserControllerUserMapper静态页面 JSONSpring Security引入SpringSecurity框架对项目的影响关于SpringSecurity的配置默认登录表单设置白名单模拟登录使用自己的…