18.1 k8s服务组件之4大黄金指标讲解

18.1 k8s服务组件之4大黄金指标讲解

news2024/11/14 6:59:54

本节重点介绍 :

监控4大黄金指标
- Latency：延时
- Utilization：使用率
- Saturation：饱和度
- Errors：错误数或错误率
apiserver指标
- 400、500错误qps
- 访问延迟
- 队列深度
etcd指标
kube-scheduler和kube-controller-manager

监控4大黄金指标

Google的Google SRE Books一书中提出了系统监控的四个黄金指标

Latency：延时
Utilization：使用率
Saturation：饱和度
Errors：错误数或错误率

为什么是这4个

这个四个黄金指标在在任何系统中都是很好的性能状态指标
他们之所以被称为”黄金“指标，很大一个因素是因为他们反映了终端用户的感知
因此任何监控系统都会提供被监控对象的这些指标或其变形，并在此基础上辅助

两种系统分类

资源提供系统：对外提供简单的资源，比如CPU（计算资源），存储，网络带宽
服务提供系统：对外提供更高层次与业务相关的任务处理能力，比如订票，购物等等

站在资源角度分析

Utilization ：往往体现为资源使用的百分比
Saturation ：资源使用的饱和度或过载程度，过载的系统往往意味着系统需要辅助的排队系统完成相关任务
- 以CPU为例，Utilization往往是CPU的使用百分比
- Saturation则是当前等待调度CPU的线程或进程队列长度
Errors : 这个可能是使用资源的出错率或出错数量，比如网络的丢包率或误码率等等

站在服务角度分析

Rate ：单位时间内完成服务请求的能力
Errors ：错误率或错误数量：单位时间内服务出错的比列或数量
Duration ：平均单次服务的持续时长（或用户得到服务响应的时延）

k8s服务组件服务组件指标

站在k8s集群管理员的角度，服务组件的健康状况需要额外的关注。

apiserver指标

apiserver作为k8s中消息总线

成功率和qps

请求成功率：apiserver_request_total代表apiserver的请求计数器，所以我们可以使用下面promql来计算apiserver请求成功的qps。

sum(rate(apiserver_request_total{job="kubernetes-apiservers",code=~"2.."}[5m]))

成功率低于95%的告警：响应=2xx的qps除以总的qps就是apiserver的请求成功率

100 * sum(rate(apiserver_request_total{job="kubernetes-apiservers",code=~"2.."}[5m])) /sum(rate(apiserver_request_total{job="kubernetes-apiservers"}[5m]))

同理也可以关注4xx和5xx的错误qps，表达式如下

sum(rate(apiserver_request_total{job="kubernetes-apiservers",code=~"[45].."}[5m]))

错误的qps过高，可能是服务组件有问题，需要尽快排查。

延迟

对于延迟，可以使用下面的表达式计算。

histogram_quantile(0.99, sum(rate(apiserver_request_duration_seconds_bucket{job="kubernetes-apiservers"}[5m])) by (verb, le))

可以得到各个http的请求方法的99分位延迟值。

{verb="WATCH"}	60
{verb="DELETE"}	NaN
{verb="PATCH"}	0.0495
{verb="PUT"}	0.08797499999999975
{verb="GET"}	0.06524999999999985
{verb="LIST"}	0.09421428571428572
{verb="POST"}	0.0495

如果99分位延迟值很高，可能是apiserver处理能力达到上限，可以考虑扩容一下。

饱和度

对于饱和度可以查看apiserver请求队列的情况，如apiserver_current_inqueue_requests很大的话，说明排队严重。

etcd指标

etcd作为k8s中元信息存储的数据库也需要额外关注下

etcd存储文件大小相关指标，比如etcd_db_total_size_in_bytes表征db物理文件大小。
使用下面表达式可以得到etcd存储空间使用率：当前使用量/配额。如果使用率大于80%需要扩容

(etcd_mvcc_db_total_size_in_bytes / etcd_server_quota_backend_bytes)*100

关于etcd的网络流量可以使用下面两个指标表示。

# 代表client调etcd的流量。
etcd_network_client_grpc_received_bytes_total
# 代表etcd发送的流量。
etcd_network_client_grpc_sent_bytes_total

etcd中存储key和相关key操作的qps指标，如etcd_debugging_mvcc_keys_total代表etcd中存储的key总数，数量太多也会影响性能。
同时关于etcd key的操作的qps，rate(etcd_debugging_mvcc_put_total[1m])代表put的qps，同理rate(etcd_debugging_mvcc_delete_total[1m])代表删除的qps。
存储的fsync刷盘99分位延迟可以使用下面的分位值计算得到

histogram_quantile(0.99, sum(rate(etcd_disk_backend_commit_duration_seconds_bucket[5m])) by (instance, le))

kube-scheduler和kube-controller-manager

kube-scheduler是调度器，所以有关调度成功统计的指标都应被关注。

如scheduler_pod_scheduling_attempts_sum/scheduler_pod_scheduling_attempts_count代表成功调度一个pod 的平均尝试次数。如果尝试次数过高，可能当前node剩余量不多，或者集群出错，建议排查下。
如histogram_quantile(0.99, sum(rate(scheduler_pod_scheduling_duration_seconds_bucket[5m])) by ( le)) 代码pod调度的99分位延迟，如果过高，考虑schduler压力大或者其他原因。

在kube-controller-manager负责集群内的 Node、Pod 等所有资源的管理。

如rate(workqueue_adds_total[2m])表征工作队列新增的qps，其实就是请求的qps，太高考虑压力大。
如histogram_quantile(0.99, sum(rate(rest_client_request_latency_seconds_bucket{job="kube-controller-manager"}[5m])) by (verb, url, le))"，可以查看和apiserver通信的延迟99分位值，太高考虑扩容下apiserver。

本节重点总结 :

监控4大黄金指标
- Latency：延时
- Utilization：使用率
- Saturation：饱和度
- Errors：错误数或错误率
apiserver指标
- 400、500错误qps
- 访问延迟
- 队列深度
etcd指标
kube-scheduler和kube-controller-manager

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2161609.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

从手动测试菜鸟，到自动化测试老司机，实现自动化落地

从手动测试菜鸟，到自动化测试老司机，实现自动化落地

虽然许多伙伴是一个测试老人了，但是基本上所有的测试经验都停留在手工测试方面，对于自动化测试方面的实战经验少之又少。其实，究其原因：一方面是，自动化方面不求上进，觉得会手工测试就可以了，自…

阅读更多...

【计算机基础】用bat命令将Unity导出PC包转成单个exe可执行文件

【计算机基础】用bat命令将Unity导出PC包转成单个exe可执行文件

Unity打包成exe可执行文件上边连接是很久以前用过的方法，发现操作有些不一样了，并且如果按上述操作比较麻烦，所以写了个bat命令。图1、导出的pc程序如图1是导出的pc程序，点击exe文件可运行该程序。添加pack_project.bat文件 …

阅读更多...

基于 SpringBoot 的在线考试系统

基于 SpringBoot 的在线考试系统

专业团队，咨询就送开题报告，欢迎大家私信留言，联系方式在文章底部摘要网络的广泛应用给生活带来了十分的便利。所以把在线考试管理与现在网络相结合，利用java技术建设在线考试系统，实现在线考试的信息化管理。则对…

阅读更多...

PX4固定翼控制器详解(五)——L1、NPFG控制器

PX4固定翼控制器详解(五)——L1、NPFG控制器

之前已经讲解了TECS高度与速度控制器，今天是PX4固定翼控制器系列讲解的最后一期，主题是PX4的位置控制器。PX4 1.12及其之前的版本，使用的位置控制器为L1控制器。1.13及其之后的版本，PX4更新了NPFG控制器。NPFG控制器在较强风速下有…

阅读更多...

活动目录安全

活动目录安全

活动目录安全 1.概述2.常见攻击方式SYSVOL与GPP漏洞MS14-068漏洞Kerberoast攻击内网横移抓取管理员凭证内网钓鱼与欺骗用户密码猜解获取AD数据库文件 3.权限维持手段krbtgt账号与黄金票据服务账号与白银票据利用DSRM账号利用SID History属性利用组策略利用AdminSDHolder利用SSP…

阅读更多...

宠物空气净化器去浮毛哪家强？希喂、美的和米家实测分享

宠物空气净化器去浮毛哪家强？希喂、美的和米家实测分享

要说养宠物后里最让我感到幸福感飙升的家电，必须是宠物空气净化器，没有之一。很多人都喜欢宠物，但应该没有人喜欢清扫，特别是家里宠物多，或者一群宠物在自己家聚在一起之后，要疯狂清除浮毛，真的…

阅读更多...

剖解相交链表

剖解相交链表

相交链表思路：我们计算A和B链表的长度，求出他们的差值（len），让链表长的先多走len步，最后在A,B链表一起向后走，即可相逢于相交节点实现代码如下： public class Solution {public …

阅读更多...

单链表进阶

单链表进阶

之前已经介绍过单链表及其一些简单的功能这次来简单介绍单链表一些的其他接口 1.在指定位置之前插入数据具体原码，三个参数，phead是链表的指针，pos是节点的地址，x是需要插入的数据。 pos不能为空指针，因为pos为空…

阅读更多...

React启动时 Error: error:0308010C:digital envelope routines::unsupported

React启动时 Error: error:0308010C:digital envelope routines::unsupported

错误信息： 错误原因：通常与 Node.js 的新版本中 OpenSSL 的默认行为变化有关。从 Node.js 17 开始，OpenSSL 默认启用了 OpenSSL 3.0 的一些新特性，这可能会影响到一些旧的或未更新的库。解决办法：可以通过设置环境变…

阅读更多...

基于STM32设计的室内育苗环境管理系统(物联网)

基于STM32设计的室内育苗环境管理系统(物联网)

文章目录一、前言1.1 项目介绍【1】项目开发背景【2】设计实现的功能【3】项目硬件模块组成 1.2 设计思路1.3 系统功能总结1.4 开发工具的选择【1】设备端开发【2】上位机开发 1.5 模块的技术详情介绍【1】ESP8266-WIFI模块【2】MQ135传感器【4】DHT11传感器【5】B1750传感器 …

阅读更多...

【Diffusion分割】FDiff-Fusion：基于模糊学习的去噪扩散融合网络

【Diffusion分割】FDiff-Fusion：基于模糊学习的去噪扩散融合网络

FDiff-Fusion: Denoising diffusion fusion network based on fuzzy learning for 3D medical image segmentation 摘要： 近年来，去噪扩散模型在图像分割建模中取得了令人瞩目的成就。凭借其强大的非线性建模能力和优越的泛化性能，去噪扩散模…

阅读更多...

Flexus X实例全方位指南：智能迁移、跨云搬迁加速与虚机热变配能力的最佳实践

Flexus X实例全方位指南：智能迁移、跨云搬迁加速与虚机热变配能力的最佳实践

目录前言一、云迁移关键挑战 1、企业实例选型关键挑战 2、云算力关键挑战之一 3、云算力关键挑战之二二、本地IT及其他云搬迁到Flexus X实例上的独有优势 1、Flexus X实例超强性能，遥遥领先同规格友商实例 （1）底层多重调优&#x…

阅读更多...

网络编程——TCP网络通信

网络编程——TCP网络通信

通信步骤： 1、连接 2、传输数据 3、关闭连接服务端的创建流程： 1、创建服务端socket对象 socket_family:网络地址类型AF_INET--代表的是ipv4地址类型 socket_type:套接字类型SOCK_STREAM--代表的是tcp套接字SOCK_DGRAM--代表的是udp套接字 2、绑定自己的…

阅读更多...

新房安装了约克VRF中央空调真的是明智的选择！

新房安装了约克VRF中央空调真的是明智的选择！

夏天越来越热，新房安装了中央空调真的是太明智了！当初装修时，考虑到家里空间大，我就决定装一个中央空调。对比了好多品牌后，朋友推荐了约克VRF中央空调。装好以后，简直惊喜不断！ 　　　　强效除…

阅读更多...

基于SpringBoot+Vue+MySQL的美食点餐管理系统

基于SpringBoot+Vue+MySQL的美食点餐管理系统

系统展示用户前台界面管理员后台界面系统背景在数字化快速发展的今天，餐饮行业也迎来了转型升级的重要机遇。传统餐饮管理方式面临效率低下、顾客体验不佳等问题。为此，开发一款基于SpringBootVueMySQL架构的美食点餐管理系统显得尤为重要。该系统旨…

阅读更多...

【Qualcomm】高通SNPE框架简介、下载与使用

【Qualcomm】高通SNPE框架简介、下载与使用

目录一高通SNPE框架 1 SNPE简介 2 QNN与SNPE 3 Capabilities 4 工作流程二 SNPE的安装与使用 1 下载 2 Setup 3 SNPE的使用概述一高通SNPE框架 1 SNPE简介 SNPE（Snapdragon Neural Processing Engine），是高通公司推出的面向移…

阅读更多...

Leetcode尊享面试100题-252.会议室

Leetcode尊享面试100题-252.会议室

给定一个会议时间安排的数组 intervals ，每个会议时间都会包括开始和结束的时间 intervals[i] [starti, endi] ，请你判断一个人是否能够参加这里面的全部会议。示例 1： 输入：intervals [[0,30],[5,10],[15,20]] 输出&#xff…

阅读更多...

记录Mac编译Android源码踩过的坑

记录Mac编译Android源码踩过的坑

学习Android源码，如果电脑配置还不错，最好还是下载一套源码，经过编译后导入到Android Studio中来学习，这样会更加的直观，代码之间的跳转查看会更加方便。因此，笔者决定下载并编译一套源码，以利于…

阅读更多...

【C++算法】链表

【C++算法】链表

知识总结常用技术： 1.画图！！——>直观形象便于理解 2.引入虚拟”头结点“ 便于处理边界情况方便对链表操作 3.不要吝啬空间，大胆定义变量 4.快慢双指针——判环、找链表中环的入口、找链表中倒数第n个节点链表中的常用…

阅读更多...

电力领域大模型

电力领域大模型

2023年12月，arXiv预印本平台发表了一篇题为"Large Foundation Models for Power Systems"的研究论文。该文系统探讨了大型基础模型如大型语言模型（LLMs）在电力系统建模和运行中的应用前景。研究重点关注了大型基础模型在最优潮流计…

阅读更多...

推荐文章

最新文章