Kafka 可观测性最佳实践

news2025/1/10 20:28:24

Kafka 概述

Kafka 是由 LinkedIn 开发一个分布式的基于发布订阅模式的消息队列,是一个实时数据处理系统,可以横向扩展。与 RabbitMQ、RockerMQ 等中间件一样拥有几大特点:

  • 异步处理
  • 服务解耦
  • 流量削峰

监控 Kafka 是非常重要的,因为它可以帮助我们确保消息系统的稳定性、可用性、性能和可靠性。以下是监控 Kafka 的一些关键原因:

  1. 保证消息传递的可靠性:Kafka 作为一个分布式流处理平台,其核心价值在于可靠地存储和传递消息。监控可以帮助我们及时发现和解决数据丢失或重复的问题。
  2. 维护服务的高可用性:Kafka 通过副本机制来实现高可用性。监控副本同步状态和领导者选举,可以确保在节点故障时,相关的分区能够快速进行领导者选举,最小化服务中断。
  3. 优化性能:通过监控 Kafka 的性能指标,比如吞吐量、延迟和磁盘I/O,我们可以对 Kafka 集群进行调优,确保它在高负载下依然能够保持高性能。
  4. 容量规划:监控可以帮助我们理解数据增长的趋势,预测未来的存储需求,从而进行合理的容量规划,避免存储空间不足的情况发生。
  5. 故障排除:当系统出现问题时,监控系统提供的历史数据和实时数据对于快速定位问题原因非常关键。
  6. 遵守 SLA:对于需要遵守服务等级协议(SLA)的生产系统,监控可以帮助我们确保 Kafka 服务满足这些协议的要求。
  7. 安全审计:监控还可以涉及到安全层面,比如监控未授权访问的尝试,确保系统的安全性。
  8. 业务洞察:通过对消息内容的监控和分析,可以为业务决策提供数据支持,比如通过分析消息流量来优化业务流程。

观测云采集器 DataKit 提供 kafka 指标和日志的观测能力,配置 DataKit 采集 Kafka 指标和日志上报到观测云,帮助你监控分析 Kafka 性能表现以及各种异常情况。

操作步骤

前置条件

安装或下载 Jolokia 。DataKit 安装目录下的 data 目录中已经有下载好的 Jolokia jar 包,可先下载安装 DataKit 。

Jolokia 是作为 Kafka 的 Java agent,基于 HTTP 协议提供了一个使用 JSON 作为数据格式的外部接口,提供给 DataKit 使用。 Kafka 启动时,先配置 KAFKA_OPTS 环境变量:(port 可根据实际情况修改成可用端口)

export KAFKA_OPTS="$KAFKA_OPTS -javaagent:/usr/local/datakit/data/jolokia-jvm-agent.jar=host=*,port=8080"

另外,也可以单独启动 Jolokia,将其指向 Kafka 进程 PID:

java -jar </path/to/jolokia-jvm-agent.jar> --host 127.0.0.1 --port=8080 start <Kafka-PID>

采集器配置

进入 DataKit 安装目录下的 conf.d/db 目录,复制 kafka.conf.sample 并命名为 kafka.conf 。

指标采集(主机模式)
[[inputs.kafka]]
  # default_tag_prefix      = ""
  # default_field_prefix    = ""
  # default_field_separator = "."

  # username = ""
  # password = ""
  # response_timeout = "5s"

  ## Optional TLS config
  # tls_ca   = "/var/private/ca.pem"
  # tls_cert = "/var/private/client.pem"
  # tls_key  = "/var/private/client-key.pem"
  # insecure_skip_verify = false

  ## Monitor Interval
  # interval   = "60s"

  # Add agents URLs to query
  urls = ["http://localhost:8080/jolokia"]
   ......

主要是调整 urls ,配置好后,重启 DataKit 即可。

日志采集

采集 Kafka 的日志,可在 kafka.conf 中 将 files 打开,并写入 kafka 日志文件的绝对路径。比如:

[[inputs.kafka]]
  ...
  [inputs.kafka.log]
    files = ["/usr/local/var/log/kafka/error.log","/usr/local/var/log/kafka/kafka.log"]

开启日志采集以后,默认会产生日志来源(source)为 kafka 的日志,切割日志示例:

[2020-07-07 15:04:29,333] DEBUG Progress event: HTTP_REQUEST_COMPLETED_EVENT, bytes: 0 (io.confluent.connect.s3.storage.S3OutputStream:286)

切割后的字段列表如下:

字段名字段值
msgProgress event: HTTP_REQUEST_COMPLETED_EVENT, bytes: 0
nameio.confluent.connect.s3.storage.S3OutputStream:286
statusDEBUG
time1594105469333000000

修改 kafka.conf 后,需要重启 DataKit 生效。

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “Kafka”, 选择 “Kafka 监控视图”,点击 “确定” 即可添加视图:

关键指标

接下来介绍 Kafka 指标的详细信息。

UnderReplicatedPartitions

UnderReplicatedPartitions 未同步状态的分区个数,即失效副本的分区数,异常值非 0。在运行状况良好的群集中,同步副本(ISR)的数量应完全等于副本的总数。 该值非零表示 Broker 上的 Leader 分区存在没有完全同步并跟上 ISR 的副本的分区数量。可能存在问题:

  • 某个 Broker 宕机。
  • 副本所在磁盘故障/写满,导致副本离线,可以结合 OfflineLogDirectoryCount 指标非 0 值进行判断。
  • 性能问题导致副本来不及同步。可能有两种情况,第一种 Follower 副本进程卡住,在一段时间内根本没向 Leader 发起同步请求,比如频繁 Full GC,第二种 Follower 副本进程同步较慢,在一段时间内无法追赶 Leader 副本,比如 I/O 开销过大。
指标集kafka_replica_manager
指标描述数据类型
UnderReplicatedPartitions处于未同步状态的 Partition 个数int
UnderMinIsrPartitionCount低于最小 ISR Partition 个数。int
OfflineLogDirectoryCount

OfflineLogDirectoryCount 离线日志目录数量,异常值非 0 。需要观测该指标,以检查是否存在脱机日志目录。

指标集kafka_log
指标描述数据类型
OfflineLogDirectoryCount离线日志目录数量int
IsrShrinksPerSec / IsrExpandsPerSec

任意一个分区的处于同步状态的副本数(ISR)应该保持稳定,除非您正在扩展 Broker 节点或删除分区。 为了保持高可用, Kafka 集群必须保证最小 ISR 数,以防在某个分区的 Leader 挂掉时它的 Follower 可以接管。一个副本从 ISR 池中移走有以下一些原因:Follower 的 offset 远远落后于 Leader(改变 replica.lag.max.messages 配置项),或者某个 Follower 已经与 Leader 失去联系了某一段时间(改变 replica.socket.timeout.ms 配置项),不管是什么原因,如果 IsrShrinksPerSec(ISR 缩水) 增加了,但并没有随之而来的 IsrExpandsPerSec(ISR 扩展)的增加,就将引起重视并人工介入。

指标集kafka_replica_manager
指标描述数据类型
IsrShrinksPerSec.CountISR 缩减数量int
IsrShrinksPerSec.OneMinuteRateISR 缩减频率float
IsrExpandsPerSec.CountISR 膨胀数量int
IsrExpandsPerSec.OneMinuteRateISR 膨胀频率float
ActiveControllerCount

ActiveControllerCount 当前处于激活状态的控制器的数量,异常值 0。Kafka 集群中第一个启动的节点自动成为 Controller,有且只能有一个这样的节点、正常情况下 Controller 所在的 Broker 上的这个指标应该是 1,其它 Broker 上的这个值应该是 0。Controller 的职责是维护分区 Leader 的列表,当某个 Leader 不可用时协调 Leader 的变更。如果有必要更换 Controller,一个新的 Controller 将会被 Zookeeper 从 Broker 池中随机的选取出来,通常来说这个值不可能大于 1,但当遇到这个值等于 0 且持续了一段时间 (<1) 的时候,必须发出明确的警告,所以该指标可用作告警。

指标集kafka_controller
指标描述数据类型
ActiveControllerCount.ValueController 存活数量int
OfflinePartitionsCount

OfflinePartitionsCount 没有活跃 Leader 的分区数,异常值非 0。由于所有的读写操作都只在 Partition Leader上进行,任何没有活跃 Leader 的 Partition 都会彻底不可用,且该 Partition 上的消费者和生产者都将被阻塞,直到 Leader 变成可用。该指标可用作告警。

指标集kafka_controller
指标描述数据类型
OfflinePartitionsCount.Value下线 Partition 数量int
LeaderElectionRateAndTimeMs

当 Parition Leader 挂了之后就会触发选举,就会触发新 Leader 的选举。通过 LeaderElectionRateAndTimeMs 可以观测 Leader 每秒钟选举多少次,选举频率。

指标集kafka_controller
指标描述数据类型
LeaderElectionRateAndTimeMs.CountLeader 选举次数int
LeaderElectionRateAndTimeMs.OneMinuteRateLeader 选举比率float
LeaderElectionRateAndTimeMs.50thPercentileLeader 选举比率float
LeaderElectionRateAndTimeMs.75thPercentileLeader 选举比率float
LeaderElectionRateAndTimeMs.99thPercentileLeader 选举比率float
UncleanLeaderElectionsPerSec

当 Kafka Brokers 分区 Leader 不可用时,就会发生 unclean 的 Leader 选举,将从该分区的 ISR 集中选举出新的 Leader。 从本质上讲,unclean leader 选举牺牲了可用性的一致性。 同步中没有可用的副本,只能在未同步的副本中进行 Leader 选举,则前 Leader 未经同步的消息都会永远丢失。UncleanLeaderElectionsPerSec.Count 异常值是不等于 0,此时代表着数据丢失,因此需要进行告警。

指标集kafka_controller
指标描述数据类型
UncleanLeaderElectionsPerSec.CountUnclean Leader 选举次数int
TotalTimeMs

TotalTimeMs 度量本身是四个指标的总和:

  • queue:在请求队列中等待所花费的时间
  • local:领导者处理所花费的时间
  • remote:等待关注者响应所花费的时间(仅当时 requests.required.acks=-1)
  • response:发送回复的时间

TotalTimeMs 用来衡量服务器请求的用时,正常情况下该指标比较稳定,只有非常小的波段,如果发现异常,则会出现不规则的数据波动。这时需要检查各个 queue、local、remote 和 response 的值,定位处造成延迟的原因到底处于哪个 segment。

指标集kafka_request
指标描述数据类型
TotalTimeMs.Count总请求用时int
PurgatorySize

PurgatorySize: 作为一个临时存放的区域,使得生产(produce)和消费(fetch)的请求在那里等待直到被需要的时候。留意 purgatory 的大小有助于确定潜伏期的根本原因。例如,如果 purgatory 队列中获取请求的数量相应增加,则可以很容易地解释消费者获取时间的增加。

指标集kafka_purgatory
指标描述数据类型
Fetch.PurgatorySizeFetch Purgatory 大小int
Produce.PurgatorySizeProduce Purgatory 大小int
Rebalance.PurgatorySizeRebalance Purgatory 大小int
topic.PurgatorySizetopic Purgatory 大小int
ElectLeader.PurgatorySize选举 Leader Purgatory 大小int
DeleteRecords.PurgatorySize删除记录 Purgatory 大小int
DeleteRecords.NumDelayedOperations延时删除记录数int
Heartbeat.NumDelayedOperations心跳监测int
BytesInPerSec / BytesOutPerSec

BytesInPerSec/BytesOutPerSec 传入/传出字节数。通常磁盘吞吐量、网络吞吐量都可能成为瓶颈。 如果您要跨数据中心发送消息,Topic 数量众多,或者副本正在赶上 Leader,则网络吞吐量可能会影响 Kafka 的性能。 通过这些指标,在跟踪 Broker 上的网络吞吐量来判断瓶颈出在何处。

指标集kafka_topics
指标描述数据类型
BytesInPerSec.Count每秒流入字节数int
BytesInPerSec.OneMinuteRate每秒流入速率float
BytesOutPerSec.Count每秒流出字节数int
BytesOutPerSec.OneMinuteRate每秒流出速率float
RequestsPerSec

RequestsPerSec 每秒请求次数。通过观测该指标,可以实时掌握生产者,消费者的请求率,以确保您的 Kafka 高效通信。如果该指标持续维持高位,可以考虑增加生产者或者消费者的数量,进而提高吞吐量,从而减少不必要的网络开销。

指标集kafka_topics
指标描述数据类型
TotalFetchRequestsPerSec.Count每秒拉取请求的次数int
TotalProduceRequestsPerSec.Count生产者每秒写入请求的次数int
FailedFetchRequestsPerSec.CountTopic 失败 Fetch 数量int
FailedProduceRequestsPerSec.Count发送请求失败速率int
其它常用指标
指标集kafka_controller
指标描述数据类型
GlobalTopicCount.Value集群总 Topic 数量int
GlobalPartitionCount.Value分区数int
TotalQueueSize.Value队列总数int
EventQueueSize.Value事件队列数int
指标集kafka_request
指标描述数据类型
RequestQueueTimeMs.Count请求队列时间int
ResponseSendTimeMs.Count相应队列时间int
MessageConversionsTimeMs.Count消息转换时间int
指标集kafka_topics
指标描述数据类型
PartitionCount.ValuePartition 数量int
LeaderCount.ValueLeader 数量int
BytesRejectedPerSec.CountTopic 请求被拒绝数量int

监控器

当前监控器概览如下:

Kafka 处于激活状态的控制器的数量告警

ActiveControllerCount 当前处于激活状态的控制器的数量,异常值 0。Kafka 集群中第一个启动的节点自动成为 Controller,有且只能有一个这样的节点、正常情况下 Controller 所在的 Broker 上的这个指标应该是 1,其它 Broker 上的这个值应该是 0。Controller 的职责是维护分区 Leader 的列表,当某个 Leader 不可用时协调 Leader 的变更。如果有必要更换 Controller,一个新的 Controller 将会被 Zookeeper 从 Broker 池中随机的选取出来,通常来说这个值不可能大于 1,但当遇到这个值等于 0 且持续了一段时间 (<1) 的时候,必须发出明确的警告,所以该指标可用作告警。

Kafka Unclean Leader 选举次数告警

当 Kafka Brokers 分区 Leader 不可用时,就会发生 unclean 的 Leader 选举,将从该分区的 ISR 集中选举出新的 Leader。 从本质上讲,unclean leader 选举牺牲了可用性的一致性。 同步中没有可用的副本,只能在未同步的副本中进行 Leader 选举,则前 Leader 未经同步的消息都会永远丢失。UncleanLeaderElectionsPerSec.Count 异常值是不等于 0,此时代表着数据丢失,因此需要进行告警。

Kafka Parttition Leader 选举次数告警

Kafka 分区 leader 选举是 Kafka 高可用性的关键机制之一。当 Kafka 集群中的某个分区的 leader 节点出现问题时,会触发 leader 选举,以确保消息的高可用性和一致性。监控 leader 选举的次数是有必要的,因为这可以帮助你了解集群的健康状况和潜在的问题。频繁的 leader 选举可能表明集群中存在问题,例如硬件故障、网络问题或者 Kafka 配置不当。在某些情况下,频繁的 leader 选举可能会导致集群性能下降,因为选举过程需要额外的资源和时间。因此,通过设置 LeaderElectionRateAndTimeMs.Count 告警来监控 leader 选举的次数可以帮助及时发现并解决这些问题。

Kafka 离线的分区告警

Kafka 离线分区是指那些没有活跃 Leader 的分区,这种情况可能会导致数据无法被正常读写,因此对 Kafka 集群的稳定性和数据的可用性构成威胁。通过 OfflinePartitionsCount.Value 指标监控离线分区的数量是非常有必要的,发现有分区离线时,应立即发出告警以帮助及时发现和解决集群中的问题。

Kafka 同步副本低于最小 ISR Partition 个数

在 Kafka 中,ISR(In-Sync Replicas)是指与 leader 副本保持同步的副本集合。如果一个分区的同步副本数量低于配置的最小 ISR 分区个数(min.insync.replicas),这可能会影响到数据的可靠性和写入请求的响应。因此,通过 UnderMinIsrPartitionCount.Value 监控 ISR 的状态并设置告警是非常有必要的。

Kafka 未同步状态的 Partition

在 Kafka 中,未同步状态的 Partition 副本指的是那些不在 ISR(In-Sync Replicas)中的副本。如果一个分区的副本没有及时与 leader 副本同步,这可能会导致数据不一致或在 leader 副本失败时无法进行正常的 leader 选举,因此,通过 UnderReplicatedPartitions 对于这种状态的监控和告警是非常有必要的。

Kafka 请求失败数过高

在 Kafka 中,请求的失败数高,可能回影响消息的生产和消费,当请求失败数异常增高时,它通常表明系统正在经历一些需要立即注意的问题,通过 kafka topic 失败请求数量指标 FailedFetchRequestsPerSec.Count 来发现并解决那些影响消息传递稳定性的问题。

总结

总之,监控 Kafka 有助于我们确保系统的健康运行,及时响应和处理各种问题,同时也为系统优化和扩展提供了数据支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2237832.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

342--358作业整理(错误 + 重点)

目录 1. 在需要运行的类中 定义 main 方法 2. this 。访问逻辑&#xff1a;先访问本类中&#xff0c;再访问父类中可以访问的成员&#xff08;不包括和本类中重名的成员&#xff09; 3. super 。访问逻辑&#xff1a;super&#xff08;父类对象&#xff09;直接访问父类及以…

Android自启动管控

1. 自启动管控需求来源 自启动、关联启动、交叉启动、推送启动等现象的泛滥除了对个人信息保护带来隐患外&#xff0c;还会导致占用过多的系统CPU和内存资源&#xff0c;造成系统卡顿、发热、电池消耗过快&#xff1b;还可能引入一些包含“恶意代码”的进程在后台隐蔽启动&…

智能的编织:C++中auto的编织艺术

在C的世界里&#xff0c;auto这个关键字就像是一个聪明的助手&#xff0c;它能够自动帮你识别变量的类型&#xff0c;让你的代码更加简洁和清晰。下面&#xff0c;我们就来聊聊auto这个关键字的前世今生&#xff0c;以及它在C11标准中的新用法。 auto的前世 在C11之前&#x…

函数式编程Stream流(通俗易懂!!!)

重点&#xff1a;只关注传入的参数列表和方法体&#xff08;数据操作&#xff09; 1.Lambda表达式 本质是匿名内部类的优化&#xff0c;先写匿名内部类 1.1 基本用法 public class lambdaTest {public static void main(String[] args) { // int i calculateNum((…

C#里对数组的排序操作

一般情况下是采用 Array.Sort(a) 来进行排序。 例子代码如下: /** C# Program to Sort a String using Predefined Function*/ using System; class linSearch {public static void Main(){Console.WriteLine("Enter Number of Elements you Want to Hold in the Arra…

算法每日双题精讲——双指针(移动零,复写零)

&#x1f31f;快来参与讨论&#x1f4ac;&#xff0c;点赞&#x1f44d;、收藏⭐、分享&#x1f4e4;&#xff0c;共创活力社区。 &#x1f31f; 别再犹豫了&#xff01;快来订阅我们的算法每日双题精讲专栏&#xff0c;一起踏上算法学习的精彩之旅吧&#xff01;&#x1f4aa;…

【Android】View—基础知识,滑动,弹性滑动

基础知识 什么是View 在 Android 中&#xff0c;View 是用户界面&#xff08;UI&#xff09;中的基本组件&#xff0c;用于绘制图形和处理用户交互。所有的 UI 组件&#xff08;如按钮、文本框、图片等&#xff09;都是 View 的子类。可以说&#xff0c;View 是构建 Android …

【Unity】Game Framework框架学习使用

前言 之前用过一段时间的Game Framework框架&#xff0c;后来有那么一段时间都做定制小软件&#xff0c;框架就没再怎么使用了。 现在要做大型项目了&#xff0c;感觉还是用框架好一些。于是又把Game Framework拾起来了。 这篇文章主要是讲Game Framework这个框架是怎么用的…

【SoC设计指南 基于Arm Cortex-M】学习笔记1——AMBA

AMBA简介 先进微控制器总线架构&#xff08;Advanced Microcontroller Bus Architecture&#xff0c;AMBA&#xff09;是用在arm处理器上的片上总线协议规范集。 AMBA总线协议规范集包含AHB、APB、AXI等。 AHB&#xff1a;先进高性能总线(Advanced High-performance Bus) APB&…

pytorch模型转onnx的动态batch转换说明

将PyTorch模型&#xff08;.pth&#xff09;转换为ONNX格式时&#xff0c;通常需要指定一个batch size。这是因为ONNX模型需要一个固定的输入形状&#xff0c;而批处理大小是输入形状的一部分。 下面是一个简单的转换示例&#xff0c;假设你已经加载了一个PyTorch模型&#xff…

【王木头】最大似然估计、最大后验估计

目录 一、最大似然估计&#xff08;MLE&#xff09; 二、最大后验估计&#xff08;MAP&#xff09; 三、MLE 和 MAP 的本质区别 四、当先验是均匀分布时&#xff0c;MLE 和 MAP 等价 五、总结 本文理论参考王木头的视频&#xff1a; 贝叶斯解释“L1和L2正则化”&#xff…

从0到1基于LangChain制作一个AI猫娘

前言&#xff1a; 看到B站上的AIVtuber的项目落地了&#xff0c;就心血来潮想制作一个AI的猫娘供自己使用&#xff0c;顺便出一个简单的教程&#xff0c;跳过理论&#xff0c;直接实践&#xff0c;作者也还在学习摸索中&#xff0c;所以有错误可以直接在评论区指正。&#xff0…

Vue全栈开发旅游网项目(7)-搜索界面开发及其接口联调

1.搜索界面开发 1.1 模糊查询 文件地址&#xff1a;pycharm- class SightListView(ListView):paginate_by 5def get_queryset(self):#is_validTrue&#xff1a;表中is_valid列&#xff0c;有值则被查询出来query Q(is_validTrue)#1.获得热门景点is_hot self.request.GET.…

python识别ocr 图片和pdf文件

#识别图片 pip3 install paddleocr pip3 install paddlepaddle#识别pdf pip3 install PyMuPDF 重点&#xff1a;路径不能有中文&#xff0c;不然pdf文件访问不了 from paddleocr import PaddleOCR from rest_framework.response import Response from rest_framework.views im…

量化分析工具日常操作日记-5-通合科技

使用量化分析微信小程序工具“梦想兔企业智能风险分析助手”日常操作日记-5-军工-通合科技&#xff08;300491&#xff09;。 周末国家新政策&#xff0c;要大力支持军工行业&#xff0c;我用工具挖掘了两个低位股&#xff0c;供大家参考。通合科技&#xff08;300491&#xff…

详解基于C#开发Windows API的SendMessage方法的鼠标键盘消息发送

在C#中&#xff0c;SendMessage方法是一个强大的工具&#xff0c;它允许我们与Windows API交互&#xff0c;模拟键盘和鼠标事件。本文将详细介绍如何使用SendMessage方法来发送鼠标和键盘消息。 1. SendMessage方法概述 SendMessage是Windows API中的一个函数&#xff0c;它用…

CSS教程(三)- CSS 三大特性

1. 层叠性 介绍 多组CSS样式共同作用于一个元素&#xff0c;就会出现 覆盖&#xff08;层叠&#xff09; 另一个冲突的样式。 层叠原则 样式冲突&#xff1a;遵循就近原则&#xff08;哪个样式离结构近&#xff0c;就执行哪个样式&#xff09; 样式不冲突&#xff0c;就不会重…

CyclicBarrier使用详解及遇到的坑

上一篇文章讲的是关于是使用CountDownLatch实现生成年底报告遇到的问题&#xff0c;这个计数器和CyclicBarrier也有类似功能&#xff0c;但是应用场景不同。 一、应用场景 CountDownLatch&#xff1a; 有ABCD四个任务&#xff0c;ABC是并行执行,等ABC三个任务都执行完…

Java-I/O框架14:Properties集合及使用

视频链接&#xff1a;16.32 Properties使用&#xff08;2&#xff09;_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Tz4y1X7H7?spm_id_from333.788.player.switch&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5&p32 1.Properties集合 特性&#xff1a; 存储…