IT运维:使用数据分析平台监控 Kafka 服务

news2025/3/1 21:51:15

Apache Kafka 是由 LinkedIn 开发,并于2011年开源的分布式消息队列服务。但是通过快速持续的演进,目前它发展成为成熟的事件流处理平台,可用于大规模流处理、实时数据管道和数据集成等场景。

Kafka 的服务端组件包括一个或者多个 broker。Broker 按照 topic 来管理数据的分区、复制以及存储,并提供针对 topic 的发布/订阅(简称“pub/sub”)功能。生产者将事件发布到 topic,而消费者则订阅 topic。当新事件被发布到某个 topic 时,订阅该 topic 的消费者就会接收到该新事件。

Kafka 通常与 ZooKeeper 一起部署,使用 ZooKeeper 存储集群的元数据。但是在最新的版本中(3.3及其之后的版本),Kafka 将逐渐摆脱对 ZooKeeper 的依赖。

下图展示的是一个完整的 Kafka 部署,包含了上述的各个组件:

图片

监控目标

一个完整的 Kafka 服务的监控方案需要包括 Kafka 服务的监控、ZooKeeper 服务的监控以及服务运行环境(如服务运行所在的服务器节点)的监控,但本文的内容不会覆盖整个监控方案,而是专注于 Kafka 服务状态的监控。监控的范围包括:

  • Brokers 的实时状态

  • Topics/partitions 的实时状态以及历史数据

  • Consumer groups 的实时状态以及历史数据

解决方案

图片

使用 Kafka exporter 收集 brokers, topics 以及 consumer groups 的相关指标,并通过 HTTP API 提供数据

使用 Vector agent 通过 Kafka exporter HTTP API 采集数据,并将数据通过 HEI 导入指定的数据集

使用仪表板展示 brokers, topics 以及 consumer groups 的状态信息

操作步骤

1、部署 Kafka exporter [操作步骤]

(https://github.com/danielqsj/kafka_exporter)

2、创建数据集 [操作步骤]

(https://www.yanhuangdata.com/honghu_manual/docs/data_management/eventset/#%E5%88%9B%E5%BB%BA%E6%95%B0%E6%8D%AE%E9%9B%86)

如使用已经存在的数据集,可跳过此步骤

3、创建 HEI endpoint [操作步骤]

(https://www.yanhuangdata.com/honghu_manual/docs/gdi/push_based/#%E6%96%B0%E5%BB%BAhei%E7%AB%AF%E5%8F%A3%E6%8E%A5%E6%94%B6%E6%95%B0%E6%8D%AE)

如使用已经存在的 HEI endpoint,可跳过此步骤

4、部署 Vector agent 导入数据 [操作步骤]

(https://vector.dev/docs/setup/quickstart/)

图片

5、导入 Kafka 监控仪表板 [操作步骤]

(https://www.yanhuangdata.com/honghu_manual/docs/dashboard/#%E5%88%9B%E5%BB%BA%E4%BB%AA%E8%A1%A8%E6%9D%BF)

📎kafka_monitoring_overview.json

📎kafka_monitoring_topics.json

仪表板 Screenshot

Kafka 监控 / 概览

图片

Kafka 监控 / Topics

图片

后续工作

上述监控方案仅使用了 Kafka 服务中最关键的指标数据。为了实现更加完善的监控,后续还将引入更多的指标数据和日志数据,例如:

1、Kafka JVM 运行状态指标

2、Kafka 的错误日志

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/924635.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

视频云存储/安防监控AI视频智能分析平台——智慧煤矿解决方案

一、方案背景 煤矿业是一个高风险行业,存在着许多潜在的安全隐患和风险。互联网、物联网、人工智能等新兴技术高速发展,为传统行业带来颠覆性变革,将高新技术与传统技术装备、管理相融合,实现产业转型升级已经成为煤矿行业发展趋…

【0824作业】C++ 拷贝赋值函数、匿名对象、友元、常成员函数和常对象、运算符重载

一、思维导图 二、作业&#xff1a;实现关系运算符的重载 关系运算符重载 概念&#xff1a; 种类&#xff1a;>、>、< 、< 、 、!表达式&#xff1a;L#R (L表示左操作数&#xff0c;R表示有操作数&#xff0c;#表示运算符)左操作数&#xff1a;既可以是左值也可以…

BSN与中国食品药品企业质量安全促进会达成战略合作协议

2023年8月18日至20日&#xff0c;“首届中国食品药品医疗器械化妆品高质量发展大会”在北京召开&#xff0c;本届大会以“树立新发展理念&#xff0c;服务构建新发展格局&#xff0c;助力食药行业高质量发展”为主题&#xff0c;聚焦食药监管和行业发展的热点、难点问题&#x…

R语言主成分分析

R语言主成分分析 之前介绍过怎么用SPSS进行主成分分析(PCA)&#xff0c;已经忘了的朋友们可以到主页看看 今天主要介绍下R语言主成分分析的几种方法。都是入门级别&#xff0c;跟着我一步步走&#xff0c;一点都不难哈~ 首先调用R语言自带的数据集&#xff0c;USArrests。这…

嵌入式linux之QT交叉编译环境搭建(最简单实测通用版)

这里总结下用于嵌入式linux下的QT交叉编译环境搭建&#xff0c;留作备忘&#xff0c;分享给有需要的小伙伴。不管你的是什么嵌入式linux环境&#xff0c;实测过的通用方法总结。 环境准备 需要准备的环境要求如下&#xff1a; 1.虚拟机(vmvare15.5) 2.ubuntu18.04-x64的linu…

4.网络设计与redis、memcached、nginx组件(一)

网络组件系列文章目录 第四章 网络设计与redis、memcached、nginx组件 文章目录 网络组件系列文章目录文章的思维导图前言一、网络相关的问题&#xff0c;网络开发中要处理那些问题&#xff1f;网络操作IO连接建立连接断开消息到达消息发送网络操作IO特性 二、网络中IO检测IO函…

【Java】基础练习(十一)

1.Poker 定义两个数组&#xff0c;一个数组存储扑克牌花色&#xff0c;另一个数组存储扑克牌&#xff08;A~K&#xff09;&#xff0c;输出52张扑克牌&#xff08;除大小王&#xff09; ♥A、♥2...&#xff08;1&#xff09;Poker类&#xff1a; package swp.kaifamiao.cod…

03-Numpy基础-通用函数:快速的元素级数组函数

通用函数&#xff08;即ufunc&#xff09;是一种对ndarray中的数据执行元素级运算的函数。你可以将 其看做简单函数&#xff08;接受一个或多个标量值&#xff0c;并产生一个或多个标量值&#xff09;的矢量化包 装器。 通用函数&#xff08;ufunc&#xff09;有三种类型&…

【BUG】解决安装oracle11g或12C中无法访问临时位置的问题

项目场景&#xff1a; 安装oracle时&#xff0c;到第二步出现oracle11g或12C中无法访问临时位置的问题。 解决方案&#xff1a; 针对客户端安装&#xff0c;在cmd中执行命令&#xff1a;前面加实际路径setup.exe -ignorePrereq -J"-Doracle.install.client.validate.cli…

countDown+react+hook

道阻且长&#xff0c;行而不辍&#xff0c;未来可期 知识点一&#xff1a; new Date().getTime()可以得到得到1970年01月1日0点零分以来的毫秒数。单位是毫秒 new Date().getTime()/1000获取秒数1分钟60秒&#xff0c;1小时60分钟1hour:60*60>单位是秒 60*60*1000>单位…

远程办公中安全远程访问解决方案

什么是安全远程访问 安全的远程访问是一个至关重要的过程&#xff0c;可让您使用互联网从远处完全控制某人的设备。为了确保安全&#xff0c;为受保护的远程访问采取了额外的身份验证和加密措施。 为什么安全远程访问解决方案很重要 当 IT 技术人员从远处帮助人们解决计算机…

GWO-LSTM交通流量预测(python代码)

使用 GWO 优化 LSTM 模型的参数&#xff0c;从而实现交通流量的预测方法 代码运行版本要求 1.项目文件夹 data是数据文件夹&#xff0c;data.py是数据归一化等数据预处理脚本 images文件夹装的是不同模型结构打印图 model文件夹 GWO-LSTM测试集效果 效果视频&#xff1a;GWO…

NLNet论文总结和代码实现

Non-local Neural Networks&#xff08;非局部神经网络&#xff09;&#xff1a;使用自注意力机制捕获远程依赖。 论文&#xff1a; https://arxiv.org/pdf/1711.07971.pdf 源码&#xff1a; 长距离依赖关系&#xff0c;顾名思义&#xff0c;是要和远程建立关系&#xff0c;在l…

牛客:数对

题目&#xff1a; 解题思路&#xff1a;看到题目的时候&#xff0c;一般第1反应是用两个循环暴力解题&#xff0c;时间复杂度是O(n^2)&#xff0c;不能通过&#xff0c;所以要优化&#xff0c;通过找规律。 一、当 y < k 时&#xff0c; 不可能符合题意&#xff0c;所以 y 从…

数据集收集列表(opencv,机器学习,深度学习)持续更新

opencv 车牌识别数据集 opencv 手写数字识别数据集 机器学习 Pima Indians数据集&#xff0c;下载地址

Docker的革命:容器技术如何重塑软件部署之路

引言 在过去的几年中&#xff0c;容器技术已经从一个小众的概念发展成为软件开发和部署的主流方法。Docker&#xff0c;作为这一变革的先驱&#xff0c;已经深深地影响了我们如何构建、部署和运行应用程序。本文将探讨容器技术的起源&#xff0c;Docker如何崛起并改变了软件部…

VScode运行C语言出现的调试问题 lauch:program does not exist 解决方法

"lauch:program does not exist"错误通常表示编译器或调试器无法找到指定的可执行文件。这可能是由于几个原因引起的。首先&#xff0c;确保你的源代码文件夹路径不包含中文字符&#xff0c;因为这可能导致编译器无法识别文件。其次&#xff0c;检查你的launch.json文…

【Apollo学习笔记】——规划模块TASK之PATH_BOUNDS_DECIDER

文章目录 前言PATH_BOUNDS_DECIDER功能简介PATH_BOUNDS_DECIDER相关配置PATH_BOUNDS_DECIDER总体流程InitPathBoundsDecider1. fallbackGenerateFallbackPathBoundInitPathBoundaryGetBoundaryFromLanesAndADCUpdatePathBoundaryWithBufferTrimPathBounds 2. pull overGenerate…

自定义loadbalance实现feignclient的自定义路由

自定义loadbalance实现feignclient的自定义路由 项目背景 服务A有多个同事同时开发&#xff0c;每个同事都在dev或者test环境发布自己的代码&#xff0c;注册到注册中心有好几个(本文nacos为例)&#xff0c;这时候调用feign可能会导致请求到不同分支的服务上面&#xff0c;会…

图数据库Neo4j学习五渲染图数据库neo4jd3

文章目录 1.现成的工具2.Neo4j JavaScript Driver3.neovis4.neo4jd34.1neo4jd3和neovis对比4.2获取neo4jd34.3neo4jd3的数据结构4.4Spring data neo4.4.1 定义返回数据格式4.4.1.1NeoResults4.4.1.2GraphVO4.4.1.3NodeVO4.4.1.4ShipVO 4.4.2 SDN查询解析4.4.2.1 Repo查询语句4.…