Kafka篇之参数优化进而提高kafka集群性能

news2024/12/19 3:12:53

1. Kafka性能优化分类

Kafka集群的性能优化涉及多个方面,包括硬件资源、网络、配置文件参数等。
调优目标通常是为了提高吞吐量、减少延迟、提升稳定性和故障恢复能力。
以下是Kafka集群调优的常见策略,以及调优后的配置文件示例。

1. 硬件资源调优

CPU: Kafka是一个多线程应用,建议使用多核CPU以充分利用并发。
内存: Kafka对内存的要求较高,尤其是对于消息的缓存和操作日志文件(日志段)。建议分配足够的内存给Kafka。
磁盘: Kafka的性能依赖于磁盘IO,建议使用高性能的磁盘(如SSD)。
网络带宽: 高吞吐量的Kafka集群需要足够的网络带宽,确保集群节点之间有足够的带宽进行数据复制和日志传输。

2. Kafka配置调优

Kafka的配置文件server.properties有许多参数可以调整,以优化集群的性能。
以下是几个关键参数以及调优的建议。

(1) 服务器配置文件 server.properties

# Kafka broker ID, 每个broker需要一个唯一ID
broker.id=0

# 消息存储目录,建议将日志存储在SSD上以提高性能
log.dirs=/var/lib/kafka/logs

# 分区副本数量,副本数越多,数据的可靠性越高,但吞吐量可能会受影响
# 建议设置为3,适合大多数生产环境
default.replication.factor=3

# 每个分区的日志保留时间,单位为毫秒
log.retention.ms=604800000  # 默认7天

# 每个分区的日志文件大小,当日志文件大小达到此限制时,会生成新日志文件
log.segment.bytes=1073741824  # 1GB

# 为了避免写入磁盘过快,Kafka会将消息先保存在内存中,这个值决定了内存的最大占用量
# 一般设置为物理内存的 50% 左右
log.flush.interval.messages=10000
log.flush.interval.ms=1000

# Kafka的消息压缩,选择合适的压缩算法可以节省磁盘空间并提高传输效率
# 推荐使用Snappy,较为平衡的压缩性能和压缩速度
compression.type=snappy

# 设置最大请求和响应的大小
# 如果使用较大的消息,适当调大此值
# 默认值:104857600 (100MB)
max.request.size=104857600

# 最大请求处理时间
# 设置请求的超时时间,用来避免过长的请求处理时间
request.timeout.ms=30000

# Kafka生产者的最大请求大小
producer.max.request.size=104857600

# 消费者请求超时时间(ms),调整为较大的值有时可以避免因短暂网络抖动造成的请求失败
fetch.max.wait.ms=500

# 发送消息的批量大小,越大,吞吐量越高,但会增加延迟
# 默认:16384
batch.size=16384

# 生产者最大重试次数
retries=3

# 控制生产者每批消息的大小
linger.ms=1

# 每个分区中最大消息的大小
max.message.bytes=1000000

# 分区数:增加分区数可以提高并行度和吞吐量,但也会增加管理和存储开销
num.partitions=6

# 是否启用压缩日志
log.compress=true

# 默认日志保留策略
log.retention.policy=delete  # 可以设置为compact用于合并日志

# 发送数据的缓冲区大小,设置合理的大小可以提高吞吐量
socket.send.buffer.bytes=102400

# 接收数据的缓冲区大小
socket.receive.buffer.bytes=102400

# Kafka的Zookeeper连接超时
zookeeper.connection.timeout.ms=6000

(2) 网络层配置

网络带宽与延迟:Kafka的吞吐量与网络带宽和延迟密切相关。如果集群部署在不同数据中心或跨地区部署,需要确保网络的低延迟和高带宽。
tcp的缓冲区:可以通过调整TCP缓冲区大小来提高数据的传输效率,特别是对于大消息的吞吐。

socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400

(3) Kafka生产者配置 (producer.properties)

生产者是Kafka的客户端之一,性能优化主要集中在以下几项:
batch.size:指定消息批量大小。合理设置可以提高吞吐量。
linger.ms:设置生产者发送请求的延迟时间,较大的linger值有助于提高批量处理的效率。
acks:确认级别,可以设置为all以确保数据完全被副本确认,最大限度地保证数据一致性。

# 生产者发送数据的批量大小(默认16KB)
batch.size=16384

# 发送数据的最大延迟(设置为1ms,增加吞吐量)
linger.ms=1

# 生产者确认机制:设置为all时,所有副本都确认后才返回ACK
acks=all

# 设置生产者的压缩方式,Snappy是一个较好的压缩算法
compression.type=snappy

# 生产者最大请求大小
max.request.size=104857600  # 100MB

(4) Kafka消费者配置 (consumer.properties)

消费者的调优也十分重要,主要集中在以下几个方面:
fetch.min.bytes:消费者每次获取数据的最小字节数。
fetch.max.bytes:消费者每次最大获取数据的字节数。
max.poll.records:消费者每次拉取消息的最大数量。

# 设置每次拉取的最小消息字节数
fetch.min.bytes=1024

# 设置每次拉取的最大消息字节数
fetch.max.bytes=52428800  # 50MB

# 每次poll最大消息数量
max.poll.records=500

# 消费者获取消息的最大延迟时间
max.poll.interval.ms=300000  # 5分钟

# 设置消费者的批处理大小
fetch.max.wait.ms=500

3. 调优后的一些注意事项

  • JVM参数:Kafka是Java应用,因此JVM参数的调整对性能也有重要影响。

例如,通过调整-Xms和-Xmx来配置堆内存大小。通常建议将其设置为物理内存的一半,但不超过32GB,以避免JVM内存管理上的问题。

-Xms4G
-Xmx4G
  • 日志清理策略:Kafka的日志清理是基于配置的,

通常有两种策略:delete(删除日志)和compact(压缩日志)。
删除策略适用于实时数据流,压缩策略适用于需要保留历史数据的应用。

4. 总结

通过以上配置的调整,可以根据实际业务的需求,优化Kafka集群的吞吐量、延迟、资源利用率等。为了确保集群稳定,建议定期监控集群的运行状态,并根据实际情况对配置进行动态调整。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2261905.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构 ——前缀树查词典的实现

数据结构 ——前缀树查词典的实现 一、前缀树的概念 前缀树是一种多叉树结构,主要用于存储字符串。每个节点代表一个字符,路径从根节点到叶节点表示一个完整的字符串。前缀树的关键特征是 共享前缀,也就是说,如果两个字符串有相…

React里循环tab列表,并实现点击切换class

介绍 在 React 框架里,通过循环去显示 tab列表的标题,并且添加点击事件,当前点击的tab高亮显示。就像 vue 里 通过 v-for 显示列表并且点击时添加 activeClass 一样。 实现效果 代码 主要通过 map方法来实现列表的循环显示,然后…

selenium 在已打开浏览器上继续调试

关闭浏览器,终端执行如下指令,--user-data-dir换成自己的User Data路径 chrome.exe --remote-debugging-port9222 --user-data-dir"C:\Users\xxx\AppData\Local\Google\Chrome\User Data" 会打开浏览器,打开百度,如下状…

Pytest-Bdd vs Behave:选择最适合的 Python BDD 框架

Pytest-Bdd vs Behave:选择最适合的 Python BDD 框架 Pytest BDD vs Behave:选择最适合的 Python BDD 框架BDD 介绍Python BDD 框架列表Python BehavePytest BDDPytest BDD vs Behave:关键区别Pytest BDD vs Behave:最佳应用场景结…

B站bilibili视频转文字字幕下载方法

本文将讲述介绍一种使用本地工具如何快速的下载B站的字幕为本地文本文件的方法。 通常获取B站字幕需要在浏览器中安装第三方插件,通过插件获取字幕。随着大模型,生成式AI,ChatGPT的应用,B站也提供了AI小助手对视频的内容进行总结…

ElasticSearch的自动补全功能(拼音分词器、自定义分词器、DSL实现自动补全查询、RestAPI实现自动补全查询)

文章目录 1. 什么是自动补全2. 拼音分词器2.1 初识拼音分词器2.2 下载拼音分词器2.3 安装拼音分词器2.4 测试拼音分词器 3. 自定义分词器3.1 拼音分词器存在的问题3.2 分词器(analyzer)的组成3.3 如何自定义分词器3.4 拼音分词器的可选参数3.5 配置自定义…

day12 接口测试 ——入门→精通→实战(1)

【没有所谓的运气🍬,只有绝对的努力✊】 目录 1、接口测试分类 1.1 内部接口: 1.2 外部接口: 2、目前接口架构设计 2.1、基于SOAP架构, 2.2、基于RPC架构, 2.3、基于RestFul架构, 2.3.1…

54、库卡机器人轴的软限位设置

步骤1:将用户组改为“专家”。 步骤2:点击“投入运行”----“售后服务”-----“软件限位开关” 步骤3:就可以针对每个轴修改对应的角度值,然后点击“保存”。

PHP+MySQL 学生信息管理系统

目录 MySQL建表指令 主页面展示 主页面源代码如下 增:添加学生信息 添加html如下 html:主要用于显示网页内容 成功添加后回显 ​编辑 增加php如下 删:删除学生信息 删除html如下 成功删除后回显 删除php如下 改:修改学…

【第三节】Git 基本操作指南

目录 前言 一、获取与创建项目 1.1 git init 1.2 git clone 二、基本快照操作 2.1 git add 2.2 git status 2.3 git diff 2.4 git commit 2.5 git reset HEAD 三、 文件管理 3.1 git rm 3.2 git mv 四、Git 文件状态 5.1 工作目录 5.2 暂存区 5.3 本地仓库 5…

【第六节】Git Flow:分支管理模型与工作流程

一、Git Flow 简介 1.1 什么是 Git Flow Git Flow 是一种基于 Git 的分支管理模型,旨在帮助团队更好地管理和发布软件。它由 Vincent Driessen 在 2010 年提出,通过一套标准的分支命名和工作流程,使开发、测试和发布过程更加有序和高效。不过…

Windows 与 Linux 下 Ping IPv6 地址 | 常用网络命令

注:本文为网络命令相关文章合辑。 未整理去重。 一、IPv6 概述 IPv6 即 “Internet 协议版本 6”,因 IPv4 地址资源面临耗尽问题而被引入以替代 IPv4。IPv6 则提供了理论上多达 2 128 2^{128} 2128 个地址,有效解决地址不足困境。 IPv6 具…

GB28181系列三:GB28181流媒体服务器ZLMediaKit

我的音视频/流媒体开源项目(github) GB28181系列目录 目录 一、ZLMediaKit介绍 二、 ZLMediaKit安装、运行(Ubuntu) 1、安装 2、运行 3、配置 三、ZLMediaKit使用 一、ZLMediaKit介绍 ZLMediaKit是一个基于C11的高性能运营级流媒体服务框架,项目地址&#xf…

【深度学习】深刻理解Swin Transformer

Swin Transformer 是一种基于 Transformer 的视觉模型,由 Microsoft 研究团队提出,旨在解决传统 Transformer 模型在计算机视觉任务中的高计算复杂度问题。其全称是 Shifted Window Transformer,通过引入分层架构和滑动窗口机制,S…

uniCloud云开发视频教程-从基础入门到项目开发实战-uniapp进阶课文章管理系统(云函数/云数据库/云存储)

大家好,我是爱搞知识的咸虾米。 今天给大家带来一门uniCloud基础入门到项目开发实战的课程。 视频学习地址:https://www.bilibili.com/video/BV1PP411E7qG/ 开始学习这门课之前,最好先学习一下uniapp零基础入门这套课,相信很多同…

GLB格式转换为STL格式

GLB与STL格式简介 GLB格式 GLB代表“GL传输格式二进制文件”(GL Transmission Format Binary)。GLB主要用于共享3D数据,包含三维模型、场景、光源、材质、节点层次和动画等详细信息,是一种标准化的文件格式,适用于多…

Qt编译MySQL数据库驱动

目录 Qt编译MySQL数据库驱动 测试程序 Qt编译MySQL数据库驱动 (1)先找到MySQL安装路径以及Qt安装路径 C:\Program Files\MySQL\MySQL Server 8.0 D:\qt\5.12.12 (2)在D:\qt\5.12.12\Src\qtbase\src\plugins\sqldrivers\mysql下…

MySQL通过binlog日志进行数据恢复

记录一次阿里云MySQL通过binlog日志进行数据回滚 问题描述由于阿里云远程mysql没有做安全策略 所以服务器被别人远程攻击把数据库给删除,通过查看binlog日志可以看到进行了drop操作,下面将演示通过binlog日志进行数据回滚操作。 1、查询是否开始binlog …

如何在 Ubuntu 22.04 上安装和使用 Rust 编程语言环境

简介 Rust 是一门由 Mozilla 开发的系统编程语言,专注于性能、可靠性和内存安全。它在没有垃圾收集的情况下实现了内存安全,这使其成为构建对性能要求苛刻的应用程序(如操作系统、游戏引擎和嵌入式系统)的理想选择。 接下来&…

前端项目初始化搭建(二)

一、使用 Vite 创建 Vue 3 TypeScript 项目 PS E:\web\cursor-project\web> npm create vitelatest yf-blog -- --template vue-ts> npx > create-vite yf-blog --template vue-tsScaffolding project in E:\web\cursor-project\web\yf-blog...Done. Now run:cd yf-…