kafka为什么如此之快?

news2024/11/19 22:48:43

天下武功,唯快不破。同样的,kafka在消息队列领域,也是非常快的,这里的块指的是kafka在单位时间搬运的数据量大小,也就是吞吐量,下图是搬运网上的一个性能测试结果,在同步发送场景下,单机Kafka的吞吐量高达17.3w/s,不愧是高吞吐量消息中间件的行业老大。
在这里插入图片描述
那究竟是什么原因让kafka如此之快呢?这也是面试官非常喜欢问的问题。

四个原因
原因一:磁盘顺序读写
生产者发送数据到kafka集群中,最终会写入到磁盘中,会采用顺序写入的方式。消费者从kafka集群中获取数据时,也是采用顺序读的方式。

无论是机械磁盘还是固态硬盘SSD,顺序读写的速度都是远大于随机读写的。因为对于机械磁盘顺序读写省去了磁头频繁寻址和旋转盘片的开销。而固态硬盘就更加复杂,这里不展开阐述。

下图是网上关于读写方式的性能比较。
在这里插入图片描述

机械磁盘顺序读写 53M/s,随读写 316k/s
固态硬盘顺序读写 42M/s, 随机读写 1000k/s
因而,由于kafka一般使用机械磁盘存储消息,因为机械磁盘的价格远小于固态硬盘SSD。

原因二:PageCache页缓存技术
前面提到了kafka采用顺序读写写入到磁盘中,难道是直接kafka到磁盘吗,实际上不是的,中间多了一道操作系统的PageCache页缓存,可以理解为内存。

在这里插入图片描述
当kafka有写操作时,先将数据写入PageCache中,然后在定时方式顺序写入到磁盘中。
当读操作发生时,先从PageCache中查找,如果找不到,再去磁盘中读取。
通过页缓存技术,更近一步的提高了读写的性能。

原因三:零拷贝技术
kafka之所以快的另外一个原因是采用了零拷贝技术。

首先我们来看下从磁盘读取数据到网卡场景下,传统IO的整个过程,如下图所示:
在这里插入图片描述

传统IO模型下,从磁盘读取数据,写到网卡设备中,经历了4次用户态和内核态之间的切换,以及4次数据的拷贝,包括CPU拷贝和DMA拷贝。这些操作都是十分损耗性能。

DMA, Direct Memory Access,
直接内存访问是一些计算机总线架构提供的功能,它能使数据从附加设备(如磁盘驱动器)直接发送到计算机主板的内存上。

那能否减少这样的切换和拷贝呢? 答案是肯定的,不知道大家发下没有,kafka的消息在应用层做任何转换,怎么存就怎么取,你看连序列化、反序列化都是在生产者和消费者做的。所以kafka采用了sendfile的零拷贝技术。
在这里插入图片描述

sendfile零拷贝技术在内核态将数据从PageCache拷贝到了Socket缓冲区,这样就大大减少了不同形态的切换以及拷贝。

所谓的零拷贝技术不是指不发生拷贝,而是在用户态没有进行拷贝。

原因四:kafka分区架构和批量操作
一方面kafka的集群架构采用了多分区技术,并行度高。另外一方面,kafka采用了批量操作。生产者发送的消息先发送到一个队列,然后有sender线程批量发送给kafka集群。
在这里插入图片描述

如何提高生产者的吞吐量?
kafka生产者提供的一些配置参数可以有助于提高生产者的吞吐量。

在这里插入图片描述
如何提高消费者的吞吐量?
如果是Kafka消费能力不足,则可以考虑增加Topic的分区数,并且同时提升消费组的消费者数量,消费者数 = 分区数,并发度最高。
如果是下游的数据处理不及时:提高每批次拉取的数量。批次拉取数据过少,使处理的数据小于生产的数据,也会造成数据积压。
fetch.max.bytes:默认 Default: 52428800(50 m)。消费者获取服务器端一批消息最大的字节数。如果服务器端一批次的数据大于该值(50m)仍然可以拉取回来这批数据,因此,这不是一个绝、对最大值。一批次的大小受 message.max.bytes (broker config)or max.message.bytes (topic config)影响。
max.poll.records:一次 poll 拉取数据返回消息的最大条数,默认是 500 条
优化消费者代码处理的逻辑。

总结

本文总结了Kafka为什么快的原因,4个关键字,磁盘顺序读写,页缓存技术,零拷贝技术,Kafka本身分区机制和批量操作。我们抓住这4个关键字,有点到面地和面试官娓娓道来。

Kafka 在性能上确实是一骑绝尘,但在消息选型过程中,我们不仅仅要参考其性能,还有从功能性上来考虑,例如 RocketMQ
提供了丰富的消息检索功能、事务消息、消息消费重试、定时消息等。

通常在大数据、流式处理场景基本选用 Kafka,业务处理相关选择 RocketMQ更佳。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1149854.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一百九十七、Java——IDEA项目中把多层文件夹拆开显示

一、目的 由于IDEA项目中,默认的是把文件夹连在一起显示,于是为了方便需要把这些连在一起的文件夹拆开,分层显示 如文件夹cn.kgc 二、解决措施 解决方法很简单 (一)找到IDEA项目上的小齿轮 (二&#xf…

QT实现用本地资源管理器来打开文件夹

QString path"文件夹路径";QDesktopServices::openUrl(QUrl("file:"path, QUrl::TolerantMode)); 在windows中QT编程,使用资源管理器来打开指定本地文件夹的方法: 第一种:使用Qprocess命令(相当于在cmd命令管…

c语言基础:L1-064 估值一亿的AI核心代码

以上图片来自新浪微博。 本题要求你实现一个稍微更值钱一点的 AI 英文问答程序,规则是: 无论用户说什么,首先把对方说的话在一行中原样打印出来;消除原文中多余空格:把相邻单词间的多个空格换成 1 个空格&#xff0c…

生产环境接口频繁502

目录 基本信息 问题现象 问题原因 排查过程 解决方案 基本信息 客户名称:xx集团 产品名称:ATS 3.0微服务单体 版本号:3.1.14.X 问题分类:环境问题 环境类型:K8S 问题现象 单体组织计划的新增/修改功能&#xff0…

基于STM32的多功能智能密码锁控制设计

**单片机设计介绍,1653基于STM32的多功能智能密码锁控制设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序文档 六、 文章目录 一 概要 基于STM32的多功能智能密码锁控制设计是一种用STM32微控制器开发的系统,用于控制和管理密码…

html获取网络数据,列表展示 第二种

html获取网络数据&#xff0c;列表展示 第二种 js遍历json数组中的json对象 image.png || - 判断数据是否为空&#xff0c;为空就显示 - <!DOCTYPE html> <html><head><meta charset"utf-8"><title>网页列表</title><script …

1.7 攻击面和攻击树

思维导图&#xff1a; 1.7 攻击面与攻击树 攻击面: 描述计算机和网络系统面对的安全威胁和攻击。 定义: 攻击面是由系统中可访问和可利用的漏洞所组成。常见攻击面: 向外部Web及其他服务器开放的端口和相应代码。防火墙内部的服务。处理入站数据、电子邮件、XML文件、Office文档…

css写个三角形

点击三角形&#xff0c;展开或者收起内容 <template><div><div class"zhankai" click"btn()">展开 <span :class"{sanjiao:true,rotate:flag}"></span></div><!-- 展示或者收起 --><el-collapse-…

21.14 Python 实现Web指纹识别

在当今的Web安全行业中&#xff0c;识别目标网站的指纹是渗透测试的常见第一步。指纹识别的目的是了解目标网站所使用的技术栈和框架&#xff0c;从而进一步根据目标框架进行针对性的安全测试&#xff0c;指纹识别的原理其实很简单&#xff0c;目前主流的识别方式有下面这几种。…

图像编辑软件 Pixelmator Pro mac中文版高级功能

Pixelmator Pro mac是一款功能强大、易于使用的图像编辑软件&#xff0c;适合各种用户进行图像处理、修复和设计。它提供了丰富多样的工具和功能&#xff0c;帮助您轻松创建出令人惊艳的图像作品。 Pixelmator Pro mac支持非破坏性编辑&#xff0c;意味着您可以对图像进行修改而…

Android---底层剖析 Window、Activity、View 三者关系

对于一个 Android 工程师来讲&#xff0c;或多或少都听说过 Window 的概念&#xff0c;并且隐约感受到它在 Activity 和 View 之间应该发挥着某种连接的作用。但如果要说出这三者之间的关系&#xff0c;多数 android 工程师都不知道从何下手。 Activity 的 setContentView Ac…

【前段基础入门之】=>CSS3新特性 transition 过渡

导语 过渡可以在不使用 Flash 动画&#xff0c;不使用 JavaScript 的情况下&#xff0c;让元素从一种样式&#xff0c;平滑过渡为另一种样式 【属性】&#xff1a; transition-property 作用&#xff1a;定义哪个属性需要过渡&#xff0c;只有在该属性中所定义的可变换属性&…

Maven进阶系列-继承和聚合

Maven进阶系列-继承和聚合 文章目录 Maven进阶系列-继承和聚合1. 继承2. 继承的作用2.1 在父工程中配置依赖的统一管理2.2 在父工程中声明自定义属性2.3 父工程中必须要继承的配置 3. 聚合4. 聚合的作用 1. 继承 Maven工程之间存在继承关系&#xff0c;例如工程B继承工程A&…

【数据挖掘 | 数据预处理】缺失值处理 重复值处理 文本处理 确定不来看看?

&#x1f935;‍♂️ 个人主页: AI_magician &#x1f4e1;主页地址&#xff1a; 作者简介&#xff1a;CSDN内容合伙人&#xff0c;全栈领域优质创作者。 &#x1f468;‍&#x1f4bb;景愿&#xff1a;旨在于能和更多的热爱计算机的伙伴一起成长&#xff01;&#xff01;&…

CESM模型教程

详情点击公众号链接&#xff1a;CESM模型教程 第一&#xff1a;运行前的准备 CESM 运行的系统和软件环境 CESM需要什么运行环境 CESM2.0运行环境的搭建 第二&#xff1a;Linux系统及编译 CESM 运行需要的Linux及编译 Linux的基础 Linux编译的基础 基于Make 和CMake的编译…

ubuntu(18.04) 安装 blast

1、下载 https://ftp.ncbi.nlm.nih.gov/blast/executables/blast/LATEST/2、解压&#xff0c;配置环境变量 tar zvxf ncbi-blast-2.14.1-x64-linux.tar.gz解压后改名为 blast 配置环境变量&#xff0c;可以不配置 使用的时候直接绝对路径使用 vim ~/.bashrc 将下面添加道最…

Goland连接服务器/虚拟机远程编译开发

创建SSH连接 SSH用于与远程服务器建立连接 Settings -> Tools -> SSH Configurations 添加新的ssh连接&#xff0c;Host为ip地址&#xff0c;Username为用户名&#xff0c;认证方式这里选择密码验证 全部填完后可以点击Test Connection测试连接是否成功 创建Deployment…

【Overload游戏引擎细节分析】PBR材质Shader---完结篇

PBR基于物理的渲染可以实现更加真实的效果&#xff0c;其Shader值得分析一下。但PBR需要较多的基础知识&#xff0c;不适合不会OpenGL的朋友。 一、PBR理论 PBR指基于物理的渲染&#xff0c;其理论较多&#xff0c;需要的基础知识也较多&#xff0c;我在这就不再写一遍了&…

带有强大提醒功能的电脑便签工具

在这个充满节奏感的现代生活中&#xff0c;每一天都需要精确规划和提醒&#xff0c;以确保工作计划得以按时完成。为了做到这一点&#xff0c;你需要一款强大的电脑便签工具&#xff0c;它不仅能让你记录工作计划&#xff0c;还能在关键时刻提醒你。 在电脑上记录工作计划是一…