kafka(一)

news2024/11/25 1:02:46

一:kafka架构介绍

在这里插入图片描述

1. Brokers

kafka集群包括一个或者多个服务器,服务器的节点叫做broker。

2. Topic

  • 类似于数据库中的table。
  • 物理上不通的topic会分开存储。一个topic的消息会存储在多个broker上。但是在读取的时候,只要选择好topic,不需要管数据在何处。
  • 创建流程。
    1.controller在ZooKeeper的/brokers/topics节点上注册watcher,当topic被创建,则 controller会通过watch得到该topic的partition/replica分配。
    2.controller从/brokers/ids读取当前所有可用的broker列表,对于set_p中的每一个 partition:
    2.1从分配给该partition的所有replica(称为AR)中任选一个可用的broker作为新的 leader,并将AR设置为新的ISR
    2.2将新的leader和ISR写
    入/brokers/topics/[topic]/partitions/[partition]/state
    3.controller通过RPC向相关的broker发送LeaderAndISRRequest。
  • 删除流程
    1.controller在zooKeeper的/brokers/topics节点上注册watcher,当topic被删除,则 controller会通过watch得到该topic的partition/replica分配。
    2.若delete.topic.enable=false,结束;否则controller注册在/admin/delete_topics上 的watch被fire,controller通过回调向对应的broker发送StopReplicaRequest。

3. Partition

在这里插入图片描述

  • Topic的数据分割程伟一个或者多个partition。
  • 每个topic至少有一个partition,当生产者产生数据的时候,根据分区分配策略,选择分区,然后将消息最佳到指定分区的末尾。
 ## Partation数据路由规则
1. 指定了 patition,则直接使用;
2. 未指定 patition 但指定 key,通过对 keyvalue 进行hash 选出一个 patition 
3. patition 和 key 都未指定,使用轮询选出一个 patition。

  • 每一条消息都会有自增编号。

标识顺序
○ 用于标识消息的偏移量
○ 每个Partition都有自己独立的编号

  • partition中的数据是有序的,不同partition间的数据丢失了数据的顺序。 如果topic有多个partition,消费数据时就不能保证数据的顺序。严格保证消息的消费顺序的场景 下,需要将partition数目设为1。
  • 数据存储
    每个partition中的数据使用多个segment文件存储。每个segment由.index,.log,timeindex(后续增加进来的)
    在这里插入图片描述

.log文件结构
包括:offset(8 Bytes)、消息体的大小(4 Bytes)、crc32(4 Bytes)、
magic(1 Byte)、attributes(1 Byte)、key length(4 Bytes)、key(K Bytes)、payload(N Bytes)等等
字段,可以确定一条消息的大小,即读取到哪里截止。


> .index

offset: 7211 position: 448934 CreateTime: 1587632825139 isvalid: true payloadsize: 29 magic: 1 compresscodec: NONE crc: 995429819 payload: 阳光小区,11,1587632825139
offset: 7212 position: 448997 CreateTime: 1587632825139 isvalid: true payloadsize: 28 magic: 1 compresscodec: NONE crc: 2299568067 payload: 单身小区,5,1587632825139
offset: 7213 position: 449059 CreateTime: 1587632825139 isvalid: true payloadsize: 29 magic: 1 compresscodec: NONE crc: 2772987037 payload: 花花小区,12,1587632825139
offset: 7214 position: 449122 CreateTime: 1587632825139 isvalid: true payloadsize: 28 magic: 1 compresscodec: NONE crc: 2369864650 payload: 阳光小区,6,1587632825139
offset: 7215 position: 449184 CreateTime: 1587632825139 isvalid: true payloadsize: 28 magic: 1 compresscodec: NONE crc: 820724779 payload: 单身小区,4,1587632825139

.index文件

offset: 1269114 position: 79002134
offset: 1269231 position: 79009410
offset: 1269316 position: 79014708
offset: 1269456 position: 79023419
offset: 1269715 position: 79039540
offset: 1269838 position: 79047192
offset: 1269933 position: 79053095
offset: 1270083 position: 79062430

在这里插入图片描述

如果我们想要读取offset=368776的message(如图),步骤如下:
(1)查找segment file
00000000000000000000.index表示最开始的文件,起始偏移量(offset)为0.第二个文件00000000000000368769.index的消息量起始偏移量为368770 = 368769 + 1.同样,第三个文件00000000000000737337.index的起始偏移量为737338=737337 + 1,其他后续文件依次类推,以起始偏移量命名并排序这些文件,只要根据offset 二分查找文件列表,就可以快速定位到具体文件。
当offset=368776时定位到00000000000000368769.index|log
(2)通过segment file查找message
通过第一步定位到segment file,当offset=368776时,依次定位到00000000000000368769.index的元数据物理位置和00000000000000368769.log的物理偏移地址,然后再通过00000000000000368769.log顺序查找直到offset=368776为止。

replication

  • 数据会存放到topic的partation中,但是有可能分区会损坏

  • 我们需要对分区的数据进行备份(备份多少取决于你对数据的重视程度)
    我们将分区的分为Leader(1)和Follower(N)
    Leader负责写入和读取数据
    Follower只负责备份
    保证了数据的一致性

  • 备份数设置为N,表示主+备=N(参考HDFS)

Leader

每个partition有多个副本,其中有且仅有一个作为Leader , Leader是当前负责数据的读写的 partition。

  • producer 先从 zookeeper 的 “/brokers/…/state” 节点找到该 partition 的 leader
  • producer 将消息发送给该 leader
  • leader 将消息写入本地 log
  • followers 从 leader pull 消息,写入本地 log 后 leader 发送 ACK
  • leader 收到所有 ISR 中的 replica 的 ACK 后,增加 HW(high watermark,最后 commit 的 offset) 并向 producer 发送 ACK

Follower

  • Follower跟随Leader,所有写请求都通过Leader路由,数据变更会广播给所有Follower, Follower与Leader保持数据同步。
  • 如果Leader失效,则从Follower中选举出一个新的Leader。
  • 当Follower挂掉、卡住或者同步太慢, leader会把这个follower从“in sync replicas”(ISR)列表中 删除,重新创建一个Follower。

producer

  • 生产者即数据的发布者,该角色将消息发布到Kafka的topic中。
  • broker接收到生产者发送的消息后, broker将该消息追加到当前用于追加数据的segment文件中。 生产者发送的消息,存储到一个partition中。
  • 生产者也可以指定数据存储的partition。

consumer

  • 消费者可以从broker中读取数据。消费者可以消费多个topic中的数据。
  • kafka 提供了两套 consumer API:
  1. The high-level Consumer API
  2. The SimpleConsumer API
    high-level consumer API 提供了一个从 kafka 消费数据的高层抽象,而 SimpleConsumer API 则 需要开发人员更多地关注细节。

Consumer Group

  • 每个Consumer属于一个特定的Consumer Group (可为每个Consumer指定group name,若不 指定group name则属于默认的group)。
  • 将多个消费者集中到一起去处理某一个Topic的数据,可以更快的提高数据的消费能力
  • 整个消费者组共享一组偏移量(防止数据被重复读取),因为一个Topic有多个分区
    在这里插入图片描述

offset偏移量

  • 可以唯一的标识一条消息
  • 偏移量决定读取数据的位置,不会有线程安全的问题,消费者通过偏移量来决定下次读取的消息
  • 消息被消费之后,并不被马上删除,这样多个业务就可以重复使用kafka的消息
  • 我们某一个业务也可以通过修改偏移量达到重新读取消息的目的,偏移量由用户控制
  • 消息最终还是会被删除的,默认生命周期为1周(7*24小时)

Zookeeper

kafka 通过 zookeeper 来存储集群的 meta 信息。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/754206.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Centos Stream9安装Neovim的详细过程

Centos Stream9下的Neovim的安装步骤: 安装neovim Index of /pub/epelhttps://dl.fedoraproject.org/pub/epel/ yum install -y https://dl.fedoraproject.org/pub/epel/epel-release-latest-9.noarch.rpm yum install -y neovim python3-neovim yum install -y …

【MySQL】不允许你不会全文本搜索

🎬 博客主页:博主链接 🎥 本文由 M malloc 原创,首发于 CSDN🙉 🎄 学习专栏推荐:LeetCode刷题集 🏅 欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正&#xff0…

【ShenYu系列】ShenYu网关条件匹配的设计及原理分析

ShenYu网关中用到了很多有趣的设计,我对其中的条件匹配的实现尤其感兴趣,所以研究一下具体实现的原理。我这边用到的shenyu版本是2.6.0-SNAPSHOT。 应用入口 原理拆解 AbstractShenyuPlugin#execute,获取到SelectorData集合,进行…

Inkscape扩展脚本入门

Inkscape官网 https://inkscape.org/ 建议下载1.3版本 官方插件脚本文档 https://inkscape-extensions-guide.readthedocs.io/en/latest/index.html 但这个文档似乎和当前版本不符合,直接按照其内的方法写脚本会有问题 Inkscape插件加载目录 默认情况下&…

LVGL开发:配置模拟器学习LVGL V8.3

文章目录 模拟器配置常用控件学习基本知识WidgetEvents 输入设备ImagesScreen 参考 模拟器配置 LVGL支持多种IDE下配置模拟器: 在WINDOWS下面,大家最常使用的是VS2019,为了和大家保持一致,这里也使用VS2019进行配置。 首先&…

Matlab export_fig 输出高清图片和部分运行错误问题

Matlab export_fig 输出占空间较小的矢量高清图和部分运行错误问题 Matlab export_fig 的安装与运行错误export_fig 配置:安装后一直提示加载Ghostscript运行错误export_fig输出pdf的本质过程export_fig介绍几种生成图片的大小 Matlab export_fig 的安装与运行错误 …

mysql数据库备份与还原、索引、视图

一、备份与还原 /***************************样例表***************************/ CREATE DATABASE booksDB; use booksDB; CREATE TABLE books ( bk_id INT NOT NULL PRIMARY KEY, bk_title VARCHAR(50) NOT NULL, copyright YEAR NOT NULL …

Transaction事务使用了解

1.功能概述 ​ 在wiki的解释中,事务是一组单元化的操作,这组操作可以保证要么全部成功,要么全部失败(只要有一个失败的操作,就会把其他已经成功的操作回滚)。 ​ 这样的解释还是不够直观,看下…

利用BP网络输电线路故障诊断(Python代码,压缩包带有数据集和代码,解压缩可直接运行)

1.数据集介绍 将故障区分为具体的不同类型:单相短路故障、两相接地短路故障、两相相间故障、三相相间短路故障。这里随意举出每种类别的两个样本进行展示。 GCBAIaIbIcVaVbVc1001-151.2918124-9.67745156385.800162260.400749853-0.132934945-0.2678149071001-336…

git下载源码及环境搭建之前端(三)

学习目标: vue 新项目的 前端环境搭建 vue 项目在 使用 Visual Studio Code 开发前端项目环境的搭建及 相关文件的配置 操作步骤: 前端: 下图所示为开发时前端所用的编辑器 注意:在配置时 有时候 localhost 可能 不太好用&…

小程序源码开发带司机入驻搬家拉货线上接单多端合一

1.注册与登录: 用户可以注册账号并登录到小程序,以便进行后续操作和管理。 2.货物管理: 用户可以添加、编辑和删除货物信息。 货物信息包括货物名称、数量、重量、尺寸、装载方式等。 3.车辆管理: 用户可以添加、编辑和删除…

8.postgresql--Update join 和 Delete using

Update join Update join用于基于另一张表更新表数据,语法如下: UPDATE t1 SET t1.c1 new_value FROM t2 WHERE t1.c2 t2.c2;CREATE TABLE product_segment (id SERIAL PRIMARY KEY,segment VARCHAR NOT NULL,discount NUMERIC (4, 2) );INSERT INTO…

【数学建模】——拟合算法

【数学建模】——拟合算法 拟合算法定义:与插值问题不同,在拟合问题中不需要曲线一定经过给定的点。拟合问题的目标是寻求一个函数(曲线),使得该曲线在某种准则下与所有的数据点最为接近,即曲线拟合的最好&…

【微信小程序-uniapp】CustomPickerMul 自定义多选选择器组件

1. 效果图 2. 组件完整代码 <template><view class="custom-picker-mul"><view :class&#

MFC学习之2048小游戏程序源码

2048游戏的开发原理相对简单&#xff0c;它基于一个4x4的方格&#xff0c;通过控制数字方块的移动来合成相同的数字方块&#xff0c;并生成新的数字方块。 具体实现过程如下&#xff1a; 确定需求&#xff1a;首先需要明确游戏的功能需求&#xff0c;如产生随机数字方块、控制…

PostgreSQL的进程架构和内存架构

文章首发地址 PostgreSQL的进程架构 PostgreSQL的进程架构是由多个进程组成的&#xff0c;每个进程都有不同的作用和职责。下面是PostgreSQL的进程架构的详细说明&#xff1a; 后台进程(Postmaster) 后台进程是PostgreSQL启动时创建的第一个进程&#xff0c;它负责管理和控…

Android oom_adj 详细解读

源码基于&#xff1a;Android R 0. 前言 在博文《oom_adj 内存水位算法剖析》一文中详细的分析了lmkd 中针对 oom_adj 内存水位的计算、使用方法&#xff0c;在博文《oom_adj 更新原理(1)》、《oom_adj 更新原理(2)》中对Android 系统中 oom_adj 的更新原理进行了详细的剖析。…

STM32定义变量到指定内存位置

rt thread&#xff0c; 怎么定义变量到指定内存位置&#xff1f; OpenCat是由未来可编程机器人宠物制造商Petoi开发的基于Arduino和Raspberry Pi的开源四足机器人宠物框架。 非 gcc 版 定义一个宏 #ifndef __MEMORY_AT #if (defined (__CC_ARM)) #define _…

来电屏蔽号码分析

场测反馈77号码开头的电话号码屏蔽后&#xff0c;来电可以屏蔽&#xff0c;但是短信无法屏蔽 //Blocker is close 行 2689: 05-19 12:12:36.477096 2348 2348 I TelecomFramework: TelephonyConnectionService: onCallFilteringCompleted(TC3_1, CallFilteringCompletionInf…

leetcode:1184. 公交站间的距离(python3解法)

难度&#xff1a;简单 环形公交路线上有 n 个站&#xff0c;按次序从 0 到 n - 1 进行编号。我们已知每一对相邻公交站之间的距离&#xff0c;distance[i] 表示编号为 i 的车站和编号为 (i 1) % n 的车站之间的距离。 环线上的公交车都可以按顺时针和逆时针的方向行驶。 返回乘…