一、基本概念及流程
- Broker:kafka集群中的实例
- Topic:队列的主题,逻辑概念;
- Partition:Topic分区,物理概念,同意parttion内消息有序;
- Producer & Consumer:生产消息的客户端 & 消费消息的客户端,kafka认为是服务器。
将每个Topic划分为多个分区Partition,每个分区时一组有序的消息日志,分区内每条消息都会关联一个连续的数字ID即offset,生产的一条消息只会送到一个分区上。topic是逻辑概念Partition是物理概念对用户透明,生产者只需要关心消息投递到哪个topic上消费者只需要关心在哪个topic行订阅数据。为了提高每个分区的可用性,分区也存在多个副本。图中相同颜色的分区互为副本。
分区partition是对topic消息进行分片存储,好处是:
- 负载均衡,同一个topic的分区分布在不同机器节点上,可以分担生产和消费的压力;
- 提升吞吐,分区分布在不同机器节点提升topic整体的吞吐量。
kafka存在两种模式:pull和pull模式
1、分区内存储的数据格式是怎样的?
分区内的数据使用消息日志的方式保存,在磁盘上只能追加日志文件,追加写入避免了随机IO操作,顺序IO没有额外寻址时间更能提升效率。追加写入导致日志文件是很大的,所以每个分区