1、kafka有哪些特点
高吞吐,低延迟
可以热扩展
并发度高
具有容错性(即使挂的只剩下一台也可以正常工作)
可靠性高
2、请简述你在那些场景下会选择kafka?kafka的应用
- 日志收集: 一个公司可以用kafka收集各种服务的log文件,通过kafka以统一接口服务的方式开放给 各种consumer,例如hadoop、solr等。
- 消息系统:解耦合生产者喝消费者、缓存消息等。
- 用户行为跟踪:kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。
- 运营指标:kafka也经常用来记录运营监控数据。包括收集各种分步式应用的数据,生产隔阂总操作的集中反馈,比如报警和报告。
- 作为流式处理的数据员:比如spark streaming 和flink
3、kafka的设计架构
1.主题topic和分区partiton
- topic
kafka中存储数据的逻辑分类;可以理解为数据库中 表 的概念;
比如,将app端日志、小程序端日志、业务订单表数据分别放入不通的topic - partiton分区(提升kafka吞吐量)
topic中数据的具体管理单元;
- 每个partiton由一个kafka broker服务器管理;
- 每个topic可以划分多个partiton,分布到多个broker上管理;
- 每个partiton都可以由多个副本;保证数据安全
-
分区副本replica
每个topic的每个partiton都可以配置多个副本(replica),以提高数据的可靠性;
每个partiton的所有副本中,必须有一个leader,其他的就是follower副本;follower定期与leader同步最新的数据;对外提供服务的只有leader; -
分区follower
partiton replica中的一个角色,它通过心跳通信不断的从leader中拉取、复制数据(只负责备份)。
如果所在的leader节点宕机,follower中会选举出新的leader; -
消息偏移量offset
partiton内部每条消息都会被分配一个递增id(offset);通过offset可以快速定位到消息的存储位置;
kafka只保证按一个partiton中的消息的顺序,不保证那一个分区的那一个,偏移量的数据只能追加,不能被修改
自我推导设计: -
kafka是用来存数据的;
-
现实世界数据有分类,所以存储系统也应有数据分类管理功能,如mysql的表;kafka有topic;
-
如一个topic的数据全部交给一台server存储和管理,则读写吞吐量有限;
-
所以,一个topic的数据应该可以分成多个部分(partition)分别交给多台server存储和管理;
-
如一台server宕机,这台server负责的partition将不可用,所以,一个partition应有多个副本;
-
一个partition有多个副本,则副本间的数据一致性难以保证,因此要有一个leader统领读写;
-
一个leader万一挂掉,则该partition又不可用,因此还要有leader的动态选举机制;
-
集群有哪些topic,topic有哪几个分区,server在线情况,等等元信息和状态信息需要在集群内部及客户端之间共享,则引入了zookeeper;
-
客户端在读取数据时,往往需要知道自己所读取到的位置,因而要引入消息偏移量维护机制;
broker服务器:一台 kafka服务器就是一个broker。一个kafka集群由多个 broker 组成。
生产者producer:消息生产者,就是向kafka broker发消息的客户端。
消费者consumer -
consumer :消费者,从kafka broker 取消息的客户端。
-
consumer group:消费组,单个或多个consumer可以组成一个消费组;
消费组是用来实现消息的广播(发给所有的 consumer)和单播(发给任意一个 consumer)的手段;
2.kafka的数据存储结构
kafka的整体存储结构
- 数据文件 名称规范:
生产者生产的消息会不断追加到log文件末尾,为防止log文件过大导致数据定位效率低下,Kafka采取了分片和索引机制
- 每个partition的数据将分为多个segment存储
- 每个segment对应两个文件:“.index"文件和“.log"文件。
index和log文件以当前segment的第一条消息的offset命名。
index索引文件中的数据为: 消息offset -> log文件中该消息的物理偏移量位置;
Kafka 中的索引文件以稀疏索引( sparse index )的方式构造消息的索引,它并不保证每个消息在索引文件中都有对应的索引;每当写入一定量(由 broker 端参数 log.index.interval.bytes 指定,默认值为 4096 ,即 4KB )的消息时,偏移量索引文件和时间戳索引文件分别增加一个偏移量索引项和时间戳索引项,增大或减小 log.index.interval.bytes的值,对应地可以缩小或增加索引项的密度;
查询指定偏移量时,使用二分查找法来快速定位偏移量的位置。
消息message存储结构
在客户端编程代码中,消息的封装类有两种:ProducerRecord、ConsumerRecord;
简单来说,kafka中的每个massage由一对key-value构成;
Kafka中的message格式经历了3个版本的变化了:v0 、 v1 、 v2
各个字段的含义介绍如下:
- crc:占用4个字节,主要用于校验消息的内容;
- magic:这个占用1个字节,主要用于标识日志格式版本号,此版本的magic值为1
- attributes:占用1个字节,这里面存储了消息压缩使用的编码以及Timestamp类型。目前Kafka 支持 gzip、snappy 以及 lz4(0.8.2引入) 三种压缩格式;[0,1,2]三位bit表示压缩类型。[3]位表示时间戳类型(0,create time;1,append time),[4,5,6,7]位保留;
- key length:占用4个字节。主要标识 Key的内容的长度;
- key:占用 N个字节,存储的是 key 的具体内容;
- value length:占用4个字节。主要标识 value 的内容的长度;
- value:value即是消息的真实内容,在 Kafka 中这个也叫做payload。
4、kafka分区的目的
分区对于kafka集群的好处是:实现负载均衡。
分区对于生产者和消费者来说,可以提高并行度,提高效率
5、kafka是如何做到消息的有序性
kafka中的每个partiton中的消息在写入时都是有序的(不断追加),而且单独一个partiton只能由一个消费者去消费,可以在里面保证消息的顺序性。但是分区之间的消息不能保证有序。
6、kafka的高可靠性是怎么实现的?
多副本存储
producer发送数据时可以配置ack=all 并且里面有hw(水位线) 还有leader-epoch(详见http://t.csdn.cn/Wqh94)
7、kafka数据一致性原理
一致性值得是在不论什么情况下,消费者Consumer都能读到一致的数据。
HW高水位线在0.11版本之前,只用了高水位线来保证,但是这个里面会出现一些问题:比如丢失数据,即便是ack等于-1的情况下,也可能会丢失数据
在0.11版本之后,新加了一个角色叫leader的纪元号,根据高水位线和纪元号来处理,再配上ack=-1的时候基本可以保证数据不会丢失
8、kafka在什么情况下会出现消息丢失
- topic的副本如果只有一个,那么一旦这个副本所在的briker服务器宕机,则可能丢失数据;
- producer往kafka中写入数据时,如果确认机制参数acks!=all,也可能会造成数据丢失;
- 不清洁选举机制如果开启,也可能会造成数据丢失(不清洁选举就是说在所有isr副本全部宕机的情况下可以让osr副本成为leader,而osr中的数据显然不安全,那么就算之前的leader重新上线,也会被进行日志截断)
9、怎么尽可能保证kafka的可靠性
复本数>1
ack=all
min.insync.replicas >=2
10、数据传输的语义有几种?
数据传输的语义通常有以下三种级别:
设置消费者里面由enable.auto.commit = true/false
- 最多一次:消息不会被重复发送,最多被传输一次,但也有可能一次不传输
- 最少一次:消息不会被漏发送,最少被传输一次,但也有有可能被重复传输
- 精确一次(Exactly once):不会漏传输也不会重复传输