2024-02-28（Kafka，Oozie，Flink）

1.Kafka的数据存储形式

一个主题由多个分区组成

一个分区由多个segment段组成

一个segment段由多个文件组成（log，index（稀疏索引），timeindex（根据时间做的索引））

2.读数据的流程

消费者的offset是一个针对分区的全局offset

可以根据这个offset找到segment段

接着需要将全局offset转换成segment的局部offset

根据局部offset，就可以从（.index稀疏索引）找到对应的数据位置

开始顺序读取

3.Oozie的概念

Oozie是用来管理Hadoop生态圈Job的工作流调度系统，运行于Java Servlet容器上的一个Java Web应用，Oozie是按照DAG（有向无环图）的顺序调度一系列的Map/Reduce或者Hive等任务。Oozie由hPDL（Hadoop Process Definition Language）定义（XML格式的语言）。使用场景包括：需要按照顺序进行一系列任务；并行处理的任务；定时和周期触发的任务；可视化作业流运行过程；运行结果或异常的通报。

4.Oozie的架构

Oozie Client：提供命令行（CLI），Java API，rest等方式，对Oozie的工作流流程的提交，启动，运行等操作。

Oozie Web：Oozie Server，本质是一个Java应用，可以使用内置的Web容器，也可以使用外置的Web容器。

Hadoop Cluster：底层执行Oozie编排流程的各个Hadoop生态圈组件。

Oozie各种任务的提交底层都是依赖于MR程序。

5.Oozie的基本原理

Oozie对于工作流的编排，是基于workflow.xml文件来完成的。用于预先将工作流执行规则定制于workflow.xml文件中，并在job.properties配置相关的参数，然后由Oozie Server向MR提交job来启动工作流。

流程节点：

ControlFlowNodes：控制工作流执行路径，包括start，end，kill，decision，fork，join。

Action Nodes：决定每个操作执行的任务类型，包括MapReduce，Java，hive，shell等。

举例：

6.Oozie工作流类型：

1）WorkFlow：规则相对简单，不涉及定时，批处理的工作流。顺序执行节点

缺点：没有定时和条件触发功能。

2）Coordinator

Coordinator将多个工作流Job组织起来，成为Coordinator Job，并制定触发时间和频率，还可以配置数据集，并发数等，类似于在工作流外部增加了一个协调器来管理这些工作流的工作流Job的运行。

3）Bundle

针对coordinator的批处理工作流。Bundle将多个coordinator管理起来，这样我们只需要一个Bundle提交即可。

6.Oozie官方自带了许多案例，里面封装了各种类型任务的配置模板

所以后续可以根据官方给的这些配置模板进行修改就好。

7.感觉很多中间件的使用就是配置好配置文件即可。在使用层面组件帮我们做了很多事

8.Oozie调度流程

1）根据官方自带的示例编写配置文件

job.properties workflow.xml

2）把任务配置信息连同依赖的资源一起上传到hdfs指定的路径，这个路径在配置中有

3）利用Oozie的命令进行提交

9.Oozie任务串联

在实际工作中，肯定会存在多个任务需要执行，并且存在上一个任务的输出的结果作为下一个任务的输入数据这样的情况，所以我们需要在workflow.xml配置文件当中配置多个action，实现多个任务之间的相互依赖关系。

比如：先执行一个shell脚本，执行完了之后再执行一个MR的程序，最后再执行一个hive程序。

其实就是依靠workflow.xml配置文件来控制好节点的流程。

10.Oozie定时调度

主要是通过coordinator来实现任务的定时调度，Coordinator模块主要通过xml来配置即可。

有两种调度方式：1）基于时间的定时任务调度；2）基于数据的任务调度。

11.Hue集成Oozie

背景：Oozie本身的开发不是很友好，不论是调度Hive程序还是调度MapReduce程序，都要编写大量的配置文件，然后做上传提交，再执行，比较麻烦。

Hue可以实现鼠标拖拽的办法来实现Oozie所支持的所有功能。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Flink

12.Flink支持所有的流式计算

13.Flink的发展

第 1 代：Hadoop MapReduc 批处理 Mapper、Reducer 2；

第 2 代：DAG 框架（Oozie 、Tez），Tez + MapReduce 批处理 1 个 Tez = MR(1) + MR(2) + ... + MR(n) 相比 MR 效率有所提升；

第 3 代：Spark 批处理、流处理、SQL 高层 API 支持自带 DAG 内存迭代计算、性能较之前大幅提；

第 4 代：Flink 批处理、流处理、SQL 高层 API 支持自带 DAG 流式计算性能更高、可靠性更高。

14.什么是Flink

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。

15.什么是批处理和流处理

批处理的特点是有界、持久、大量，批处理非常适合需要访问全套记录才能完成的计算工作，一般用于离线统计。流处理的特点是无界、实时，流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作，一般用于实时统计。

在 Spark 生态体系中，对于批处理和流处理采用了不同的技术框架，批处理由 SparkSQL 实现，流处理由 Spark Streaming 实现，这也是大部分框架采用的策略，使用独立的处理器实现批处理和流处理，而 Flink 可以同时实现批处理和流处理。

Flink 是如何同时实现批处理与流处理的呢？答案是，Flink 将批处理（即处理有限的静态数据）视作一种特殊的流处理。

上图为 Flink 技术栈的核心组成部分，值得一提的是，Flink 分别提供了面向流式处理的接口（DataStream API）和面向批处理的接口（DataSet API）。因此，Flink 既可以完成流处理，也可以完成批处理。Flink 支持的拓展库涉及机器学习（FlinkML）、复杂事件处理（CEP）、以及图计算（Gelly），还有分别针对流处理和批处理的 Table API。

16.Flink的四种运行模式

1）local模式

原理：在本地模拟多线程去模拟Flink中的各个角色。