1. 概述
- 1.1 Apache Flink
- 1.2 特点
- 1.3 Flink VS Spark Streaming
2. 安装与部署
2. Flink运行时的组件
- 2.1 作业管理器(JobManager)
- 2.2 任务管理器(TaskManager)
- 2.3 资源管理器(ResourceManager)
- 2.4 分发器（Dispatcher)
3. 任务提交流程
4. Flink API
- 4.1 不用级别的抽象
- 4.2 常用DataStream API
- - 4.2.1 Flink针对DataStream提供了大量的已经实现的DataSource (数据源)接口
  - 4.2.2 Flink针对DataStream提供了大量的已经实现的算子
  - - 4.2.2.1 Map
    - 4.2.2.2 Flatmap
    - 4.2.2.3 Filter
    - 4.2.2.4 KeyBy
    - 4.2.2.5 Reduce/Aggregations
    - 4.2.2.6 union
    - 4.2.27 旁路输出
    - 4.2.2.8 window/WindowAll
    - 4.2.2.8 Window有序消费
    - 4.2.2.9 RichAsyncFunction(外部数据访问的异步 I/O)

1. 概述

1.1 Apache Flink

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。

在这里插入图片描述

控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的JobManager所控制执行
JobManager会先接收要执行的应用程序,这个应用程序会包括:作业图(JopGraph)、逻辑数据流图(Logical dataflow graph)和打包了所有类、库和其他资源的JAR包
JobManager会把JopGraph转换成一个物理层面的数据流图,这个图被叫做"执行图"(ExecutionGraph)，包含了所有可以并发执行的任务
JobManager会向资源管理器(ResourceManager)请求执行任务必要的资源,也就是任务管理器(TaskManager)上的插槽(slot)。一旦它获取到了足够的资源,就会将执行图分发到真正运行它们的TaskManager上。而在运行过程中,JobManager会负责所有需要中央协调的操作,比如说检查点(checkpoints)的协调.

Flink中的工作进程。通常在Flink中会有多个TaskManager运行，每一个TaskManager都包含了一定数量的插槽（(slots)。插槽的数量限制了TaskManager能够执行的任务数量。
启动之后，TaskManager会向资源管理器注册它的插槽;收到资源管理器的指令后，TaskManager就会将一个或者多个插槽提供给
JobManager调用。JobManager就可以向插槽分配任务(tasks）来执行了。
在执行过程中，一个TaskManager可以跟其它运行同一应用程序的
TaskManager交换数据。

主要负责管理任务管理器(TaskManager）的插槽(slot),TaskManger插槽是Flink中定义的处理资源单元。
Flink为不同的环境和资源管理工具提供了不同资源管理器，比如YARN、Mesos、K8s，以及standalone部署。
当JobManager申请插槽资源时，ResourceManager会将有空闲插槽的TaskManager分配给JobManager。如果ResourceManager没有足够的插槽来满足JobManager的请求，它还可以向资源提供平台发起会话，以提供启动TaskManager进程的容器。

在这里插入图片描述

Flink提供了四种不同层级的API。低级API，核心API，Table API，SQL

在这里插入图片描述

Flink API 最底层的抽象为有状态实时流处理。其抽象实现是 Process Function，并且 Process Function 被 Flink 框架集成到了 DataStream API 中来为我们使用。自由度最高，从而允许程序可以实现复杂计算。
Flink API 第二层抽象是 Core APIs。Core APIs 提供的流式 API（Fluent API）为数据处理提供了通用的模块组件，例如各种形式的用户自定义转换（transformations）、联接（joins）、聚合（aggregations）、窗口（windows）和状态（state）操作等。此层 API 中处理的数据类型在每种编程语言中都有其对应的类。
Flink API 第三层抽象是 Table API。Table API 是以表（Table）为中心的声明式编程（DSL）API，例如在流式数据场景下，它可以表示一张正在动态改变的表。
表和 DataStream/DataSet 可以进行无缝切换，Flink 允许用户在编写应用程序时将 Table API 与 DataStream/DataSet API 混合使用。
Flink API 最顶层抽象是 SQL。这层抽象在语义和程序表达式上都类似于 Table API，但是其程序实现都是 SQL 查询表达式。SQL 抽象与 Table API 抽象之间的关联是非常紧密的，并且 SQL 查询语句可以在 Table API 中定义的表上执行。