Flink部署模式及核心概念

一.部署模式

1.1会话模式（Session Mode）

需要先启动一个 Flink 集群，保持一个会话，所有提交的作业都会运行在此集群上，且启动时所需的资源以确定，无法更改，所以所有已提交的作业都会竞争集群中的资源。

1.2单作业模式（Per-Job Mode）

会为每一个作业单独启动一个集群，且作业完成或关闭后，相应的资源也会被释放。

1.3应用模式（Application Mode）

前两种模式下，应用代码都是在客户端上执行的，然后再由客户端交由 JobManager，客户端需要下载依赖，再将二进制数据发送给 JobManager ，这会加重客户端所在节点的资源压力，而且会占用大量的网络带宽。

所以我们就可以直接将应用提交到 JobManager ，而不通过客户端。引用模式与单作业模式类似，只不过将应用直接交给 JboManager 执行。

二.Flink运行时架构

Standalone会话模式运行时架构图

2.1 作业管理器（JobManager）

JobManager是一个Flink集群中任务管理和调度的核心，是控制应用执行的主进程。且每个应用都i一个被一个唯一的JobManager所控制执行。JobManger又包含3个不同的组件：

1、JobMaster

是JobManager中最核心的组件，负责处理单独的作业（Job）。每个Job都有一个自己的JobMaster。

2.资源管理器（ResourceManager

负责资源的分配和管理，在Flink 集群中只有一个。所谓“资源”，主要是指TaskManager的任务槽（task slots）。任务槽就是Flink集群中的资源调配单元，包含了机器用来执行计算的一组CPU和内存资源。每一个任务（Task）都需要分配到一个slot上执行。

3.分发器（Dispatcher）

主要负责提供一个REST接口，用来提交应用，并且负责为每一个新提交的作业启动一个新的JobMaster 组件。

2.2 任务管理器（TaskManager）

askManager是Flink中的工作进程，数据流的具体计算就是它来做的。每一个TaskManager都包含了一定数量的任务槽（task slots）。Slot是资源调度的最小单位，slot的数量限制了TaskManager能够并行处理的任务数量

三.核心概念

3.1 并行度（Parallelism）

3.1.1 并行子任务和并行度

算子其实就是对流的操作，例如FlatMap、Sum等。

当需要处理的数据非常大时，我们可以将一个算子操作复制到多个节点执行，这样一个算子任务就被拆分成了多个“子任务（subtasks）”，再将它们分发到不同节点，就真正实现了并行计算。换句话来说就是一个算子操作不止一个人在干活，几个人干活就对应并行度。

Flink定义一个流程序的并行度，可以认为就是其所有算子中最大的并行度。

3.1.2 并行度的设置

在 Flink 中，有不同的方式来设置并行度，且他们的优先级也有区别。

1.代码中设置

可以直接在算子后调用 setParallelism() 方法来设置当前算子的并行度。

stream.map(word -> Tuple2.of(word, 1L)).setParallelism(2);

也可以在创建执行环境时设定全局并行度。

env.setParallelism(2);

2.提交应用时设置

在使用 Flink run 命令在命令行提交任务时，可使用 -p 来指定当前应用程序执行的并行度。
在WebUI中提交任务时，手动指定并行度。
在 Flink的 flink-conf.yaml 配置文件下的参数 parallelism.default 可配置默认并行度。

3.2 算子链（Operator Chain）

3.2.2 算子间的数据传输

一个数据流在算子之间传输数据的形式可以是一对一（one-to-one）的直通（forwarding）模式，也可以是打乱的重分区（redistributing）模式，具体是哪一种形式，取决于算子的种类。

一对一（One-to-one，forwarding）

在这种模式下，数据流还是保持着原来的分区和顺序，例如Source算子读取数据后，直接交给Map算子，它们之间不需要重新分区，也不需要调整顺序，这种就被称为“一对一”。例如 map、filter、flatMap等算子都是这种one-to-one的对应关系。

重分区（Redistributing）

在这种模式下，数据流的分区或顺序会发生变化，例如使用了 KeyBy算子。

3.2.3 合并算子链

在 Flink 中，并行度相同且为一对一的算子操作，可以直接合并为一个大的任务(Task)，这样原来的算子就成为了真正任务里的一部分，每个task会被一个线程执行。这样的技术被称为“算子链”（Operator Chain）。

例如有以下操作：

Source -> Map -> keyBy -> Sink

假设所有算子并行度为 2 ，由于 Source 和 Map 满足了算子链的要求（并行度相同且为一对一），则可以进行合并算子链。合并算子链后， Source 的一个子任务则会和 Map 的一个子任务合并成一个子任务， Source 和 Map 在未开启合并算子链前的子任务个数和为4，而开启合并算子链后的子任务个数和为2。

将算子链接成task是非常有效的优化：可以减少线程之间的切换和基于缓存区的数据交换，在减少时延的同时提升吞吐量。

在一些算子操作中计算量较重，或者需要精确排查错误，则可以考虑将某些算子的合并算子链关闭，不过 Flink 会默认为我们进行优化。

// 禁用算子链 map不会与前一个算子、后一个算子相连成一个算子链
.map(word -> Tuple2.of(word, 1L)).disableChaining();

// 从当前算子开始新链 与前一个算子断开，与后面的算子相连成一个算子链
.map(word -> Tuple2.of(word, 1L)).startNewChain()