Flink面试题总结

一、简单介绍一下 Flink

 Apache Flink 是一个实时计算框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算

二、Flink集群有哪些角色？各自有什么作用？（flink架构）

--JobManager：
JobManager是Flink集群中的主节点，负责协调和管理整个作业的执行过程
--TaskManager
TaskManager是Flink集群中的工作节点，负责实际执行作业的任务
--ResourceManager
ResourceManager是Flink集群中的资源管理器，负责统一管理和分配集群的计算资源
--Client
Client是Flink程序提交的客户端,Client需要从用户提交的Flink程序配置中获取JobManager的地址，并建立到JobManager的连接，将Flink Job提交给JobManager

三、说说 Flink 资源管理中 Task Slot 的概念

Task Slot是TaskManager中用于执行并行任务的资源单元。
每个TaskManager可以包含多个Task Slot，这些Slot被分配的资源是固定的，用于执行并行的任务或算子。

四、Flink 的常用算子

--Map：
描述：Map算子将输入流（DataStream）中的每一个元素转换为另一个元素。它实现了一对一的映射关系。

--FlatMap：
描述：FlatMap算子将输入流（DataStream）中的每一个元素转换为0个、1个或多个元素。常用于拆分操作。

--Filter：
描述：Filter算子过滤出符合指定条件的元素，只保留返回true的元素。

--KeyBy：
描述：KeyBy算子逻辑上将流拆分为不相交的分区，每个分区包含具有相同key的元素。在内部，它使用哈希函数实现分区。

--Reduce：
描述：Reduce算子对KeyedStream（经过KeyBy操作后的流）中的元素进行聚合计算，最终聚合成一个元素。常用的方法有average、sum、min、max、count等。

--Window 和 WindowAll：
描述：Window和WindowAll算子用于在KeyedStream或DataStream上定义窗口，以便在窗口内对数据进行聚合或其他操作。
示例：计算在最近5秒内到达的数据的总和。

--Union：
描述：Union算子将两个或两个以上的DataStream合并成一个新的DataStream，包含所有DataStream的元素。

--Window Join：
描述：Window Join算子根据给定的key和窗口对两个DataStream进行join操作。

五、Flink中的窗口有那些？

Flink中有四大类窗口，根据时间语意可以细分为八种小窗口。基于事件时间和基于处理时间
--滚动窗口
具有固定大小、不重叠的窗口。
--滑动窗口
具有固定大小、可以滑动的窗口，窗口之间可以有重叠。
--会话窗口
基于时间间隔来定义窗口，当一定时间内没有新的数据到达时，就认为会话结束。
--全局窗口
全局窗口是一个包含所有数据的窗口，通常用于全局聚合操作

六、Flink on yarn部署模式

--1、Session模式（会话模式）
需要事先申请资源，启动JobManager和TaskManager，作业执行完成后，资源不会被释放，会一直占用系统资源
--2、Per-Job模式（单一作业模式）
main函数在客户端执行，如果代码报错在本地可以看到部分错误日志
--3. Application模式（应用模式）
main方法在集群中执行，如果代码报错看不到详细地错误日志

七、Flink中的时间分为哪几类？

--事件时间
事件时间是指数据自身携带的时间戳，代表了数据产生的实际时间,这个时间戳通常是在数据采集设备中产生的.
--处理时间
数据被Flink系统处理时时间,与现实的时间相差不多

八、Flink 中的Watermark是什么概念，起到什么作用？

水位线是Flink中用来衡量事件时间（Event Time）进展的标记,主要内容就是一个时间戳，用来指示最新一条数据的事件时间。

--作用
处理乱序数据和延迟数据

九、Flink是如何支持批流一体的？

Flink提供了DataStream API,这是一个统一的编程模型，用于同时处理无界（流处理）和有界（批处理）数据流。

十、Flink SQL的实现原理是什么？

1、解析器将用户编写的SQL语句解析为抽象语法树（AST）并生成逻辑执行计划
2、逻辑执行计划经过优化器优化后，生成物理执行计划
3、物理执行计划中的节点被转化为对应的算子，并将这些算子组合成一个数据流图（Dataflow Graph）提交到Flink平台执行

十一、你了解Flink的容错机制吗？

Flink的容错机制是确保程序在发生故障时能够保证不丢失的关键机制
--检查点
检查点是Flink容错机制的核心Flink会定期地为状态快照，这些快照就是检查点。当发生故障时，Flink可以回滚到上一个检查点，保证数据不丢失。

十二、flink确保至少一次和精确一次

Flink支持两种容错语义：
--至少一次（At Least Once）
这是Flink的默认容错语义。它保证每条数据至少被处理一次，但在某些情况下，可能会因为故障导致数据被重复处理。
--精确一次（Exactly Once）
这需要额外的配置和支持，但它可以确保每条数据只被处理一次，即使在发生故障的情况下也不会丢失或重复处理数据。这通常涉及到在数据源处使用事务性写入，以确保在检查点完成时所有的数据都被正确地写入到外部系统。

十四、如果Flink中的Window出现了数据倾斜，你有什么解决办法？

--重新设计窗口聚合的key
数据倾斜的本质原因之一是数据源头发送的数据量速度不同，导致某些key的数据量过大。重新设计窗口聚合的key，使得数据能够更加均匀地分布到不同的窗口和计算节点中。

--增加并行度
使用setParallelism()方法增加计算节点的并行度，将数据更加均衡地分配到不同的计算节点中进行处理。

--对数据进行分区
使用Flink的rescale()、shuffle()等算子对数据进行分区，将数据分散到不同的计算节点中进行处理。

十五、 Flink任务延迟高，想解决这个问题，你会如何入手？

--分析延迟原因与解决
1、看是否出现资源不足问题，如果有,可以调整参数优化资源配置（增加并行度、合理设置TaskManager slot数量）或者增加集群资源来解决
2、看是否出现数据倾斜问题，如果有,可以重新分区来解决

十六、Flink是如何处理反压的？

--反压
通常发生在实时数据处理过程中，上游节点的生产速度大于下游节点的消费速度时。

--反压处理策略
1、使用缓冲区：使用缓冲区来缓冲数据，当系统处理能力不足时，缓冲区可以暂时存储数据，以避免数据丢失和延迟增加。
2、提高计算资源：增加计算资源，包括增加计算节点、增加CPU和内存等，以提高系统的处理能力。

十七、Flink Job的提交流程

1、Flink作业被编译和提交时，Flink框架会分析代码并构建数据流图（Dataflow Graph），在Spark中，这个图被称为DAG（有向无环图）。
2、Dataflow会被提交到JobManager并被拆分为一个一个的个task
3、这些task会被发送到TaskManager中的TaskSlot执行

十八、Flink中的状态（State）是什么？

状态是处理数据流过程中，用于保存和恢复数据的机制，状态被保存到状态后端中，保证了flink的容错。

十九、Flink如何处理数据倾斜

--1 使用分区策略
rebalance()、rescale()、shuffle()：这些算子可以帮助将数据均匀分配到不同的计算节点中。例如，rebalance()以轮询方式均匀地分布数据，而shuffle()则将数据随机打乱分配到下游操作。
自定义分区：如果默认分区策略不满足需求，可以调用partitionCustom进行自定义分区，根据数据的实际情况设计分区策略。
--2 增加并行度
setParallelism()：通过增加算子的并行度，可以将数据更加均衡地分配到不同的计算节点中。并行度的设置需要根据实际资源和任务需求进行权衡。
--3 使用滑动窗口
滑动窗口可以将窗口划分成多个子窗口，使数据更加均衡地分配到不同的计算节点中，并减少数据倾斜的情况。同时，滑动窗口还可以使窗口内的数据更加连续。
--4 扩大窗口大小
通过扩大窗口大小，可以使窗口内的数据更加均衡地分配到不同的计算节点中，但需要注意过大的窗口大小可能会影响任务的延迟和内存消耗。
--5 两阶段聚合
在keyBy之前使用窗口进行预聚合，减少下游keyBy操作的数据量。这种方法类似于MapReduce中的Combiner思想，但要求聚合操作能够处理多条或一批数据。
--6 加盐
如果数据倾斜的原因是某些key的数据量过大，可以考虑在keyBy()方法中使用随机生成的键来进行分区，从而将数据打散，使数据更加均衡地分配到不同的计算节点中。

二十、你了解Flink的并行度概念吗？

-- 定义
Flink的并行度（Parallelism）是指在Flink作业中同时执行的任务或算子的数量。它决定了作业的并发执行能力和资源利用率。

--并行度的级别
1、作业级别并行度（Job Parallelism）：
定义：整个作业中任务的数量，决定了作业的整体并行执行能力。
设置方式：可以在提交作业时通过编程API（如env.setParallelism(int parallelism)）或命令行参数进行指定。

2、算子级别并行度（Operator Parallelism）：
定义：作业中具体算子的并行度，即该算子被拆分成多少个并行实例（Subtask）来执行。
设置方式：可以通过算子的setParallelism(int parallelism)方法进行设置。

二十一、Flink重启策略

--固定延迟重启策略
作业失败后，延迟一定时间后重启。在达到最大重启次数之前，会不断尝试重启。
--失败率重启策略
作业失败后，基于一定的失败率来决定是否继续重启。如果失败率超过设定阈值，则停止重启。
--无重启策略
作业失败后不进行任何重启尝试，直接标记为失败。
--后备重启策略
当未启用Checkpoint且未明确设置重启策略时，采用的默认策略（实际上通常是无重启策略）。如果启用了Checkpoint但未明确设置重启策略，则默认使用固定延迟重启策略，最大重启次数为Integer.MAX_VALUE。
--指数延迟重启策略
作业失败后，重启延迟时间随着失败次数指数递增。

二十二、你了解哪些flink优化方案

--资源配置调优
1、内存设置
JobManager内存：根据任务数量和并行度合理配置JobManager的内存大小，一般建议2-4GB足够。
内存分配：合理设置TaskManager的Task Slot数量和每个Slot的内存大小，以充分利用集群资源。

2、并行度设置
总并行度：根据集群CPU核数和任务特点设置合适的并行度，一般为CPU核数的2-3倍。
Source端并行度：通常设置为Kafka对应Topic的分区数，以充分利用Kafka的并行读取能力。
Transform端并行度：KeyBy之前的算子并行度可与Source一致；KeyBy之后的算子建议设置为2的整数次幂，如128、256等，以优化数据处理效率。
Sink端并行度：根据Sink端的数据量及下游服务抗压能力设置，若Sink端是Kafka，可设为Kafka对应Topic的分区数。

--性能调优
1、数据倾斜处理
重新设计Key或调整并行度以分散热点数据。
调用Rebalance操作以重新分配数据。
设置缓冲区超时以避免长时间等待。

2、Checkpoint调优
合理配置Checkpoint的间隔时间和存储位置，以减少对正常处理流程的影响。
启用异步Checkpoint模式以提高容错性能。