Flink处理大型离线任务稳定性与性能调优探索

news2026/2/13 2:11:34

Apache Flink作为分布式处理引擎，用于对无界和有界数据流进行状态计算。其中实时任务用于处理无界数据流，离线任务用于处理有界数据。

通过本文你将掌握让大型离线任务运行稳定的能力，同时能够通过分析离线任务运行特点，降低任务运行资源消耗，减少任务成本。

下面我们进入正题：

—

离线任务情况说明

对于平台处理的离线任务，任务大都是处理：从HDFS到HIVE的数据清洗任务。这类任务的特点是数据来一条处理一条，所以任务大都是没有状态的。

看一个任务

source: 301个文件，每个文件9.6G（压缩后的大小），总共大约240亿条数据

trans：对于每条数据通过正则去获取目标数据。

资源配置：301并发、tm:<10core、10slots、15G>、jm: 10core、8G内存。那将会产生32个container（运行在yarn中）。

任务运行的速度大概在1.2亿/min，运行2小时50多分钟。但是任务会偶发的报hadoop集群的问题，如下报错

connection reset by peer
EOFException: End of File Exception

以至于后面这个任务少了几天数据，任务都跑不下去。但其他类似的任务运行的很稳定，“事出反常必有妖”：

本文尝试从内存、并发的角度分析任务的稳定性及任务运行速度等问题。

—

2. 建议cpu和slot数关系

stack overflow 对于 Ideal Number of Task Slots，有一些建议：

As a rule-of-thumb, a good default number of task slots would be the number of CPU cores. With hyper-threading, each slot then takes 2 or more hardware thread contexts.

即：有超线程的机器可以建议设置：numOfslots = 2 * numOfcores ，没有超线程的机器建议设置：numOfslot = numOfcore。

3. tm的资源配置是否合适

目前配置的tm是:10core、10slot、15G，但是跑上述任务时，任务不稳定，这里在stack overflow 也找到了类似的问题：

We’ve frequently run into problems where, with multiple hosts running one large task manager a piece, all jobs get scheduled to one host, which can cause load problems.

当多个主机（tm）同时运行一个大型任务管理器时，所有作业都被调度到一个主机上，这可能会导致负载问题。

也给出了相应解答：

We ended up making multiple smaller task managers per host and jobs seem to be distributed better (although they still cluster on one node often).

在每个主机上创建了多个较小的任务管理器，并且作业似乎可以更好地分布(尽管它们仍然经常聚集在一个节点上)。

简单地总结上面的经验就是：调小tm的资源（cpu和memory），作业可以更好地分布。

4. 阿里对于TaskManager资源配置建议

TaskManager资源设置不宜过小，也不宜过大:

1. 如果单个TaskManager资源过小，则可能影响其上作业的稳定性，并且由于其Slot数目不多，无法有效平摊TaskManager的开销，降低了资源的利用效率。

2. 如果单个TaskManager资源过大，则TaskManager上运行的作业数会很多，一旦TaskManager发生单点故障，影响面会很大。

从阿里给出的建议我们可以得出：

当tm设置的资源过大时，遇到单点问题影响面很大。目前看在部署taskmanager <10core,15G> 时，tm资源设置的大了，造成的单点故障的概率提高。

—

问题分析与解决

总体的调整思路

1. 目前<10core,15G> 的设置导致当任务规模到达一定水平时任务运行的将变得不稳定，所以这里调小Tm的<cores、memory>。

2. 因为任务是IO密集型，所以可以考虑1个cpu对应多个slot个数，这里Flink建议是2倍，但需要测试。

3. 当减小每个Tm的资源时，Tm的个数将会增加。在相同任务下，这时需要考虑Jobmanager的调度压力和管理压力，是否对任务运行的稳定性和效率有所影响。

测试结果对比

任务1

source: 301个文件，每个文件9.6G（压缩后的大小），总共大约240亿条数据

trans：对于每条数据通过正则去获取目标数据。

现在从3个方面讨论任务运行的情况：

速度：

从第2，3，5运行结果对比：可以看出yarn集群对于1core支持多并发的速度没有达到超线程效果、或对于hdfs到hive的io密集型任务没有收获很好的效果；
从第4运行结果看出：当1core 对应 4并发时，速度下降接近一半；

内存使用与资源共享：

从5、6运行结果对比看出：随着一个tm的slot数的增多，速度有所提升（提升不高），这里可以暂时认为是tm内的 TCP连接、心跳消息、共享数据集、数据结构和cpu资源等起到了共享的作用。
从7、8、9运行结果对比：可以看出运行速度基本都到了最高峰，此时tm的共享、内存的提高均没有提升Flink的运行速度。

稳定性：