一、背景
通过简单的书写map、union、keyby等代码,Flink便能构建起一个庞大的分布式计算任务,Flink如何实现的这个酷炫功能呢?我们本次分享Flink做的第一步,将代码解析构建成图
源码基于Flink 2.10,书籍参考《Flink核心技术源码剖析与特性开发》第四章
我这次会用一个简单的代码来举例图的构建过程
二、例子代码
以上代码转换关系如下图:
三、代码转StreamGraph
3.1 路由关系的搭建
Flink中每一次转换(如map)用Transformation表示,每次转换都会有一条类似的边被保存(Transformation1-> Transformation2) ,而所有的关联关系存储在Environment的transformations中
3.2 路由关系转StreamGraph
有了所有的边,就可以将边构成图了,图主要通过递归关系构建,不同Transformation有不同处理策略,对于map会把该结点和它之前的结点构成边,对于union会把它的前后结点连接起来,对于keyby会变成边的策略
转换之后图如下所示,可以看到union和keyby都消失了
我们debug中间过程,可以看到确实是7个结点
且keyby变成了边的策略
四、StreamGraph转JobGraph
在这一步会做很做很多重要操作,比如结点链接,配置检查点,设置分布式缓存文件等,我们本次主要聚焦于结点的链接,满足如下条件的会被链接
StreamGraph转JobGraph同样通过递归进行,链接完后的图如下图所示,map1和map2被链接,map4和slink被链接:
可以debug中间过程,可以看到确实是只剩了5个结点:
如果我们再加上实际的对象,实际如下图所示,每个结点是一个JobVertex,IntermediateDataSet 对象就是数据写入的地方,JobEdge是连接关系
其中ID是IntermediateDataSet,为后面数据分区做准备
JE是JobEdge
五、JobGraph转ExecutionGraph
JobGraph创建好之后,会被提交到JobManager,在JobManager中会根据JobGraph图做拓扑排序,然后完成JobGraph到ExecutionGraph的转化,其中:
JobVertex一比一转换ExecutionJobVertex,ExecutionJobVertex会根据并发度拆分成ExecutionVertex,比如map1->Map2,就会变成两个ExecutionVertex
IntermediateDataSet会转成IntermediateResult,并根据生产结点个数,拆成不同的数据分区IntermediateResultPartition,比如map1->Map2,就会变成两个ExecutionVertex,同时有两个IntermediateResultPartition
转换之后的图为如下所示,其中:
IRP=IntermediateResultPartition 表示一个数据分区,数据分区满了之后会Flink会根据边ExecutionEdge的关联关系,提醒下游获取数据,进行计算
EE=ExecutionEdge表示一条边
EJV=ExecutionJobVertex 表示一个Task任务,由JobVertex一比一转换
EV=ExecutionVertex,由ExecutionJobVertex根据并发度拆出来的
根据debug断点也可以看到确实有五个ExecutionJobVertex,其中map1->map2结点有两个ExecutionVertex,每个ExecutionVertex有一个IntermediateResultPartition
六、后续
Execution是ExecutionVertex的执行抽象,Flink构成图之后,会将Execution结点分发到各个TaskManager进行执行,可以看下面本地debug图,各个Execution刚刚处于创建状态等待执行,具体后续执行流程各位感兴趣可以再继续探究