Flink job的提交流程

news2024/10/11 16:09:31

        在Flink中,作业(Job)的提交流程是一个复杂的过程,涉及多个组件和模块,包括作业的编译、优化、序列化、任务分发、任务调度、资源分配等。Flink通过分布式架构来管理作业的生命周期,确保作业在不同节点上以高效和容错的方式运行。我们可以从底层原理和源码层面详细解析Flink作业的提交流程。

1. Flink的架构组件

Flink作业提交流程的底层实现涉及以下几个核心组件:

  • Client:用户通过Client提交作业,通常是通过Flink的API(如DataStreamTable API)构建作业。
  • JobManager:负责协调和管理Flink集群的运行时组件。其主要职责是作业的调度、资源分配、故障恢复等。
  • TaskManager:负责在各个工作节点上执行作业的具体任务(Task),并与JobManager通信,报告状态和进度。
  • Dispatcher:负责接受Client的作业请求,并将作业传递给JobManager处理。
  • ResourceManager:负责资源的分配和调度,确保集群有足够的资源来运行提交的作业。

2. 作业提交流程的概览

Flink作业的提交流程可以分为以下几个主要步骤:

  1. 用户代码编写与作业构建:用户通过Flink API构建Flink作业逻辑,生成相应的StreamGraph(流作业)或Table作业。
  2. 生成JobGraph:Client将用户定义的逻辑转换为Flink内部的JobGraph,这是Flink理解并能够执行的作业表示。
  3. 向Dispatcher提交JobGraph:Client将JobGraph提交到集群的Dispatcher,Dispatcher接受作业请求。
  4. JobManager接管JobGraph:Dispatcher将JobGraph提交给JobManager,JobManager负责作业的调度和执行。
  5. JobGraph转换为ExecutionGraph:JobManager将JobGraph进一步优化并转换为ExecutionGraph,这是Flink真正执行的物理作业计划。
  6. 任务的调度与执行:JobManager将ExecutionGraph分解为多个并行子任务,调度给TaskManager去执行。
  7. 作业执行与监控:TaskManager执行各个子任务,并通过心跳机制向JobManager报告任务状态。

3. 从源码角度详细解析提交流程

3.1 用户提交作业

        作业提交流程从用户通过ExecutionEnvironmentStreamExecutionEnvironment提交作业开始。下面以DataStream API为例,提交流程一般是通过调用StreamExecutionEnvironment.execute()来触发。

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.fromElements(1, 2, 3, 4, 5)
   .map(i -> i * i)
   .print();
env.execute("Flink Job");

调用execute()方法后,Flink会进行以下操作:

  • 创建StreamGraph:在执行环境中,用户定义的操作被转化为StreamGraph,这是Flink作业的逻辑表示,记录了所有的操作算子及其连接关系。
    StreamGraph streamGraph = this.getStreamGraph();

3.2 生成JobGraph

        一旦StreamGraph构建完成,Flink将其转换为JobGraphJobGraph是一个优化后的表示,它将包含计算任务的并行度、物理任务之间的依赖关系等,是Flink提交给集群进行分布式执行的作业表示。

JobGraph jobGraph = streamGraph.getJobGraph();
  • JobVertexJobGraph中的每个操作算子(如map、filter等)会被转化为JobVertex,代表一个逻辑上的计算节点。
  • JobEdge:操作算子之间的连接关系会被转化为JobEdge,定义了不同JobVertex之间的数据流动。
3.3 提交JobGraph到Dispatcher

客户端通过RPC将JobGraph提交给Flink集群中的Dispatcher,由它来接管作业的调度和执行。

dispatcherGateway.submitJob(jobGraph, "Flink Job", timeout);

        Dispatcher接受到作业后,会创建一个JobManager实例来负责具体的作业执行流程。在集群模式下(如YARN、Kubernetes等),Dispatcher可能会启动一个新的JobManager(即JobMaster)实例来执行作业。

3.4 JobManager接管JobGraph

        在JobManager中,接收到JobGraph后,作业的核心执行流程将由JobMaster处理。JobMaster首先会将JobGraph进一步优化和转换为ExecutionGraph,这是Flink中实际执行任务的图结构,包含所有物理任务及其依赖关系。

ExecutionGraph executionGraph = new ExecutionGraph(jobGraph, ...);
  • ExecutionVertexExecutionGraph中的每个顶点代表一个具体的并行任务(即ExecutionVertex),它们会被调度给不同的TaskManager实例执行。
  • ExecutionEdgeExecutionVertex之间的依赖关系被表示为ExecutionEdge,用于描述不同任务之间的通信模式(如shuffle)。
3.5 任务的调度与资源分配

        JobMaster接管ExecutionGraph后,会向ResourceManager申请资源以执行任务。ResourceManager负责调度并分配资源到TaskManager,每个TaskManager会接收一部分任务并执行。

resourceManagerGateway.requestSlot(...);
  • Slot分配:每个TaskManager拥有多个Slot,表示可用的计算资源。ResourceManager根据任务并行度为ExecutionVertex分配Slot。
  • 任务调度:一旦Slot分配完成,JobMaster会将任务调度到相应的TaskManager,通过RPC调用将任务部署到这些TaskManager
3.6 任务执行与监控

        TaskManager负责执行分配到的任务,它会启动相应的线程来处理每个ExecutionVertex中的任务。任务执行过程中,TaskManager会定期通过心跳机制向JobMaster报告任务的状态和进度。

taskExecutorGateway.submitTask(...);
  • 故障恢复:如果任务失败,JobMaster会根据Flink的容错机制(如检查点机制)尝试重新调度任务,确保作业的高可用性。

4. 重要的源码模块

  • JobGraphorg.apache.flink.runtime.jobgraph.JobGraph,表示用户作业的逻辑执行计划。
  • ExecutionGraphorg.apache.flink.runtime.executiongraph.ExecutionGraph,表示作业的物理执行计划,任务调度基于此结构。
  • JobMasterorg.apache.flink.runtime.jobmaster.JobMaster,负责管理作业的整个生命周期,包括任务调度、资源分配、故障恢复等。
  • ResourceManagerorg.apache.flink.runtime.resourcemanager.ResourceManager,负责资源的管理和分配,确保作业运行时所需的计算资源。
  • TaskManagerorg.apache.flink.runtime.taskmanager.TaskManager,在每个节点上运行,负责执行具体的任务并与JobManager协调。

5. Flink作业提交流程总结

  • 用户通过Client提交Flink作业,作业被转换为JobGraph。
  • JobGraph通过Dispatcher提交给JobManager,JobManager将其转换为ExecutionGraph。
  • JobManager与ResourceManager交互,申请并分配资源,调度任务到TaskManager执行。
  • TaskManager执行任务,并定期向JobManager报告任务状态。
  • 整个流程基于高效的分布式架构和容错机制,保证作业的稳定和可靠执行。

这就是Flink作业从提交到执行的详细提交流程,从底层原理和源码层面揭示了Flink的作业管理机制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2205181.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java】多线程代码案例

多线程代码案例 单例模式初步了解饿汉模式懒汉模式线程安全问题分析存在的问题 生产者消费者模型初识生产者消费者模型初识阻塞队列生产者消费者模型的意义BlockingQueue阻塞队列模拟实现 定时器初识计时器初识Timer类初识 schedule() 方法简易定时器的实现思路讲解代码书写 线…

面试字节跳动精选20道产品经理面试题分析回答

分享20道字节跳动产品经理的面试题,产品经理的面试很多会跟项目强关联,比如面试电商产品经理,就要多聊电商的业务,所以我们选了一些比较通用的,面试题及我们的分析回答。 01 20道面试题(前10道&#xff0…

react中的重定向Redirect

1, 首先引入 import {BrowserRouter,Route,Switch,Redirect} from react-router-dom 2,使用 一般写在所有路由注册的最下方&#xff0c;当所有路由都无法匹配时&#xff0c;跳转到Redirect指定的路由 <Switch><Route path"/about" component{About}/>…

探索SLMi823x系列 40V, 1A/4A 具有不同配置 双通道死区可编程 隔离驱动器

SLMi823x系列选型型号&#xff1a; SLMi8230BDCG-DG SLMi8230DDCG-DG SLMi8231BDCG-DG SLMi8231DDCG-DG SLMi8232BDCG-DG SLMi8232DDCG-DG SLMi8233BDCG-DG SLMi8233DDCG-DG SLMi8234BDCG-DG SLMi8234DDCG-DG …

codeforces- 973-div2----补题

1、求最小时间 思路&#xff1a;简单的模拟 木桶效应 #include<iostream> #include<algorithm> using namespace std; typedef long long ll; int dx[] { 0,1,0,-1 }; int dy[] { 1,0,-1,0 }; const ll N 2e5 5; const ll mod 1e9 7; ll a[N]; void solve…

液相/气象色谱仪原理

色谱仪 1.液相色谱 常用的是柱色谱 高效液相色谱 在 HPLC 系统中&#xff0c;** 色谱柱内的固定相通常是由颗粒很细的填充物组成。这些细小的填充物具有更大的比表面积&#xff0c;能够提供更多的与样品分子相互作用的机会&#xff0c;从而提高分离效率和分辨率 **。然而&am…

双十一买什么东西好?五大双11好物推荐分享!

双十一购物节即将来临&#xff0c;作为一年一度的购物盛事&#xff0c;许多人都在考虑如何挑选心仪的商品。在这个特殊的日子里&#xff0c;各大电商平台纷纷推出了令人心动的优惠活动&#xff0c;琳琅满目的商品让人眼花缭乱。无论是为自己添置新物品&#xff0c;还是提前采购…

E系列I/O模块在锂电装备制造系统的应用

为了满足电池生产线对稳定性和生产效率的严苛要求&#xff0c;ZLG致远电子推出高速I/O应用方案&#xff0c;它不仅稳定可靠&#xff0c;而且速度快&#xff0c;能够迅速响应生产需求。 锂电池的生产工艺较为复杂&#xff0c;大致分为三个主要阶段&#xff1a;极片制作、电芯制作…

若依 从字典类型跳到字典数据跳到了404

描述&#xff1a; 在字典类型从表中字典类型跳转到详情的字典数据时跳到了404 解决过程&#xff1a; 由于我的id统一是用GUID&#xff0c;所以想到了路由表相关路由的正则校验&#xff0c;若依是int类型&#xff0c;我直接删掉了&#xff0c;改了之后还是跳404 后面想是路由表…

利用编程思维做题之反转链表

牛客网题目 1. 理解问题 给到我们的是一个单链表的头节点 pHead&#xff0c;要求反转后&#xff0c;返回新链表的头节点。 首先在心里设想能够快速理解的例子&#xff0c;如给你123序列&#xff0c;要你反转此序列如何回答&#xff1f;将最后一个数字3作为头&#xff0c;然后修…

如何修复 Windows 10 /11上 CrowdStrike 导致的蓝屏死机问题

CrowdStrike 是一家领先的网络安全技术提供商&#xff0c;为终端、云工作负载、身份和数据提供安全服务。其 Falcon 平台是一种统一的、云交付的安全解决方案&#xff0c;旨在防止所有类型的攻击&#xff0c;包括恶意软件等。然而&#xff0c;Windows 上 Falcon Sensor 代理的最…

ENSP静态路由实验 10.11

0x01 拓扑图 0x02 配置各接口和PC1、2的IP地址 PC1&#xff1a; PC2&#xff1a; AR1&#xff1a; 配置AR1&#xff0c;改名为R1&#xff0c;并配置各接口IP&#xff0c;随后保存。 <R1>system-view [Huawei]sysname R1 [R1]int g0/0/2 [R1-GigabitEthernet0/0/2]ip ad…

R语言结构方程模型(SEM)在生态学领域中的应用

结构方程模型&#xff08;Sructural Equation Model&#xff09;是一种建立、估计和检验研究系统中多变量间因果关系的模型方法&#xff0c;它可以替代多元回归、因子分析、协方差分析等方法&#xff0c;利用图形化模型方式清晰展示研究系统中变量间的因果网络关系&#xff0c;…

【向上管理第一步】2小时速成专业级看板,让高效汇报触手可及!

面对突如其来的重要汇报&#xff0c;您是否曾陷入时间紧迫与完美呈现的双重困境&#xff1f;想要在短时间内打造出既全面又引人注目的可视化看板&#xff0c;却苦于设计技巧的匮乏与审美眼光的局限&#xff1f;别担心&#xff0c;JVS-BI您的智慧汇报加速器&#xff0c;正蓄势待…

Java面试宝典-WEB学习

Java web学习 目录 Java web学习 1、说说 Servlet 的基本架构 2、说一说 Servlet 的生命周期? 3、如何实现一个自定义的 servlet&#xff1f; 4、servlet中有哪些核心类&#xff1f;都有什么特点&#xff1f; 5、什么情况下调用 doGet()和 doPost()&#xff1f; 6、request.ge…

自动化测试 | UnitTest框架

1. TestCase&#xff08;测试用例&#xff09; 步骤&#xff1a; 1. 导包 import unittest 2. 新建测试类并继承 unittest.TestCase 3. 测试方法必须以test字母开头 运行&#xff1a; 1. 运行测试类所有的测试方法&#xff…

国家海洋环境预报中心李本霞:全国首个海浪智能预报系统已投入业务化运行,AI助力海浪预报多项突破

近日&#xff0c;在第 20 届 CCF HPC China 2024 大会中&#xff0c;第六届海洋数值预报与高性能计算论坛圆满举办。在本次大会上&#xff0c;国家海洋环境预报中心海浪预报室主任李本霞以「人工智能在海浪预报中的应用」为主题展开演讲&#xff0c; HyperAI超神经在不违原意的…

配置MAC地址安全

概述 MAC地址安全配置是确保网络设备和通信安全的重要措施&#xff0c;通过限制、监控和管理设备的物理地址来防止未授权访问和潜在的网络威胁。以下是对MAC地址安全的概述&#xff1a; 基本概念 定义&#xff1a;MAC地址&#xff08;Media Access Control Address&#xff09…

某音商品详情sku示例参考,API说明

以下提供某音&#xff08;即抖音&#xff09;商品详情SKU&#xff08;Stock Keeping Unit&#xff0c;库存量单位&#xff09;的示例参考以及API的详细说明&#xff1a; 一、某音商品详情SKU示例参考 在抖音电商平台中&#xff0c;商品详情页通常会展示商品的SKU信息&#xff…

线性自抗扰控制(LADRC)系统算法框图

非线性ADRC(NLADRC)详细算法框图和源代码请参考专栏系列文章,常用链接如下: 1、NLADRC自抗扰控制 NLADRC自抗扰控制从Simulink仿真到PLC控制实现_自抗扰控制器 simulink仿真-CSDN博客文章浏览阅读1.6k次,点赞2次,收藏7次。本文介绍了如何将ADRC自抗扰控制算法从Simulink…