执行Spark应用架构需要经历哪几个阶段？

news2026/2/11 9:27:29

将程序切换到【Executors】Tab页面时，我们可以看到Spark Application运行到集群上时，由两部分组成：Driver Program和Executors。

在这里插入图片描述

从图中可以看到Spark Application运行到集群上时，由两部分组成：Driver Program和Executors。

第一、Driver Program

    相当于AppMaster，整个应用管理者，负责应用中所有Job的调度执行;

    运行JVM Process，运行程序的MAIN函数，必须创建SparkContext上下文对象;

    一个SparkApplication仅有一个;

第二、Executors

    相当于一个线程池，运行JVM Process，其中有很多线程，每个线程运行一个Task任务，一个Task任务运行需要1 Core CPU，所有可以认为Executor中线程数就等于CPU Core核数;

    一个Spark Application可以有多个，可以设置个数和资源信息;

在这里插入图片描述

用户程序从最开始的提交到最终的计算执行，需要经历以下几个阶段：

1)、用户程序创建 SparkContext 时，新创建的 SparkContext 实例会连接到 ClusterManager。 Cluster Manager 会根据用户提交时设置的 CPU 和内存等信息为本次提交分配计算资源，启动 Executor。

2)、Driver会将用户程序划分为不同的执行阶段Stage，每个执行阶段Stage由一组完全相同Task组成，这些Task分别作用于待处理数据的不同分区。在阶段划分完成和Task创建后， Driver会向Executor发送 Task;

3)、Executor在接收到Task后，会下载Task的运行时依赖，在准备好Task的执行环境后，会开始执行Task，并且将Task的运行状态汇报给Driver;

4)、Driver会根据收到的Task的运行状态来处理不同的状态更新。 Task分为两种：一种是Shuffle Map Task，它实现数据的重新

洗牌，洗牌的结果保存到Executor 所在节点的文件系统中;另外一种是Result Task，它负责生成结果数据;

5)、Driver 会不断地调用Task，将Task发送到Executor执行，在所有的Task 都正确执行或者超过执行次数的限制仍然没有执行成功时停止;

4040、8080、18080的区别

4040: 是一个运行的Application在运行的过程中临时绑定的端口,用以查看当前任务的状态.4040被占用会顺延到4041.4042等。

4040是一个临时端口,当前程序运行完成后, 4040就会被注销哦。

8080: 默认是StandAlone下, Master角色(进程)的WEB端口,用以查看当前Master(集群)的状态。

18080: 默认是历史服务器的端口, 由于每个程序运行完成后,4040端口就被注销了. 在以后想回看某个程序的运行状态就可以通过历史服务器查看,历史服务器长期稳定运行,可供随时查看被记录的程序的运行过程。

运行起来一个Spark Application, 然后打开其4040端口,并查看：/export/server/spark/bin/spark-shell --master spark://node1.itcast.cn:7077。在node1运行pyspark-shell，WEB UI监控页面地址：http://node1:4040。

spark

可以发现在一个Spark Application中，包含多个Job，每个Job有多个Stage组成，每个Job执行按照DAG图进行的。

在这里插入图片描述

其中每个Stage中包含多个Task任务，每个Task以线程Thread方式执行，需要1Core CPU。

在这里插入图片描述

Spark Application程序运行时三个核心概念：Job、Stage、 Task，说明如下：

Job：由多个 Task 的并行计算部分，一般 Spark 中的 action 操作(如 save、collect，后面进一步说明)，会生成一个 Job。

Stage：Job 的组成单位，一个 Job 会切分成多个 Stage ，Stage 彼此之间相互依赖顺序执行，而每个 Stage 是多个 Task 的集合，类似 map 和 reduce stage。

Task：被分配到各个 Executor 的单位工作内容，它是 Spark 中的最小执行单位，一般来说有多少个 Paritition (物理层面的概念，即分支可以理解为将数据划分成不同部分并行处理)，就会有多少个 Task，每个 Task 只会处理单一分支上的数据。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/746697.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

执行Spark应用架构需要经历哪几个阶段？

相关文章

Holoens证书过期

融合ELO机制的销售能力评估方案

代码随想录day15

mpVue 微信小程序基于vant-weapp 组件的二次封装TForm 表单组件（适配移动端）

云原生日志Agent/Aggregator

全网独家：修改CoreDNS禁用ipv6解析后的查询反馈信息

MSP430F5529单片机，万年历，闹钟，数字时钟，温湿度dht11，蜂鸣器音乐

Openlayers实战：加载google地图

36. 合并两个排序的链表

第五章爬虫小程序-实例43-获取网页内容

【算法与数据结构】239、LeetCode滑动窗口最大值

electron-vue 台称串口对接 SerialPort

Eclipse控制台输出log4j日志乱码解决

Ribbon 负载均衡服务调用

LayUI动态选项卡的使用

Python示例解释观察者模式

神经网络万能近似定理探索与实验

docker部署达梦数据库

java项目之房屋租赁系统(ssm+mysql+jsp)

尚硅谷Docker实战教程-笔记14【高级篇，Docker容器监控之CAdvisor+InfluxDB+Granfana、Docker终章总结】