spark-core-源码、Worker启动、sparksubmit提交、Driver启动

news2025/1/22 12:53:49

sparksubmit源码解析

 在提交我们写好的jar包时候,用到submit命令,他的源码解析流程如上图

位于deploy里的SparkSubmit里面,根据main方法一点点run进去,分配我们传的参数,尤其是

val (childArgs, childClasspath, sparkConf, childMainClass) = prepareSubmitEnvironment(args)

MainClass这个东西就是我们要先执行的一个位置,他根据我们设置的deploy-mode来进行选择

在分配参数的时候,deploy-mode如果是client模式,直接MainClass为我们jar包去执行

但如果是集群模式,他会启用ClientApp里的start方法,app.start(childArgs.toArray, sparkConf)

由此生成一个ClientEndpoint,也就是创建一个新的Env环境,由此 还是之前的老规矩,inbox一定会process onStart()方法。

在这个方法里面 MainClass会被指定为 创建Driver

val mainClass = "org.apache.spark.deploy.worker.DriverWrapper"

同时,用一个command来存储我们自己的jar包

val command = new Command(mainClass,
  Seq("{{WORKER_URL}}", "{{USER_JAR}}", driverArgs.mainClass) ++ driverArgs.driverOptions,
  sys.env, classPathEntries, libraryPathEntries, javaOpts)

并将上述信息封装成driverDescription发送Master

asyncSendToMasterAndForwardReply[SubmitDriverResponse](
  RequestSubmitDriver(driverDescription))

Master接收到之后,立马调配worker给他分配资源创建Driver

  private def launchDriver(worker: WorkerInfo, driver: DriverInfo) {
    logInfo("Launching driver " + driver.id + " on worker " + worker.id)
    worker.addDriver(driver)
    driver.worker = Some(worker)
    worker.endpoint.send(LaunchDriver(driver.id, driver.desc))
    driver.state = DriverState.RUNNING
  }

对worker的引用  调用send函数让他启动Driver

worker接受到之后,会立马在本机创建一个新的JVM  DriverWrapper

这个新进程就负责执行我们自己的程序jar包


sparkContext解析

 要执行我们自己的代码了,在new sparkContext()的时候,就会有上图的流程,

发送创建Application的信息给master之后,master就开始分配资源给我们的任务了,也就是分配executor,我们的executor会根据参数先定义好 每一个worker里面要启动几个executor,根据最终算好的结果去worker一个个发消息让他们启动,启动之后 worker就会另开一个新的rpcEnv 也就是新开端点ExecutorBackend,里面的start方法会和之前的driver端点通知,说我要注册了,最终executor里面也会新开一个线程池,这个线程池就是最终我们跑代码执行我们自己东西的地方


我们自己的代码执行过程

首先明确,分布式计算是大数据的期望执行过程

里面会分为相干计算 与 不相干计算

不相干计算就是,数据在不同的主机里面,大家各跑各的对最终结果不会有影响,比如简单的map flatMap

相干计算就是我一定要拿到所有主机的数据才能进行的计算,需要shuffle

所以在进行rdd.map().filter()的执行输出结果,由于没有用到shuffle,大家肯定是各跑各的,所以会有map,filter,map,filter这种交替执行的现象。

 如上图,不相干计算组成了stage,在一台机器上就可以完成,中间的执行逻辑是pipeline模式,迭代器嵌套,就是

flatMap(map(filter())),这种就是窄依赖模式,stage与stage之间需要shuffle。

rdd他不存储具体数据,只存逻辑

描述任务的并行度 也就是task任务数量,一个task就是一个并行度

一个stage里task的数量就是由stage里最后一个rdd的分区的数量决定


然后就是具体的计算层执行rdd逻辑了

 最终的执行逻辑:

从RDD.foreach()那一刻开始算,foreach里面有最终runJob方法,这里开始使用DAGschedule处理我们的Job

首先是开启ProcessLoop等待接收我们的job,提交之后里面就会处理我们的申请,根据我们传的rdd,它是最后的ResultStage,我们要根据这个ResultStage去递归的切割前面所有rdd,切割成一个个rdd,切割的标准就是,通过栈结构根据每一个rdd的dependices往前,以是否发生shuffle来进行切割,最终递归的回归过程就是每一个stage提交的过程


举例说明

 首先要明确,从x到g这一步它是窄依赖,并不是shuffle

因为他俩的分区数一样

如果还是shuffle操作的话,最终比如msb这个数据b到x是去了分区2,x到g还会是分区2

没必要是shuffle操作,spark会自动调优,将这一操作放在一台机子上进行,后面的rdd f也会被shuffle到这台机子。

但是如果分区数改变成4 那么就不是窄依赖了,因为原数据存放的分区号发生了改变。


missing是判断出是否为shuffle rdd才存放的,他放的是 一个stage里面最后一个rdd


之后就是通过stage根据分区来划分task任务, 然后让driver端点分配executor给他来执行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/30834.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑屏幕亮度怎么调?四种自由调节亮度方式

现在的电脑是很方便的,可以说我们日常的生活中离不开电脑了。但是电脑屏幕亮度怎么调呢?这是一个问题,我们应该如何去调节?其实调节的方式有很多,我们根据自己的需求进行调节即可。接下来,为大家介绍四种电…

今日睡眠质量记录82分

昨天回去得比较晚了,不过睡眠质量还不错的,睡得比较沉,睡眠质量记录还不错的,大概有82分左右了。

计算机的发展史

文章目录计算机的发展史一,算盘二,纳皮尔骨筹三,帕斯卡林四,莱布尼茨步进计算器五,差分机六,分析机七,制表机八,微分分析机九,Mark I 计算机十,五代计算机计算…

如何使用CSS创建高级动画,这个函数必须掌握

微信搜索 【大迁世界】, 我会第一时间和你分享前端行业趋势,学习途径等等。 本文 GitHub https://github.com/qq449245884/xiaozhi 已收录,有一线大厂面试完整考点、资料以及我的系列文章。 我们每天都在网上摸鱼,作为前端开发人员&#xff0…

SD-WAN行业经常说CPE、uCPE、vCPE是什么意思,各自有什么区别和应用场景?

我们先来看下传统的硬件终端CPE到底是什么。 CPE(CustomerPremisesEquipment,客户端设备)是指位于用户端的网络终端设备,用于与运营商对接服务,是网络解决方案的重要组成部分,通常是路由器、防火墙或者路由…

Linux 性能分析命令详解

top 命令 top -1 按数字1可以看到 多个核,每个核的cpu的使用情况 监控工具\平台来收集cpu的使用率 是所有cpu数量的一个总体的使用率 top -E 按大写字母E可以看到不同单位的内存使用情况 KB MB GB TB mem: buffer cache swap buffer是磁盘虚拟出来…

99-104-Hadoop-MapReduce-排序:

99-Hadoop-MapReduce-排序: WritableComparable 排序 排序是MapReduce框架中最重要的操作之一。 MapTask和ReduceTask均会对数据按 照key进行排序。该操作属于 Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。 默认排序是按…

PID控制原理基本介绍(图解)

PID控制原理基本介绍(图解) 这里先以一个阶跃响应做图解说明: 如下图所示,目标值设定为单位1,随着我们逐渐增大比例系数Kp,可以看到系统相应速度逐渐加快,但是始终存在稳态误差, 如下图所示,引入积分环节后,随着积分控制系数Ki逐渐加大,误差逐渐减小,并最终达…

SSM毕设项目 - 基于SSM的婚纱摄影网站(含源码+论文)

文章目录1 项目简介2 实现效果2.1 界面展示3 设计方案3.1 概述3.2 系统流程3.2.1 系统开发流程3.3 系统结构设计4 项目获取1 项目简介 Hi,各位同学好呀,这里是M学姐! 今天向大家分享一个今年(2022)最新完成的毕业设计项目作品,【…

OPNET Modeler 的安装及其相关配置

文章目录前言一、安装包下载1、OPNET Modeler 安装包下载2、Visual Studio 2010 安装包下载二、配置C/C环境变量三、OPNET Modeler 的安装1、安装 modeler_145A_PL1_7116_win2、安装 modeler_docs_28-Jan-2008_win3、安装 models_145A_PL1_27Feb08_win4、安装 OPNET.Modeler.14…

PLC中ST编程的基础知识

程序组织单元,简称POU;完整的PLC程序就是由无数个POU组成的; FB:功能块,也称函数块,执行时产生一个或多个值,一个功能块可以创建多个实例; VAR_IN:输入变量&#xff0c…

java绘制标注框,注册字体

文章目录场景思路步骤1.注册字体2.绘制标注框保存文本3.效果如下:场景 有个项目需要在java的后台将AI算法的标识框,置信度值,画到上传的报警图片上。以前都在算法部分画,但是效率有点低,所以传过来原始的图片(也会用来…

第三章:JVM监控及诊断工具-GUI篇

JVM监控及诊断工具-GUI篇 使用上一章命令行工具或组合能帮您获取目标Java应用性能相关的基础信息,但它们存在下列局限: 无法获取方法级别的分析数据,如方法间的调用关系、各方法的调用次数和调用时间等(这对定位应用性能瓶颈至关重要)。要求用户登录到…

手写一个react,看透react运行机制

适合人群 本文适合0.5~3年的react开发人员的进阶。 讲讲废话: react的源码,的确是比vue的难度要深一些,本文也是针对初中级,本意让博友们了解整个react的执行过程。 写源码之前的必备知识点 JSX 首先我们需要了解什么是JSX。…

Flutter高仿微信-第19篇-支付-我的零钱

Flutter高仿微信系列共59篇,从Flutter客户端、Kotlin客户端、Web服务器、数据库表结构、Xmpp即时通讯服务器、视频通话服务器、腾讯云服务器全面讲解。 详情请查看 效果图: 实现代码: /*** Author : wangning* Email : maoning20080809163.…

Unity DOTS学习 前置知识(一)

DOTS是什么 Data-Oriented Technology Stack(面向数据的技术栈) Unity 使用的5个核心包: The C# job system 提供快速安全的多线程操作The Burst compiler 优化C#代码的编译器,能够编译生成比mono或者L2CPP更快的代码。可以编译Unity中的任何代码Unit…

解决传统难题,WMS系统实现信息数据实时追踪

随着社会经济的发展,传统仓库的存储和做工难以适应当下市场经济的需求。仓库需要进行转型升级,从而适应当下的环境。在仓库的转型升级过程当中,WMS系统是不可或缺的一部分内容。 而WMS系统的应用会从多方面支持仓库的转型升级,其带…

uniapp之最新获取用户昵称以及头像

前言 在uniapp登录时候最开始想的就是手机号登录之后,就获取用户的昵称以及头像,存储起来,登录的时候直接显示在我的页面,最开始使用的是 uniapp官网自带的uni.getUserProfile的方法,就可以获取用户的头像跟昵称&…

Prometheus Operator与kube-prometheus之二-如何监控1.23+ kubeadm集群

简介 系列文章: 标签 - Prometheus - 东风微鸣技术博客 (ewhisper.cn)Prometheus Operator 的上一篇: Prometheus Operator 与 kube-prometheus 之一 - 简介 - 东风微鸣技术博客 (ewhisper.cn) kube-prometheus-stack捆绑了监控Kubernetes 集群所需的Prometheus Operator、Ex…

Web(二)html5基础-表格基本结构

第1关_网页表格的基本概念 第2关_创建简单的表格 本关任务:创建一个两行两列的表格。 相关知识:为了完成本关任务,你需要掌握:1.表格的结构及对应的标签,2.表格标签的属性。 表格的结构及对应的标签。一个基本的表格是…