Spark的架构与基本运行流程

news2025/3/30 19:48:52

Spark的架构与基本运行流程

一、Spark中的核心概念
二、Spark中的核心架构设计

一、Spark中的核心概念

（1）RDD，Spark中最核心的概念就是RDD（Resillient Distributed Dataset，弹性分布式数据集）。换而言之，整个RDD就是Spark中的最核心数据抽象。相较于关系型数据库，在Spark中主要是对RDD进行一次又一次的操作。
在这里插入图片描述
RDD是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。即RDD一旦生成后，是不允许去修改的，它是只读的，所以它受限。

（2）DAG，是Directed Acyclic Graph（有向无环图）的简称，反映了RDD之间的依赖关系。

我们在对Spark进行编程时，就是将数据加载到内存生成RDD，然后对RDD进行一次又一次的操作，最终得到结果。而对RDD间的一次又一次操作就构成了DAG，因此DAG就反映了RDD之间的依赖关系。
在这里插入图片描述
（3）Executor，是运行在工作节点（WorkerNode）上的一个进程，负责运行任务。一个Executor进程会派生出很多线程，每个线程会具体负责每一个任务，如下图所示。

（4）Application，是用户编写的Spark应用程序。

（5）Task，任务，是运行在Executor上的工作单元。

（6）Job，作业，一个作业包含多个RDD，以及相应RDD上的各项操作。

（7）Stage，阶段，是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage，或者也被称为TaskSet，代表一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集。
在这里插入图片描述

在这里插入图片描述

二、Spark中的核心架构设计

这个Spark的运行架构如下图所示。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

一张图讲的很清楚了。一个应用被提交后，将会被生成很多个作业（具体生成多少个作业，则取决于里面的相关代码）。每一个作业又会被切分为多个阶段
在这里插入图片描述

在这里插入图片描述
执行结束后，Spark会将结果返回给Driver节点，返回给用户；或者写入HDFS或其他数据库，相应的过程如以下2张图所示。

【彩蛋来了】

看完作者写的这篇博文，请参见：

https://vault.centos.org/6.6/os/i386/repodata/repomd.xml: [Errno 14] problem making ssl connection

created in 2022.12.11，updated in 2022.12.08

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/80936.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

MySQL---事务及锁机制

MySQL---事务及锁机制

MySQL之事务以及锁机制文章目录MySQL之事务以及锁机制事务事务的操作1、开启事务：start Transaction2、提交事务：commit Transaction3、回滚事务：Rollback Transactionset命令事务的特性---ACID事务的隔离级别1.READ UNCOMMITTED 读未提交2.…

阅读更多...

毒鸡汤 | PHPStudy搭建web项目

毒鸡汤 | PHPStudy搭建web项目

文章目录前言展示准备工作环境创建网站新建数据库PHP7现成版自己折腾版前言折腾了很久，终于自己改成功了。问题不多，主要原因是自己没怎么开发过，不熟悉数据库连接原理，现在回头看真的改的很简单。问题主要是现在用的PHP7和旧版的…

阅读更多...

I-03数据结构与算法（python版）

I-03数据结构与算法（python版）

最近学习数据结构，对于从未接触过数据结构的我来说，老师不仅讲解理论，还有代码的逐层分析，非常不错，受益匪浅！！！（以下是学习记录） 数据结构与算法&#xff0…

阅读更多...

DEiT：通过注意力训练数据高效的图像transformer 蒸馏

DEiT：通过注意力训练数据高效的图像transformer 蒸馏

摘要最近，纯基于注意力的神经网络被证明可以解决图像理解任务，如图像分类。这些高性能的是使用大型基础设施预先训练数以亿计的图像，从而限制了它们的采用。本文仅通过在Imagenet上训练，产生有竞争力的无卷积transformer。我们…

阅读更多...

react原理-transition概念

react原理-transition概念

在react18之中，引入了transition的概念。而且有一个新的api和两个新的hooks startTransitionuseTransitionuseDeferredValue 场景应用： 比如通过输入框输入内容更新列表内容，对于用户来说，输入框输入之后立马反馈的优先级是高过…

阅读更多...

VS ChatGPT 中文版插件安装

VS ChatGPT 中文版插件安装

1.打开Visual Studio Code 2.搜索chatGpt中文版 3.安装完后，重启一下软件有国模式和国外模式，更多的教程请看插件作者的视频教程

阅读更多...

分布式事物

分布式事物

Seata实践 XA模式 AT模式 TCC模式性能 Saga模式高可用------集群的形式 Seata实践解决方案解决方式 Seata 引入服务协调者模式实践步骤： 分布式事物的入口方法，会调用其他的微服务，每次调用的服务都是一个分支事物调用了多少个分支事…

阅读更多...

SpringSecurity 认证实现

SpringSecurity 认证实现

在之前一篇博客已经说明了 SpringSecurity 认证与授权的原理。这篇用来具体实现一下。 1、新建SecurityConfig 并创建认证管理器 Bean public AuthenticationManager authenticationManager() {... }2、新建认证提供者 Configuration public class SystemUserPasswordAuth…

阅读更多...

Oracle项目管理之PrimaveraUnifier组织-业主/合作伙伴公司

Oracle项目管理之PrimaveraUnifier组织-业主/合作伙伴公司

目录一、业主公司二、合作伙伴公司三、成员公司 Oracle Primavera Unifier 是企业项目协同管理系统，在国际化项目管理中，在进行常规的业务管理之外，对合同公司/EPC或分包供应商也有一定的管理要求，在Unifier中为了更好的实现…

阅读更多...

sja1000 CAN驱动学习、调试记录（基于PeliCan Mode）

sja1000 CAN驱动学习、调试记录（基于PeliCan Mode）

一、基础知识网上讲sja1000 CAN总线控制器的资料很多，这里放一个引路贴：(151条消息) CAN总线控制器SJA1000_FATE的博客-CSDN博客_sja1000 BasicCAN Mode：仅支持11位的ID。 PeliCan Mode：在扩展模式下，允许使用 11 位 …

阅读更多...

找出DataFrame中指定数据类型的列：select_dtypes()函数

找出DataFrame中指定数据类型的列：select_dtypes()函数

【小白从小学Python、C、Java】【计算机等级考试500强双证书】【Python-数据分析】找出DataFrame中指定数据类型的列 select_dtypes()函数选择题下列说法错误的是? import pandas as pd myDF pd.DataFrame({A:[1,2],B:[1.0,2.0],C:[a,b]}) print("【显示】myDF&qu…

阅读更多...

leecode#同构字符串#反转链表

leecode#同构字符串#反转链表

题目描述： 给定两个字符串 s 和 t ，判断它们是否是同构的。如果 s 中的字符可以按某种映射关系替换得到 t ，那么这两个字符串是同构的。每个出现的字符都应当映射到另一个字符，同时不改变字符的顺序。不同字符不能映射到同一…

阅读更多...

ReentrantLock详解

ReentrantLock详解

JUC中的锁API 在juc中有一个Lock接口他的作用和synchronized相似都是为了保证线程安全性提供的解决方案 Lock中定义了一系列释放锁和抢占锁相关的API lock() 抢占锁资源如果当前线程没有抢占到锁则阻塞 tryLock() 尝试抢占锁资源如果抢占成功则返回true 否则返回false unlo…

阅读更多...

简单的深度活体智能记忆模型

简单的深度活体智能记忆模型

🍿*★,*:.☆欢迎您/$:*.★* 🍿 正文

阅读更多...

基于Antd Input组件自定义Input的成功状态

基于Antd Input组件自定义Input的成功状态

前言 Ant Design的Input组件的有一个状态的Api 需求公司自研UI组件，在Antd的基础上进行开发。其中Input组件除了警告与错误状态外，还增加了成功的状态。如下图⬇️ 开发实现方案一：覆盖CSS样式一开始准备通过判断状态来增加类名&am…

阅读更多...

软件工程习题

软件工程习题

软件工程第一章软件与软件工程作业第二章可行性研究作业第三章需求分析作业第四章总体设计作业第五章详细设计作业第六章软件编码测验第七章软件测试作业选择判断简答题第一章软件与软件工程作业一、单选题（共7题，58.1分） 1、软件是…

阅读更多...

刷题13-左右两边子数组的和相等

刷题13-左右两边子数组的和相等

题目012-左右两边子数组的和相等思路：用到了三个循环，从头到尾遍历数组，比较左右两边数组的和是否相等，当然这种思路时间复杂度也比较高核心代码： class Solution {public int pivotIndex(int[] nums) {int sum1,…

阅读更多...

6.2 、MyBatis 高级映射（resultMap 标签多表联查，一对多，多对一关系）

6.2 、MyBatis 高级映射（resultMap 标签多表联查，一对多，多对一关系）

文章目录一、实现多表联查（association 标签）1、实现多对一关系结果集映射二、实现多表联查（collection 标签）一、实现多表联查（association 标签） association 标签： 实现一对一，多…

阅读更多...

因果推断1--基本方法介绍（个人笔记）

因果推断1--基本方法介绍（个人笔记）

目录一、因果推断介绍 1.1 什么是因果推断 1.2为什么研究因果推断 1.3因果推断阶梯 1.4因果推断问题分类二、因果推断理论框架 2.1 定义（这些定义后面会经常用到） 2.2 Assumptions（三大基本假设） 三、因果效应估计 3.1 因果效应…

阅读更多...

JavaEE【Spring】：SpringBoot 配置文件

JavaEE【Spring】：SpringBoot 配置文件

文章目录一、配置文件的作用二、配置文件的格式1、注意2、说明三、properties 配置文件说明1、基本语法2、读取配置文件① 注意3、优缺点四、yml 配置文件说明1、基本语法2、yml 使用进阶① yml 配置不同数据类型及 nullⅠ. yml 配置读取Ⅱ. 练习a. 值为 null 的配置b. 根本不存…

阅读更多...

推荐文章

最新文章