RDD的Stage划分原理

news2025/4/13 0:09:07

1. 什么是RDD

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark 中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在Spark 中，对数据的所有操作不外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。每个RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。RDD 可以包含Python、Java、Scala 中任意类型的对象，甚至可以包含用户自定义的对象。RDD 具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD 允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。RDD 支持两种操作:transformation操作和action操作。RDD 的转化操作是返回一个新的RDD 的操作，比如map()和filter()，而action操作则是向驱动器程序返回结果或把结果写入外部系统的操作。比如count() 和first()。
Spark 采用惰性计算模式，RDD 只有第一次在一个行动操作中用到时，才会真正计算。Spark 可以优化整个计算过程。默认情况下，Spark 的RDD 会在你每次对它们进行行动操作时重新计算。

2. 宽依赖与窄依赖

定义

窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用，子RDD分区通常对应常数个父RDD分区(O(1)，与数据规模无关)
相应的，宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用，子RDD分区通常对应所有的父RDD分区(O(n)，与数据规模有关)

窄依赖与宽依赖

并行计算框架中的fork/join机制
实例解释为什么窄依赖可以进行流水线优化，宽依赖无法进行流水线优化

假设需要将学校的学生分不同的线路运送到厦门，途中在上海集合等待后继续前往厦门，如图所示，最后所有学生到达厦门所需时间为6小时，这里发现学生运送过程中没必要在上海进行集合，此过程可以省略，最后的运送总时间将缩短为5小时，这就是一个窄依赖优化的例子。

在这里插入图片描述

接下来考虑另外一种情况，当学生到达上海后，学生需要重新分配路线，比如班长带所有1班学生走1号线，组织委员带2班学生走2号线，此时就不得不在上海聚集进行人员的重新分配，这就是一个宽依赖的例子，这种情况下则无法按照上述的方式进行流水线优化

宽依赖

将例子运用到RDD的运行过程中就是一个DAG(有向无环图)，可以将DAG划分为不同的阶段，窄依赖之间不需要反复join操作可以将一系列的窄依赖操作归为一个stage进行流水线优化，而宽依赖则直接归为一个stage，如下图所示

RDD的运行原理图
由此RDD的整个运行流程如下:
RDD运行过程
文章中的实例内容参考于中国大学mooc网中的厦门大学大数据课程内容
宽依赖窄依赖参考

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/475413.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

JavaBeaneljstl

JavaBeaneljstl

1.JavaBean 1.1 什么是JavaBean JavaBean 是一种JAVA语言写成的可重用组件。为写成JavaBean，类必须是具体的和公共的，并且具有无参数的构造器简单一点：建一个类,给一个无参的构造方法. 它就是JavaBean，对应JavaBean来说&#x…

阅读更多...

【C++】程序员的屠龙母鸡：二叉树进阶OJ题详解

【C++】程序员的屠龙母鸡：二叉树进阶OJ题详解

不会自动生成，还是我自己写目录吧 -.- 文章目录前言一、稍微简单一点的二叉树OJ题二、相对困难一点的二叉树OJ题总结前言在看这篇文章前希望大家是学过二叉树的，不然理解起来可能会比较费劲，但我会尽自己的努力让大家学会这些题&#xf…

阅读更多...

TensorFlow会被JAX代替吗，使用JAX训练第一个机器学习模型

TensorFlow会被JAX代替吗，使用JAX训练第一个机器学习模型

上期文章我们分享了JAX的概念，Jax 是来自 Google 的一个相对较新的机器学习库。它更像是一个 autograd 库，可以区分每个本机 python 和 NumPy 代码。 “PythonNumPy 程序的可组合转换：微分、向量化、JIT 到 GPU/TPU 等等”。该库利用 grad 函…

阅读更多...

vue 视频播放插件vue-video-player自定义样式

vue 视频播放插件vue-video-player自定义样式

1、背景项目中有涉及视频播放的需求，并且UI设计了样式，与原生的视频video组件有差异，所以使用了vue-video-player插件，并对vue-video-player进行样式改造，自定义播放暂停按钮、全屏按钮、时间进度条样式等 2、效果图…

阅读更多...

10分钟叫你如何学会组织Prompt语言同AI沟通

10分钟叫你如何学会组织Prompt语言同AI沟通

提示词（Prompt）是与AI模型交流的语言，用以告诉AI模型想要生成的图像的特征。提示词的准确性、精准度直接决定了生成的图像是否符合我们的预期。基础介绍 AIGC提示词通常由多个单词、词组或短句构成，以***,***分割组成&#xff…

阅读更多...

如何更改Windows服务器时间

如何更改Windows服务器时间

Windows操作系统自带时间同步功能，它会自动从互联网时间服务器获取时间，以保证系统时间的准确性。但是，有时候我们需要更改时间服务器，以获得更准确的时间同步。小编将为大家介绍如何更改Windows时间服务器，以及Window…

阅读更多...

java基础知识——22.lambda表达式

java基础知识——22.lambda表达式

这篇文章，我们来讲一下java的lambda表达式目录 1.初识lambda表达式 2.lambda表达式介绍 2.1 函数式编程 2.2 lambda表达式的具体格式 2.3 Lambda表达式的好处 2.4 Lambda的省略写法 1.初识lambda表达式首先，我们来看一下lambda表达式的应用下…

阅读更多...

运维——ssh无法登录云服务器

运维——ssh无法登录云服务器

0x00 概述一般来讲，无法登录ssh的原因挺多，如果无法登录云服务器，则除了要检查ssh端口是否放行，防火墙状态外，还需要检查云服务器web控制台入站规则是否开放了对应端口。如果你前面检查都是正常，那么还需…

阅读更多...

实战打靶集锦-017-potato

实战打靶集锦-017-potato

提示：本文记录了博主的一次打靶过程目录 1. 主机发现2. 端口扫描3. 服务枚举4. 服务探查4.1 Apache探查4.2 ProFTPD探查4.2.1 strcmp()函数绕过4.2.2 查找apache日志文件4.2.3 查看/etc/passwd文件4.2.4 破译密码4.2.5 突破边界 5. 提权5.1 系统信息枚举5.2 定时任…

阅读更多...

基于Yolov5的NEU-DET钢材表面缺陷检测，优化组合新颖程度较高：CVPR2023 DCNV3和InceptionNeXt，涨点明显

基于Yolov5的NEU-DET钢材表面缺陷检测，优化组合新颖程度较高：CVPR2023 DCNV3和InceptionNeXt，涨点明显

1.钢铁缺陷数据集介绍 NEU-DET钢材表面缺陷共有六大类，分别为：crazing,inclusion,patches,pitted_surface,rolled-in_scale,scratches 每个类别分布为：训练结果如下： 2.基于yolov5s的训练 map值： 2.1 Inception-MetaNeXtStage 对应博客：https://cv2023.blog.csdn.n…

阅读更多...

实验5 彩色图像处理与图像变换

实验5 彩色图像处理与图像变换

文章目录一、实验目的二、实验内容1. 彩色图像平滑。(课本P310 例6.12)2. 彩色边缘检测。(课本P318 例6.16)3. 一维小波变换。(课本P364 例7.20)4. 二维小波变换。(课本P369 例7.22)5. 小波包分解。(课本P376 例7.24) 一、实验目的掌握RGB彩色模型和HSI彩色模型之间的转换方…

阅读更多...

C语言指针的使用

C语言指针的使用

文章目录前言一、指针基本概念介绍二、指针的大小三、使用指针访问变量和变量地址四、使用指针遍历数组总结前言一、指针基本概念介绍在 C 语言中，指针是一种用于存储内存地址的数据类型。指针可以存储任何数据类型的内存地址，包括基本数据类型、数…

阅读更多...

C语言之单链表的实现以及链表的介绍

C语言之单链表的实现以及链表的介绍

一、为什么会存在链表因为我们常用的顺序表会存在以下的一些问题： 1. 中间/头部的插入删除，时间复杂度为O(N) 2. 增容需要申请新空间，拷贝数据，释放旧空间。会有不小的消耗。 3. 增容一般是呈2倍的增长，势必会有一定…

阅读更多...

算法的特性和空间复杂度---数据结构

算法的特性和空间复杂度---数据结构

目录前言： 1.算法 1.1算法的特性 1.2设计算法 2.空间复杂度 3.学习复杂度的意义 ❤博主CSDN：啊苏要学习 ▶专栏分类：数据结构◀ 学习数据结构是一件有趣的事情，希望读者能在我的博文切实感受到数据之间存在的关系&#xff…

阅读更多...

【3dmax】常用的快捷键总结以及如何修改快捷键

【3dmax】常用的快捷键总结以及如何修改快捷键

💗 未来的游戏开发程序媛，现在的努力学习菜鸡 💦本专栏是我关于建模的笔记 🈶本篇是3dmax常用的快捷键总结以及如何修改快捷键 3dmax常用的快捷键总结以及如何修改快捷键 3dmax常用快捷键如何添加或修改快捷键 3dmax常用快捷键视…

阅读更多...

go pprof性能调优工具

go pprof性能调优工具

go pprof 一、性能调优原则二、pprof1、pprof 功能简介2、pprof 排查实战前置工作a、CPUb、Heapc、goroutined、mutexe、block 3、pprof 的采样过程和原理a、cpub、heapc、goroutine && threadCreated、block && mutex 三、调优流程1、业务优化a、流程 2、基础…

阅读更多...

2023.4.17-4.23 AI行业周刊（第146期）：创业要趁早

2023.4.17-4.23 AI行业周刊（第146期）：创业要趁早

最近有很多外部拓展培训的需求，联盟的共学课程培训，公司视觉软件的培训，行业课程的培训，每一项培训听起来简单，但是其实都需要大量的时间精力。前两年也准备过一份《30天入门人工智能》的视频课程，总共31…

阅读更多...

Ansible自动化部署工具|各个模块的使用

Ansible自动化部署工具|各个模块的使用

Ansible自动化部署工具|各个模块的使用一、自动化运维工具—Ansible二、安装Ansible查询webserver组中主机的日期三 Ansible常用模块(1) ansible命令行模块(2) command模块(3) shell模块(4) cron模块(5) user模块(6) grup模块(7) copy模块(8) file模块(9) ping模块(10) servi…

阅读更多...

内网穿透NPS和宝塔Nginx配合使用，开启SSL访问本地局域网网络

内网穿透NPS和宝塔Nginx配合使用，开启SSL访问本地局域网网络

并非为了教学，仅供自己记录，方便下次用。所以内容不会刻意花时间写的很细节详细。 1. 服务器NPS配置 NPS install安装后，配置文件会在其他位置，通过是 /etc/nps/nps.conf目录。找到进行修改，主要修改的是http_proxy_p…

阅读更多...

【flask】三种路由和各自的比较配置文件所有的字母必须大写if __name__的作用核心对象循环引用的几种解决方式--难Flask的经典错误

【flask】三种路由和各自的比较配置文件所有的字母必须大写if name的作用核心对象循环引用的几种解决方式--难Flask的经典错误

三种路由方法1：装饰器 python C#, java 都可以用这种方式 from flask import Flask app Flask(__name__)app.route(/hello) def hello():return Hello world!app.run(debugTrue)方法2: 注册路由 php python from flask import Flask app Flask(__name__)//app…

阅读更多...

推荐文章

最新文章