Spark大数据处理讲课笔记3.4 理解RDD依赖

news2026/2/11 5:42:28

文章目录

零、本讲学习目标
一、RDD依赖
二、窄依赖
- （一）map()与filter()算子
- （二）union()算子
- （三）join()算子
三、宽依赖
- （一）groupBy()算子
- （二）join()算子
- （三）reduceByKey()算子
三、两种依赖的比较

零、本讲学习目标

理解RDD的窄依赖
理解RDD的宽依赖
了解两种依赖的区别

一、RDD依赖

在Spark中，对RDD的每一次转化操作都会生成一个新的RDD，由于RDD的懒加载特性，新的RDD会依赖原有RDD，因此RDD之间存在类似流水线的前后依赖关系。这种依赖关系分为两种：窄依赖和宽依赖。

二、窄依赖

窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用，即OneToOneDependencies。窄依赖的表现一般分为两类，第一类表现为一个父RDD的分区对应于一个子RDD的分区；第二类表现为多个父RDD的分区对应于一个子RDD的分区。一个父RDD的一个分区不可能对应一个子RDD的多个分区。为了便于理解，我们通常把窄依赖形象的比喻为独生子女。
RDD做map、filter和union算子操作时，是属于窄依赖的第一类表现；而RDD做join算子操作（对输入进行协同划分）时，是属于窄依赖表现的第二类。输入协同划分是指多个父RDD的某一个分区的所有Key，被划分到子RDD的同一分区。当子RDD做算子操作，因为某个分区操作失败导致数据丢失时，只需要重新对父RDD中对应的分区做算子操作即可恢复数据。

（一）map()与filter()算子

一对一的依赖

（二）union()算子

多对一的依赖

（三）join()算子

多对一的依赖
对于窄依赖的RDD，根据父RDD的分区进行流水线操作，即可计算出子RDD的分区数据，整个操作可以在集群的一个节点上执行。

三、宽依赖

宽依赖是指子RDD的每一个分区都会使用所有父RDD的所有分区或多个分区，即OneToManyDependecies。为了便于理解，我们通常把宽依赖形象的比喻为超生。
父RDD做groupByKey和join（输入未协同划分）算子操作时，子RDD的每一个分区都会依赖于所有父RDD的所有分区。当子RDD做算子操作，因为某个分区操作失败导致数据丢失时，则需要重新对父RDD中的所有分区进行算子操作才能恢复数据。
例如，groupByKey()、reduceByKey()、sortByKey()等操作都会产生宽依赖。

（一）groupBy()算子

多对多的依赖

（二）join()算子

多对多的依赖
join()操作的依赖关系分两种情况：RDD的一个分区仅和另一个RDD中已知个数的分区进行组合，这种类型的join()操作是窄依赖，其他情况则是宽依赖。
在宽依赖关系中，RDD会根据每条记录的key进行不同分区的数据聚集，数据聚集的过程称作Shuffle，类似MapReduce中的Shuffle过程。举个生活中的例子，4个人一起打牌，打完牌后需要进行洗牌，这4个人相当于4个分区，每个人手里的牌则相当于分区里的数据，洗牌的过程可以理解为Shuffle。因此，Shuffle其实就是不同分区之间的数据聚集或者说数据混洗。Shuffle是一项耗费资源的操作，因为它涉及磁盘I/O、数据序列化和网络I/O。

（三）reduceByKey()算子

对一个RDD进行reduceByKey()操作，RDD中相同key的所有记录将进行聚合，而key相同的所有记录可能不在同一个分区中，甚至不在同一个节点上，但是该操作必须将这些记录聚集到一起进行计算才能保证结果准确，因此reduceByKey()操作会产生Shuffle，也会产生宽依赖。

三、两种依赖的比较

在数据容错方面，窄依赖要优于宽依赖。当子RDD的某一个分区的数据丢失时，若是窄依赖，则只需重算和该分区对应的父RDD分区即可，而宽依赖需要重算父RDD的所有分区。在groupByKey()操作中，若RDD2的分区1丢失，则需要重新计算RDD1的所有分区（分区1、分区2、分区3）才能对其进行恢复。此外，宽依赖在进行Shuffle之前，需要计算好所有父分区的数据，若某个父分区的数据未计算完毕，则需要等待。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/489107.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

字符设备驱动

字符设备驱动

字符设备就是按字节流进行读写的设备，读写数据分先后顺序，如点灯，IIC，SPI，LCD等都是字符设备，这些设备的驱动就叫字符设备驱动。 include/linux/fs.h中 file_operations 结构体为内核驱动操作函数集合&…

阅读更多...

如何关闭tomcat？tomcat端口号被占用怎么办

如何关闭tomcat？tomcat端口号被占用怎么办

我tomcat一跑就报被占用怎么办？我没开tomcat呀！！ 这种情况一般是你上一次打开tomcat没有关tomcat服务就关闭了变成软件（如强行关闭正在运行tomcat的idea），这样你在开tomcat就会显示端口号占用了&#xff0…

阅读更多...

API 渗透测试从入门到精通系列文章（上）

API 渗透测试从入门到精通系列文章（上）

导语：这是关于使用 Postman 进行渗透测试系列文章的第一部分。这是关于使用 Postman 进行渗透测试系列文章的第一部分。我原本计划只发布一篇文章，但最后发现内容太多了，如果不把它分成几个部分的话，很可能会让读者不知所措。所…

阅读更多...

SMOKE Single-Stage Monocular 3D Object Detection via Keypoint Estimation 论文学习

SMOKE Single-Stage Monocular 3D Object Detection via Keypoint Estimation 论文学习

论文地址：SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation Github 地址：https://github.com/open-mmlab/mmdetection3d/tree/main/configs/smoke 1. 解决了什么问题？ 预测物体的 3D 朝向角和平移距离对于自动驾…

阅读更多...

hive之入门配置

hive之入门配置

学习hive之路就此开启啦，让我们共同努力目录 Hive网站： Hive的安装部署： 启动并使用Hive： 安装Mysql: 安装Mysql依赖包： 启动Mysql: 查看密码： 登录root: 密码错误报错： 元数据库配置…

阅读更多...

信创国产中间件概览

信创国产中间件概览

信创国产中间件概览中间件国内中间件市场份额第一梯队仍然是IBM> 和Oracle，市场份额合计51%。第二梯队为五大国产厂商，包括东方通、普元信息、宝兰德、中创中间件、金蝶天燕，市场份额合计15%。东方通应用服务器TongWeb对标开源&#xf…

阅读更多...

人脸检测和行人检测3：Android实现人脸检测和行人检测检测(含源码，可实时检测)

人脸检测和行人检测3：Android实现人脸检测和行人检测检测(含源码，可实时检测)

人脸检测和行人检测3：Android实现人脸检测和行人检测检测(含源码，可实时检测) 目录人脸检测和行人检测3：Android实现人脸检测和行人检测(含源码，可实时检测) 1. 前言 2. 人脸检测和行人检测数据集说明 3. 基于YOLOv5的人脸检…

阅读更多...

Databend 开源周报第 91 期

Databend 开源周报第 91 期

Databend 是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展，遇到更贴近你心意的 Databend 。新数据类型&…

阅读更多...

【Robot Framework】RF关键字大全

【Robot Framework】RF关键字大全

收录工作当中最常用的Robot Framework关键字内容较多，可以CtrlF快速搜索自己想要的 1. RF循环使用（FOR循环） {list1} create list LOG TXT INI INF C CPP JAVA JS CSS LRC H ASM S ASP FOR ${file_type} IN {list1} log 构造请求参数 ${t…

阅读更多...

第二十二章解释器模式

第二十二章解释器模式

文章目录前言一、解释器模式基本介绍解释器模式的原理类图二、通过解释器模式来实现四则运算完整代码抽象表达式类 Expression变量表达式类 VarExpression抽象运算符号解析器 SymbolExpression加法解释器 AddExpression减法解释器 SubExpression计算器类 CalculatorClint 测试…

阅读更多...

【C++】仅需一文速通继承

【C++】仅需一文速通继承

文章目录 1.继承的概念及定义继承的概念继承的定义定义格式:继承关系和访问限定符继承基类成员访问方式的变化 2.基类和派生类对象赋值转换3.继承中的作用域4.派生类的默认成员函数题目:设计出一个类A,让这个类不能被继承(继承了也没用) 5.继承与友元6.继承与静态成员7.复杂的菱…

阅读更多...

VK Cup 2017 - Round 1 A - Bear and Friendship Condition（并查集维护大小 + dfs 遍历图统计边数）

VK Cup 2017 - Round 1 A - Bear and Friendship Condition（并查集维护大小 + dfs 遍历图统计边数）

题目大意： 给你一些n个点m条边，如果三个点（a,b,c）是合法的，当且仅当 a-b,b-c,c-a都有一条边，问你这个图是否合法，如果有一个或两个点视为合法思路考虑什么图才是个合法图：除了点…

阅读更多...

Spring 更简单的读取和存储对象

Spring 更简单的读取和存储对象

✏️作者：银河罐头 📋系列专栏：JavaEE 🌲“种一棵树最好的时间是十年前，其次是现在” 前面介绍了通过配置文件的方式来存储 Bean 对象，那么有没有更简单的方式去存储 Bean 对象？ 有以下 2 种方…

阅读更多...

【论文】LearningDepth from Single Monocular Images

【论文】LearningDepth from Single Monocular Images

2005 NIPS 文章目录特征提取卷积核的使用Multiscale 多尺度提取特征特征的相对深度模型结论特征提取数据集导致的error 文章使用了Markov 随机场(Markov Random Fields, MRF) 从单图像上直接估计出图像的深度信息。与RGBD输入数据不同的是，文章中采用了YCbCr数据…

阅读更多...

知识点总结-DAY1

知识点总结-DAY1

1. 请解释OSI模型中每一层的作用应用层：为用户提供服务，处理应用程序之间交换的数据。表示层：处理数据在网络上的表示形式，如加密和解密、压缩和解压缩等。会话层：建立、维护和终止两个节点之间的会话&#xff0c…

阅读更多...

安全防御 --- IPSec理论

安全防御 --- IPSec理论

IPSec 1、概述： 是IETF（Internet Engineering Task Force）制定的一组开放的网络安全协议，在IP层通过数据来源认证、数据加密、数据完整性和抗重放功能来保证通信双方Internet上传输数据的安全性。 IPSec安全服务机密性完整性…

阅读更多...

雨季时，骑行经过泥泞路段该怎么办？

雨季时，骑行经过泥泞路段该怎么办？

泥泞路段骑行是一项需要技巧和勇气的挑战。在泥泞路段骑行，骑友又叫玩泥巴，不仅需要良好的车技和身体素质，还需要有足够的经验和判断力，以应对各种突发情况。下面，将从多个角度介绍泥泞路段骑行的挑战和技巧&#xff0…

阅读更多...

宏观经济笔记--社会消费品零售总额

宏观经济笔记--社会消费品零售总额

我们讨论了GDP的三个分项：投资、消费、净出口。投资我们前面已经介绍了，消费这一个分项我们还一直没有讨论。消费最重要的数据是每个月月中统计局公布的社会消费品零售总额。一般的论调中，认为消费是三个GDP驱动项中最健康的一项&#xff0…

阅读更多...

2023-5-4-Lua语言学习

2023-5-4-Lua语言学习

🍿*★,*:.☆(￣▽￣)/$:*.★* 🍿 💥💥💥欢迎来到🤞汤姆🤞的csdn博文💥💥💥 💟💟喜欢的朋友可以关注一下&#xf…

阅读更多...

openQA----基于openQA新增指定版本的openSUSE的iso镜像进行测试

openQA----基于openQA新增指定版本的openSUSE的iso镜像进行测试

【原文链接】openQA----基于openQA新增指定版本的openSUSE的iso镜像进行测试 （1）执行如下命令下载openSUSE的测试脚本，它会从openSUSE的测试脚本github地址 /usr/share/openqa/script/fetchneedles（2）然后执行如下命…

阅读更多...

推荐文章

最新文章