【Spark分布式内存计算框架——Spark Core】5. RDD 函数补充:关联函数与练习

news2024/11/25 12:48:04

关联函数

当两个RDD的数据类型为二元组Key/Value对时,可以依据Key进行关联Join。
在这里插入图片描述
首先回顾一下SQL JOIN,用Venn图表示如下:
在这里插入图片描述
RDD中关联JOIN函数都在PairRDDFunctions中,具体截图如下:
在这里插入图片描述
具体看一下join(等值连接)函数说明:
在这里插入图片描述
范例演示代码:

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
/**
* RDD中关联函数Join,针对RDD中数据类型为Key/Value对
*/
object SparkJoinTest {
def main(args: Array[String]): Unit = {
// 创建应用程序入口SparkContext实例对象
val sc: SparkContext = {
// 1.a 创建SparkConf对象,设置应用的配置信息
val sparkConf: SparkConf = new SparkConf()
.setAppName(this.getClass.getSimpleName.stripSuffix("$"))
.setMaster("local[2]")
// 1.b 传递SparkConf对象,构建Context实例
new SparkContext(sparkConf)
}
sc.setLogLevel("WARN")
// 模拟数据集
val empRDD: RDD[(Int, String)] = sc.parallelize(
Seq((1001, "zhangsan"), (1002, "lisi"), (1003, "wangwu"), (1004, "zhangliu"))
)
val deptRDD: RDD[(Int, String)] = sc.parallelize(
Seq((1001, "sales"), (1002, "tech"))
)
/*
def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]
*/
val joinRDD: RDD[(Int, (String, String))] = empRDD.join(deptRDD)
println(joinRDD.collectAsMap())
/*
def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]
*/
val leftJoinRDD: RDD[(Int, (String, Option[String]))] = empRDD.leftOuterJoin(deptRDD)
println(leftJoinRDD.collectAsMap())
// 应用程序运行结束,关闭资源
sc.stop()
}
}

函数练习

RDD中的函数有很多,不同业务需求使用不同函数进行数据处理分析,下面仅仅展示出比较常用的函数使用,更多函数在实际中使用体会,多加练习理解。

map 函数
对RDD中的每一个元素进行操作并返回操作的结果。
在这里插入图片描述
filter 函数
函数中返回True的被留下,返回False的被过滤掉。

在这里插入图片描述
flatMap 函数
对RDD中的每一个元素进行先map再压扁,最后返回操作的结果。
在这里插入图片描述
交集、并集、差集、笛卡尔积
数学集合中操作,类似Scala集合类Set中相关函数,注意类型要一致。
在这里插入图片描述
distinct 函数
对RDD中元素进行去重,与Scala集合中distinct类似。
在这里插入图片描述
first、take、top 函数
从RDD中获取某些元素,比如first为第一个元素,take为前N个元素,top为最大的N个元素。
在这里插入图片描述
keys、values 函数
针对RDD中数据类型为KeyValue对时,获取所有key和value的值,类似Scala中Map集合。
在这里插入图片描述
mapValues 函数
mapValues表示对RDD中的元素进行操作,Key不变,Value变为操作之后。
在这里插入图片描述
collectAsMap 函数
当RDD中数据类型为Key/Value对时,转换为Map集合。
在这里插入图片描述

mapPartitionsWithIndex 函数
取分区中对应的数据时,还可以将分区的编号取出来,这样就可以知道数据是属于哪个分区的
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/336688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1624_MIT 6.828 stabs文档信息整理_上

全部学习汇总: GreyZhang/g_unix: some basic learning about unix operating system. (github.com) 前面为了完成MIT 6.828的堆栈信息解析大概看了一下这个文档,现在把看过的信息简单整理一下。 1. stabs主要是为调试器提供调试信息用的描述数据&#x…

11.XMLHttpRequest的进阶用法

目录 1 设置HTTP的请求时限 2 Formdata对象 2.1 简单使用 2.2 Formdata直接获取表单数据 2.3 上传文件 2.4 上传文件的进度 3 定义API根路径 4 请求出错 上面我们用的都是旧版的XMLHttpRequest,旧版有两个缺点 无法上传文件没有传送数据的进度信息…

Docker部署ddns-go,动态域名解析公网IPv6地址

Docker部署ddns-go,动态域名解析公网IPv6地址 ddns-go,自动获得你的公网 IPv4 或 IPv6 地址,并解析到对应的域名服务。 嫌IPv6地址太难记?ddns来解决,将家里的公网IPv6地址用起来吧! 前言 为什么需要DDNS …

Java设计模式——装饰器模式

目录 1.什么是装饰器模式 2.装饰器模式优缺点 3.装饰器模式结构 4.代码示例 1.什么是装饰器模式 装饰器模式,指在不改变原有对象结构的基础情况下,动态地给该对象增加一些额外功能的职责。装饰器模式相比生成子类更加灵活。它属于对象结构型模式。 …

DCGAN

DCGAN的论文地址[https://arxiv.org/pdf/1511.06434.pdf]。DCGAN是GAN的一个变体,DCGAN就是将CNN和原始的GAN结合到一起,生成网络和鉴别网络都运用到了深度卷积神经网络。DCGAN提高了基础GAN的稳定性和生成结果质量。DCGAN主要是在网络架构上改进了原始的…

JVET-AC0315:用于色度帧内预测的跨分量Merge模式

ECM采用了许多跨分量的预测(Cross-componentprediction,CCP)模式,包括跨分量包括跨分量线性模型(CCLM)、卷积跨分量模型(CCCM)和梯度线性模型(GLM)&#xff0…

软件太多?1 秒找到您想要的应用

您的手机页面是怎样的呢? 也许像这样,所有 APP 平铺在一起~ 亦或是这样,将所有 APP 分类整理好~ 在整理的过程中,我们免不了要进行 “拖拽” 。 平铺式的呈现方式,如果 APP 数量众多,我们免不了要进行搜索…

基于Java的题库管理系统的设计与实现

技术:Java、JSP等摘要:随着我国社会的进步,社会的各个领域的创新改革都在高速发展的信息时代下突显出来。在信息时代这个大的背景下,对软件开发的要求越来越高,对考试的管理更需要加强,所以迫使我们不得不对…

【设计模式之美 设计原则与思想:面向对象】12丨实战一(下):如何利用基于充血模型的DDD开发一个虚拟钱包系统?

上一节课,我们做了一些理论知识的铺垫性讲解,讲到了两种开发模式,基于贫血模型的传统开发模式,以及基于充血模型的 DDD 开发模式。今天,我们正式进入实战环节,看如何分别用这两种开发模式,设计实…

疫情开发,软件测试行情趋势是怎么样的?

如果说,2022年对于全世界来说,都是一场极大的挑战的话;那么,2023年绝对是机遇多多的一年。众所周知,随着疫情在全球范围内逐步得到控制,无论是国际还是国内的环境,都会呈现逐步回升的趋势&#…

每天一个摸鱼小技巧之「理解代码评审」

每个人的代码风格不同,在需要团队协作的项目里,如果没有统一的编程规范,那么会出现各式各样的代码,这对于团队成员来讲是个「灾难」。在需要对接协作模块时,要花费大量的时间去阅读代码,如果注释写的不明确…

观点分享 | 冲量在线联合创始人CTO陈浩栋:基于可信执行环境构建更安全的数据流通方案

2022年12月28日,由中国信息通信研究院(以下简称中国信通院)、中国通信标准化协会指导,隐私计算联盟、中国通信标准化协会大数据技术标准推进委员会联合主办的2022可信隐私计算峰会在北京召开,本次峰会的主题为“推进隐…

IO多路转接 —— poll和epoll

文章目录1. poll1.1 poll的函数接口1.2 poll的简单测试程序1.3 poll的优缺点分析2. epoll2.1 epoll的函数接口2.2 epoll的工作原理2.3 epoll的工作模式(LT,ET)2.4 epoll的简易服务器实现(默认是LT工作模式)前言: 接上文讲述的select,它有缺点&#xff0c…

一个UML的例子

一、需求分析 1.概念定义 需求分析,要明确以下4个概念的具体内容: 资源是指使用或产生的对象,如人、物料、信息、产品等。 目标是指希望资源处于什么样的状态。 过程是指被执行的活动,这些活动会改变资源的状态。 规则是指在某些…

2023-02-09 - 3 Elasticsearch基础操作

本章主要介绍ES的基础操作,具体包括索引、映射和文档的相关操作。其中,在文档操作中将分别介绍单条操作和批量操作。在生产实践中经常会通过程序对文档进行操作,因此在介绍文档操作时会分别介绍DSL请求形式和Java的高级REST编码形式。 1 索引…

VIF原理

文章目录一、VIF公式和原理对于R方一般回归模型皮尔逊相关系数中的方差VIF原理:一、VIF公式和原理 所谓VIF方法,计算难度并不高。在线性回归方法里,应用最广泛的就是最小二乘法(OLS),只不过我们对每个因子…

锁的优化机制了解嘛?请进!

点个关注,必回关 文章目录自旋锁:自适应锁:锁消除:锁粗化:偏向锁:轻量级锁:从JDK1.6版本之后,synchronized本身也在不断优化锁的机制,有些情况下他并不会是一个很重量级的…

Open AI登录,可以使用ChatGPT!

目录 第一步:准备好上网工具 1、确认自己的IP 二、登录 三、无法登录的问题 第一步:准备好上网工具 1、确认自己的IP 先查看自己的电脑的IP,使用https://www.ip138.com/,看看,然后就可以将自己电脑的IP改成国外的IP&#x…

Word处理控件Aspose.Words功能演示:使用 C++ 拆分 MS Word 文档

Aspose.Words 是一种高级Word文档处理API,用于执行各种文档管理和操作任务。API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsoft Word。此外,API支持所有流行的Word处理文件…

利用 ChatGPT 回答 R 相关问题

最近小编也尝试使用了 ChatGPT,下面给出一些知乎上常见 R 语言相关问题的回答。供大家参考: 目录 文章目录目录经典问题预测数据科学软件排名数据科学的 10 个常用 R 包R 语言入门书籍和网站推荐回答专业问题绘图绘制正负柱状图动态散点图构建 Shiny 程…