Spark中join和cogroup

news2025/1/16 19:12:42

笔者最近在复习spark，发现对cogroup算子掌握不牢固。因此写下这篇博客，方便以后学习。

join算子

join算子相当于将两个rdd进行内连接，在join的结果中，返回值是key和元组

cogroup算子

cogroup算子相当于将两个rdd中相同键的每个元素的value进行合并中。
在 cogroup 的结果中，返回值是key和迭代器。对于每个key，元组的第一个元素是一个迭代器，包含了所有具有该键的第一个RDD的元素，第二个元素是另一个迭代器，包含了所有具有该键的第二个RDD的元素。如果某个RDD中没有与该键匹配的元素，对应的迭代器将为空。

代码如下

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName("test230827")
sc = SparkContext(conf=conf)

data1 = [("a", 1), ("b", 2), ("c", 3), ("b", 5)]
data2 = [("a", "x"), ("b", "y"), ("d", "z")]

# join  ===========================================================
rdd1 = sc.parallelize(data1)
rdd2 = sc.parallelize(data2)

joined = rdd1.join(rdd2)
result = joined.collect()

print(result)

# cogroup  ===========================================================

rdd1 = sc.parallelize(data1)
rdd2 = sc.parallelize(data2)

cogrouped = rdd1.cogroup(rdd2)
result = cogrouped.mapValues(lambda x: (list(x[0]), list(x[1]))).collect() # 因为返回值是迭代器 所以要使用list进行处理

print(result)

sc.stop()

运行结果

[('b', (2, 'y')), ('b', (5, 'y')), ('a', (1, 'x'))]
[('b', ([2, 5], ['y'])), ('d', ([], ['z'])), ('a', ([1], ['x'])), ('c', ([3], []))]

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/935136.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

Spark中join和cogroup

join算子

cogroup算子

代码如下

运行结果

相关文章

LeetCode538. 把二叉搜索树转换为累加树

作业人员护目镜佩戴自动识别

iPhone手机如何删除照片应用程序的文稿与数据

.netcore发布独立版部署

全栈之前端 | 2.CSS3基础知识之选择器学习

Sping源码（七）— 后置处理器（自定义后置处理器）

SM2(国密)非对称（公钥私钥）在线加密解密

【mq】如何保证消息可靠性

2023 江苏省研究生数学建模 A 题思路

回归预测 | MATLAB实现CSO-ELM布谷鸟算法优化极限学习机多输入单输出回归预测（多指标，多图）

Go 使用 Gorm 将操作信息集成到链路跟踪 Jaeger，进行增删改查使用举例，并做可视化UI界面展示（附源码）

Gazebo GPU加速【gzserver running in GPU】

WebRTC之FEC前向纠错协议

mtk8175添加一款camera(GC5035)流程

在Java8的forEach()中使用break/continue

利用open_cv在图像上进行点标记，文字注记，画圆、多边形、椭圆

Python基础学习第一天：关于Python的简单介绍

【五】sql 语言 -- 概览

工地安全帽识别闸机联动开关 yolov7

FFmpeg支持多线程编码并保存mp4文件示例