【Spark练习】RDD分区操作

news2026/2/15 18:13:32

练习1：行动（Action）操作算子方法

任务1: reduce

// 1. 数组
val x = sc.parallelize(List(1,2,3,4))
val y = x.reduce( (a,b) => a + b)
// 2. 列表
val rdd = sc.parallelize(List(1,2,3,4))
// 求和,将各个数累加,依次合并  下面两种方式相同
val y = rdd.reduce( (x,y) => x + y)
val y = rdd.reduce(_+_)

在这里插入图片描述

任务2: saveAsTextFile

val x = sc.parallelize(Array(2,4,1))
x.saveAsTextFile("file:///F:/04Spark/dataset/hello_new.txt")
// 再将文件中内容读出来
val y = sc.textFile("file:///F:/04Spark/dataset/hello_new.txt")
y.collect.mkString(",")

在这里插入图片描述

练习2：RDD的分区操作、分区个数查看

任务1: textFile、parallelize

2.1 textFile

对于textFile而言，如果没有在方法中指定分区数，则sc.defaultMinPartitions默认为min(defaultParallelism,2)，其中，defaultParallelism对应的就是spark.default.parallelism，如果是从HDFS中读取文件，则分区数为文件分片数(比如，128MB/片)
rdd的分区数 = max（本地file的分片数， sc.defaultMinPartitions）

// 1. 查看默认分区 （为4）
sc.defaultParallelism
// 2. 查看默认最小分区 （为2）
sc.defaultMinPartitions
//3.  将rdd存为文件
val rdd1 = sc.parallelize(Array(2,4))
rdd1.saveAsTextFile("file:///F:/04Spark/dataset/hello_new2.txt")
// 4. 读取
val rdd2 = sc.textFile("file:///F:/04Spark/dataset/hello_new2.txt")
// 5.查看分区的数量 （为4）
rdd2.partitions.size

在这里插入图片描述

由于rdd的分区数 = max（本地file的分片数， sc.defaultMinPartitions），rdd的分区数为4，sc.defaultMinPartitions为2，所以本地file的分片数为4，检查发现确实分为4个part。

2.2 parallelize

这种方式下，如果在parallelize操作时没有指定分区数，则rdd的分区数 = sc.defaultParallelism

// 1. 没有设置分区数量
val array = Array(1,2,3,4,5)
val rdd = sc.parallelize(array) #没有设置分区数量
// 分区数量为默认分区数量（4）
rdd.partitions.size
// 2. 设置分区数量
val rdd = sc.parallelize(array,2) // 分区数量为2
// 结果分区数量变为2
rdd.partitions.size

在这里插入图片描述

任务2: repartition

coalesce方法默认是不触发shuffle的，而repartition方法一定会触发shuffle，他们都可以重新进行分区
repartition方法不会改变原来rdd分区数量，而是使返回新的rdd分区数量改变

val array = Array(1,2,3,4,5)
val rdd = sc.parallelize(array,2) // 此时rdd分区数量为2
// repartition不会改变原来rdd，它会返回一个新的rdd
rdd.repartition(1)  // 此时rdd分区数量仍为2
rdd.partitions.size
// 返回一个新的rdd，新的rdd分区数量为1
val rdd1 = rdd.repartition(1) // 此时新的rdd1分区数量为1，rdd分区数量为2
rdd1.partitions.size

在这里插入图片描述

补充

1. countByKey()

action算子；根据key的次数来做统计

val x = sc.parallelize(Array(('J',"James"),('F',"Fred"),('A',"Anna"),('J',"John")))
val y = x.countByKey()
println(y)

在这里插入图片描述

2. foreachPartition

foreachPartition方法是迭代器被传入了我们的方法(每个分区执行一次函数，我们获取迭代器后需要自行进行迭代处理)

//   1. 分区 2个分区
    val rdd = sc.parallelize(1 to 6,2)
    rdd.foreachPartition(x =>{
      println("data")
      println(x)
      while(x.hasNext){println(x.next())}
    })

在这里插入图片描述

3. aggregate 方法

3.1 方法说明

首先对每个分区内的数据基于初始值进行一个首次聚合，然后将每个分区聚合的结果，通过使用给定的聚合函数，再次基于初始值进行分区之间的聚合，并且最终返回结果。该算子为action算子。

3.2 操作步骤

定义两个要给 aggregate 当作输入参数的函数,给初值3

// 乘积
def pfun1(p1: Int, p2: Int): Int = {
    p1 * p2
}
// 和
def pfun2(p3: Int, p4: Int): Int = {
    p3 + p4
}
// 
val array = Array(1,2,3,4,5)
// 指明分区数量为1，否则默认分区数量为4
 val rdd1 = sc.parallelize(array,1)
// 给定初值3，先进行相乘，再将结果进行相加
rdd1.aggregate(3)(pfun1, pfun2)

在这里插入图片描述

3.2 分析

首先用初值 3 作为 pfun1 的参数 p1 ，用 RDD 中的第 1 个值，即 1 作为 pfun1 的参数 p2 。由此我们可以得到第一个计算值为 3 * 1 = 3 。接着这个结果 3 被当成 p1 参数传入，RDD 中的第 2 个值即 2 被当成 p2 传入，由此得到第二个计算结果为 3 * 2 = 6 。以此类推，整个 pfun1 函数执行完成以后3 * 1 * 2 * 3 * 4 * 5 = 360
在 aggregate 方法的第 1 个参数函数 pfun1 执行完毕以后，我们得到了结果值 360 。于是，这个时候就要开始执行第 2 个参数函数 pfun2 了。
pfun2 的执行过程与 pfun1 是差不多的，同样会将 zeroValue 作为第一次运算的参数传入，在这里即是将 zeroValue 即 3 当成 p3 参数传入，然后是将 pfun1 的结果 360 当成 p4 参数传入，由此得到计算结果为 363 。因为 pfun1 仅有一个结果值，所以整个 aggregate 过程就计算完毕了，最终的结果值就是 363 。
注意分区数量的不同导致最后运算的结果也会不同。

3.3 多个分片RDD

val array = Array(1,2,3,4,5,6,7,8,9,10)
val rdd2 = sc.parallelize(array,3)
rdd2.getNumPartitions

rdd2.aggregate(2)(pfun1, pfun2)

在这里插入图片描述

分析：
2 * 1 * 2 * 3 = 12
2 * 4 * 5 * 6 = 240
2 * 7 * 8 * 9 * 10 = 10080
2 + 12 + 240 + 10080 = 10334

参考链接

aggregate参考
默认分区数参考

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/487939.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【Spark练习】RDD分区操作

练习1：行动（Action）操作算子方法

任务1: reduce

任务2: saveAsTextFile

练习2：RDD的分区操作、分区个数查看

任务1: textFile、parallelize

2.1 textFile

2.2 parallelize

任务2: repartition

补充

1. countByKey()

2. foreachPartition

3. aggregate 方法

3.1 方法说明

3.2 操作步骤

3.2 分析

3.3 多个分片RDD

参考链接

相关文章

读书笔记// 《数据产品经理》

Swift 中的 async/await ——代码实例详解

《人工智能概论》课程重点总结

Baklib推荐：关于建设企业知识管理的有效方法

MPSOC（ZU9EG/ZU15EG）PCIE架构高性能数据预处理 FMC载板设计资料

「蓝桥杯」积木大赛

Vue3中双向数据绑定与Pinia实践+JS数据引用的循环修改问题

赛道冠军为AI狂飙：实在智能即将重归福州，亮相第六届数字中国建设峰会

代码随想录算法训练营第二十五、二十七天 | 细节很多、树枝去重和树层去重的区分是难点、分割

SpringCloud微服务的熔断、限流、降级是怎么回事？

vue2实现高德地图 JSAPI 2.0轨迹回放组件(MoveAnimation)

OpenGL(四)——纹理

云原生技术概谈

推荐算法实战项目：DeepCross 原理以及案例实战(附完整 Python 代码)

计算机视觉的应用3-批量图片风格迁移之素描图片生成的应用

【干货】一文说透分布式一致性协议（下）

对多个点进行直线拟合操作

二分类结局变量Logistic回归临床模型预测（二）——基线特征及三线表绘制（二）

蓝牙耳机哪款性价比高一些？2023年性价比最高的蓝牙耳机推荐

手把手带你写一份优秀的开发求职简历（五）技术能力如何凸显优势