Spark--算子执行原理

news2026/2/13 15:23:13

一、sortByKey

SortByKey是一个transformation算子，但是会触发action，因为在sortByKey方法内部，会对每个分区进行采样，构建分区规则（RangePartitioner）。

内部执行流程

1、创建RangePartitioner part，用于构建分区规则。

Part可以根据指定的分区数量和排序方式，确定每个下游分区的上界，并为每个key分配正确的分区编号。数据在shuffle到本地磁盘的过程中，会记录目标分区的信息，确保下游分区能够正确拉取对应分区的数据。

2、根据part创建ShuffleRDD，对原始RDD按key重新分区。

3、shuffle到本地磁盘的临时文件（包含数据文件和索引文件）。

4、下游分区拉取对应分区的数据。

RangePatitioner工作原理

（1）确定下游每个分区的上界。

对每个上游分区采样，确定数据的大致范围，再根据传入的分区数或者默认分区数确定分区边界。

（2）将rdd中的每个key调用getPartition函数，从而获取其应归属的分区。

①若目标分区数较小（128），采用线性查找；
②若超过128，采用二分查找：
如果键小于范围的最小界限，它将分配到第一个分区。
如果键大于所有范围界限，它将分配到最后一个分区。
对于在某个范围中间的键，getPartition 使用二分查找方法找到合适的分区。这里根据范围边界数组 (rangeBounds) 和键值（k）进行比较，返回对应的分区索引。

二、join

内部执行流程

1、接收其他RDD作为参数

默认使用当前有效的最大分区器，如果没有，新建一个HashPartitioner作为分区器。

2、将具有相同key的value进行联结（cogroup)

（返回一个二元组(K, (Iterable[V1], Iterable[V2]))），若某个rdd没有该key对应的value，Iterable为空。

3、将每个key对应的两个Iterator中的元素进行笛卡尔积，每一对结果作为新的value，与key组成新的二元组返回。

三、map & mapPartitions & mapPartitionsWithIndex & flatMap

1、map

内部执行流程

（1）将函数作为参数传入；
（2）对f删除不必要的引用，检查是否能够被序列化，是否存在闭包问题；
（3）创建一个MapPartitionsRDD，将每个迭代器执行 f 的逻辑后返回。

特点

（1）每处理一条数据，就调用一次f，每一条数据都是一个迭代器。
（2）无法直接得知分区编号，但是可以通过如下方式获取：

val index = TaskContext.getPartitionId()

（3）返回迭代器。

2、mapPartitions

特点

（1）以分区为单位对数据调用f，一个分区就是一个迭代器。
（2）返回迭代器和partitioner。

3、mapPartitionsWithIndex

特点

（1）以分区为单位对数据调用f，一个分区就是一个迭代器。
（2）返回分区编号和迭代器

4、flatMap

通过TraversableOnce特征，逐个处理rdd中的每个元素，然后将处理过的元素组成新的rdd返回。

四、groupByKey & groupBy

1、groupByKey (k, CompactBuffer(v,v,v,v) )

内部执行流程

1、调用 combineByKeyWithClassTag将所有相同的key合并到CompactBuffer中，并根据指定的partitioner进行分组；
2、返回一个新的rdd，每个key 对应的value被聚合成一个CompactBuffer；
3、将合并后的rdd转换为RDD[(K, Iterable[V])]]。

partitioner为HashPartitioner

可以看到，HashPartitioner为key分配新分区号的方式是key的hashCode值 % 下游分区数，这意味着相同key的数据一定会被分配到同一台机器的同一个partition的同一个组里面。

2、groupBy ( k, CompactBuffer( (k,v),(k,v),(k,v),(k,v) ) )

内部执行流程

1、将f函数作为参数传入；
2、对f删除不必要的引用，检查是否能够被序列化，是否存在闭包问题；
3、将rdd的每个元素调用f后的值作为key，元素本身作为value，得到的二元组调用groupByKey进行分组。

源rdd在Driver端被创建和调用，对rdd进行操作，本质上是对rdd的每个partition进行操作，而每个partition对应一个task，task就会对这个partition对应的Iterator进行相应的操作。
算子被调用，真正执行时会调用compute方法。真正执行具体是指task被分配到executor的线程池中时，compute方法被iterator调用。