groupByKey和reduceByKey区别 groupByKey 每个分区不聚合,等最终分组完成后调用Reduce再聚合 适用于求平均数、中位数等情况 reduceByKey 每个分区并行计算先实现分区内部聚合,然后再将每个分区的结果做最终的聚合实现分区间聚合 等同于MR中Combiner的思想(Map端聚合),先并行实现每个分区内部的计算,最后只要将每个分区的结果进行计算即可 总结 groupByKeyreduceByKey功能区别只分组不聚合分组聚合性能区别没有提前聚合,会导致Reduce阶段花费时间长有分区内部聚合和分区间聚合,性能更好,优先选择