MapReduce【Shuffle-Combiner】

news2025/9/20 3:44:12

概述

Conbiner在MapReduce的Shuffle阶段起作用，它负责局部数据的聚合，我们可以看到，对于大数据量，如果没有Combiner，将会在磁盘上写入多个文件等待ReduceTask来拉取，但是如果有Combiner组件，我们可以通过Combiner来减小中间结果文件的大小，从而增加传输的效率。

以wordcount为例，从map出来的kv已经经过了排序是有序的，我们可以进行一次Combiner将相同key的value进行一个合并，从而减少数据量。接着再进行一次归并排序，将多个溢写文件合并到一起。如果溢写的文件特别多，一次归并排序不能全部合并（默认一次归并10个溢写文件），可以再进行一次归并。最终只有一个中间结果文件产生。

Combiner是MapReduce程序中Mapper和Reducer之外的一个组件。
Combiner组件的父类就是Reducer
Combiner和Reducer的区别在于运行的位置
Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量。
Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。
1. 比如wordcount案例，我们可以对它增加一个Combiner，因为这样不会影响最终结果。
2. 但是对于求平均值这种案例，比如（3+5+7+2+6)/5 != （3+5+7)/3 + (2+6)/2

实现

Combiner只需要继承Reducer类并重写reduce方法即可，我们只需要在wordcount案例基础之上增加一个类WordCountCombiner并在Runner类中修改job的属性即可。

WordCountCombiner类

public class WordCountCombiner extends Reducer<Text, LongWritable,Text,LongWritable> {

    private LongWritable OUT_KEY = new LongWritable();

    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (LongWritable value : values) {
            sum += value.get();
        }

        OUT_KEY.set(sum);

        context.write(key,OUT_KEY);
    }

}

修改job属性

//设置combiner
        job.setCombinerClass(WordCountCombiner.class);

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/559601.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

MapReduce【Shuffle-Combiner】

概述

实现

WordCountCombiner类

修改job属性

相关文章

什么是Reactive服务架构

【JMM】并发编程Bug的源头——可见性/有序性/原子性问题

2022年中国标准创新贡献奖获奖名单公示，海尔再添两项标准创新奖

前端实现拖拽效果改变元素顺序

月薪从10k到30k，一个普通测试工程师的3年涨薪之路...

2022年深圳杯数学建模D题复杂水平井三维轨道设计解题全过程文档及程序

python爬虫-获取某某在线翻译的查询结果，爬取json文件并解析

从零开始的机械臂yolov5抓取gazebo仿真（六）

使用 CameraX 在 Jetpack Compose 中构建相机 Android 应用程序

【多线程】什么是线程死锁？形成条件是什么？如何避免？

Unity 天空盒

人民大学与加拿大女王金融硕士项目——在现在憧憬美好的未来

MySQL小记——约束、多表查询

Linux安装并使用seatunnel2.3.1

Linux/Ubuntu系统运行Python+Yolov5物体识别

汽车最强大脑ECU和单片机是什么关系

31岁才转行程序员，目前34了，我来说说我的经历和一些感受吧...

tps和qps的区别和理解

html使用elementui案例

轻松将Win10系统备份到U盘的2种方法！