Combiner

news2024/12/28 19:40:34

 概述

         Conbiner在MapReduce的Shuffle阶段起作用,它负责局部数据的聚合,我们可以看到,对于大数据量,如果没有Combiner,将会在磁盘上写入多个文件等待ReduceTask来拉取,但是如果有Combiner组件,我们可以通过Combiner来减小中间结果文件的大小,从而增加传输的效率。

        以wordcount为例,从map出来的kv已经经过了排序是有序的,我们可以进行一次Combiner将相同key的value进行一个合并,从而减少数据量。接着再进行一次归并排序,将多个溢写文件合并到一起。如果溢写的文件特别多,一次归并排序不能全部合并(默认一次归并10个溢写文件),可以再进行一次归并。最终只有一个中间结果文件产生。

  1. Combiner是MapReduce程序中Mapper和Reducer之外的一个组件。
  2. Combiner组件的父类就是Reducer
  3. Combiner和Reducer的区别在于运行的位置
  4. Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量。
  5. Combiner能够应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。
    1. 比如wordcount案例,我们可以对它增加一个Combiner,因为这样不会影响最终结果。
    2. 但是对于求平均值这种案例,比如(3+5+7+2+6)/5 != (3+5+7)/3 + (2+6)/2

实现

Combiner只需要继承Reducer类并重写reduce方法即可,我们只需要在wordcount案例基础之上增加一个类WordCountCombiner并在Runner类中修改job的属性即可。

WordCountCombiner类

public class WordCountCombiner extends Reducer<Text, LongWritable,Text,LongWritable> {

    private LongWritable OUT_KEY = new LongWritable();

    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (LongWritable value : values) {
            sum += value.get();
        }

        OUT_KEY.set(sum);

        context.write(key,OUT_KEY);
    }

}

修改job属性

//设置combiner
        job.setCombinerClass(WordCountCombiner.class);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/559168.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」

By 超神经 内容一览&#xff1a;如果你正在学习如何创建或选择一个合适的数据集&#xff0c;那么这篇文章会给你一些实用的建议&#xff0c;帮助你在选择和创建数据集时做出明智的决策。 关键词&#xff1a;机器学习 数据集 本文首发自 HyperAI 超神经微信公众平台~ 作者 |…

星标3.5k,一款国产的轻量级开源在线项目任务管理工具

今天给大家推荐一个轻量级的开源在线项目任务管理工具&#xff1a;DooTask 图片 DooTask 提供各类文档协作工具、在线思维导图、在线流程图、项目管理、任务分发、即时IM&#xff0c;文件管理等工具。 高效便捷的团队沟通工具 针对项目和任务建立群组&#xff0c;工作问题可…

SRP Batcher在真机上失效

1&#xff09;SRP Batcher在真机上失效 ​2&#xff09;Shader里面对同一张纹理多次采样会影响效率吗 3&#xff09;为什么纹理开启了mipmap后&#xff0c;纹理内存反而下降了 4&#xff09;TMP为什么有多次Delegate.Combine()的GC 这是第336篇UWA技术知识分享的推送&#xff0…

如何减少电脑内存占用?

内存(Memory)是计算机一个重要的组成部件&#xff0c;也称为内存储器或主存储器。它可以暂时存放CPU中运算的数据&#xff0c;以及与硬盘等外部存储器交换的数据&#xff0c;是CPU和硬盘之间的桥梁。若电脑内存占用过高&#xff0c;这会影响到电脑运行的速度&#xff0c;那该如…

网络安全行业推荐考取的证书有哪些?

下面就让知白小编来给解读一下这个问题~作为网络安全行业从业者或者相关专业的大学生&#xff0c;如果相应的职业证书在手&#xff0c;肯定是会身价倍增。 咳咳&#xff0c;但是如果你还是网络安全小白&#xff0c;知白小编不建议你直接去考认证&#xff0c;应该是先打好基础学…

三、LLC 谐振变换器

电压增益特性分析 根据搭建的 LLC 谐振变换器主电路等效模型&#xff0c;可推导出变换器直流电压 增益为 M&#xff1a; λ 4时的增益曲线如下图所示&#xff1a; 根据变换器直流电压增益表达式&#xff0c;利用 Mathematica 绘制出λ4 时&#xff0c;变换器取不同 Q 值的直…

创建型设计模式01-简单工厂模式

✨作者&#xff1a;猫十二懿 ❤️‍&#x1f525;账号&#xff1a;CSDN 、掘金 、个人博客 、Github &#x1f389;公众号&#xff1a;猫十二懿 这里只是简单的将《大话设计模式【Java溢彩加强版】》的内容简单是复述一下&#xff0c;并加上自己的理解 简单工厂模式 1、引入问…

windows环境下sublime的nodejs插件详细安装图解

前面的话 搜索了好多文档后&#xff0c;才成功地安装了sublime text3的nodejs插件。为了存档&#xff0c;也为了方便有同样需求的朋友&#xff0c;将其安装过程详细记录如下 安装nodejs 虽然nodejs官网提供了node的msi文件&#xff0c;但本人在win7系统下多次尝试&#xff0c;…

在阿里干了6年自动化测试,30岁即将退休的我,告诉你自动化测试工程师有多吃香...

测试人员需要具备自动化测试或者测试开发能力&#xff0c;已经成为测试行业内容的一种显在趋势&#xff0c;而且这种趋势呈放大态势&#xff0c;其发展前景是十分明朗的。 2022这种疫情期间&#xff0c;就业大环境不是很理想&#xff0c;目前呢&#xff0c;企业倾向于招自动化…

Win11下Microsoft Store安装Ubuntu报错解决指南

目录 从Microsoft Store下载Ubuntu下载安装完毕后&#xff0c;打开安装时报错&#xff1a; 一. WslRegisterDistribution failed with error: 0x8007019e 二. WslRegisterDistribution failed with error: 0x800701bc 如果帮到你的话&#xff0c;麻烦点个免费的关注吧bro♥…

测试开发工程师的薪资上限究竟在哪?年薪50W都不是梦...

在说测试开发工程师的薪资待遇之前&#xff0c;咱们要先了解软件测试岗位是用来做什么的&#xff0c;岗位是否重要&#xff0c;只有你知道了这些&#xff0c;才能判断这个岗位是否有价值&#xff01;软件测试是依据需求分析和测试用例&#xff0c;运用手工和自动化的手段来验证…

市场需求升级,cv5200带来新的WiFi传输解决方案,远距离无线通信技术

近年来&#xff0c;随着无线通信技术的不断发展&#xff0c;越来越多的应用需要高速率、远距离、稳定的数据传输。 远距离WiFi传输是指通过WiFi信号实现在远距离范围内的无线通信和数据传输。 为此&#xff0c;cv5200采用了先进的技术&#xff0c;并提供了较远的传输距离、高…

高速高密PCB高级验证技巧(四): 扫除信号线的意外回音

现今电子产品复杂度越趋增加&#xff0c;信号速度越来越快&#xff0c;在信号传输的过程中&#xff0c;如果信号不断反射便会对电子产品的运作造成影响&#xff0c;而这又与阻抗连续性以及阻抗匹配息息相关&#xff1b;而如何避免信号反射&#xff0c;除了在硬件设计时的规划外…

我用过的这5款小工具,你用了其中几款?

有时候一些小工具&#xff0c;能给你带来一些意想不到的效果&#xff0c;我们来看看下面这5款工具&#xff0c;你又用过其中几款呢&#xff1f; 1.文件差异比较工具——WinMerge WinMerge是一款文件和文件夹比较工具,它可以查看文件和文件夹之间的差异,并进行合并。这个工具有…

uCOSii任务管理

uCOSii任务管理 主要用来测试uCOSii“创建任务,挂起任务,恢复任务,发送删除任务请求,删除任务”。 在os_cfg.h中 #define OS_LOWEST_PRIO 63u //设置最低优先级为63,则空闲任务优先级OS_TASK_IDLE_PRIO就等于63 //OS_PRIO_SELF为255,因此OS_LOWEST_PRIO<255 注意&a…

目标检测数据预处理——非宫格与宫格混合拼图(大宽高比图片)

之前一直用的是宫格的正方形拼图&#xff0c;但比如对“人”框的截图是这种高宽高比的长方形图片&#xff0c;按照最大边resize最小边等比例缩放后放入宫格中对造成最小边resize太多&#xff0c;整体图片缩小很多。所以本片专门针对高宽高比的图片拼图进行编辑。 本篇的拼图方式…

一些好用的软件推荐给你

软件一&#xff1a;nTrun nTrun 是一款非常实用的快速启动工具&#xff0c;它可以帮助用户快速启动各种常用的应用程序、网站和文件。此外&#xff0c;nTrun 还具有以下强大的功能&#xff1a; 自定义快捷键&#xff1a;用户可以根据自己的需求为每个应用程序、网站或文件设置…

Mysql链接工具

众所周知为了可以更好的操作 Mysql 数据库&#xff0c;我们都会采用远程连接工具的方式连接 Mysql 数据库&#xff0c;使用远程连接工具连接的好处在于&#xff1a; 方便远程访问&#xff1a;如果你需要在外部网络环境中访问 MySQL 数据库&#xff0c;使用远程连接工具可以方便…

《人生十二法则》- 解决人生80%不如意

法则一获胜的龙虾从不低头&#xff1a;笔直站 立&#xff0c;昂首挺胸。 法则二像照顾生病的宠物一样关心自 己&#xff1a;待己如助人。 法则三放弃损友&#xff1a;与真心希望你好的人 做朋友。 法则四战胜内心的批评家&#xff1a;和昨天的自 己比&#xff0c;别和今天的…

微软官方Microsoft Remote Desktop for Mac

microsoft-remote-desktop-for-mac 时候还是需要用到windows系统上的数据或者软件&#xff0c;除了使用第三方开发商的远程桌面工具外&#xff0c;微软公司也提供了Mac版&#xff08;iMac和MacBook&#xff09;的远程桌面软件&#xff08;Microsoft Remote Desktop&#xff09…