MapReduce Partition 分区

MapReduce Partition 分区

news2026/2/7 22:54:28

MapReduce Partition 分区

MapReduce输出结果个数研究

在默认情况下
不管Map阶段有多少个并发执行的task，到Reduce阶段，所有结果都将有一个task来进行处理，并且最终结果将输出到一个文件中，part-r-0000。
可以进行手动的设置reduceTask的个数
JavaAPI中设置：

job.setNumReduceTasks(int number);

设置的个数为几，就会产生几个文件，默认情况下为1，可见输出结果文件的个数和reducetask的个数是一个对等的关系。
数据分区
当MapReduce中有多个reducetask执行时，此时MapTask的输出就面领着一个问题：
究竟将自己的输出数据交给哪一个reducetask来进行处理？这就是所谓的数据分区问题（partition）

Partition概念

默认情况下MapReduce是只有一个Reducetask进行数据的处理，这使得不管输出的数据量多大，最终的结果都是输出到一个文件中。
当改变ReduceTask的个数的时候，作为maptask就会涉及到分区的问题，即：MapTask输出的结果如何分配给各个ReduceTask来处理。

Partition默认规则

MapReduce默认分区规则是HashPartitioner
分区结果和Map输出的key相关：

Partition注意事项

ReduceTask个数的改变导致了数据分区的产生，而不是有数据分区导致了ReduceTask个数的改变
数据分区的核心是分区的规则，即如何分配数据各个ReduceTask
默认的规则可以保证只要Map阶段输出的key一样，数据就一定可以分取到一个ReduceTask，但是不能保证数据平均分区
ReduceTask个数的改变还会导致输出结果文件不再是一个整体，而是输出到多个文件中

MapReduce Combiner规约

数据归约的含义

数据规约是指在尽可能保持数据原貌的前提下，最大限度的精简数据量

MapReduce 弊端

MapReduce是一种具有两个执行阶段的分布式计算程序，Map阶段和Reduce阶段之间会涉及到跨网络数据传递。
每一个MapTask都可能产生大量的本地输出，这就导致跨网络传输数据量变大，网络IO性能低，比如WordCount单词统计案例，加入文件中又1000个单词，但是999个为hello，那么就会产生999个<hello,1>的键值对在网络中进行传输，使其性能低下

Combiner组件概念

Combiner中文：规约，是MapReduce的一种优化手段
Combiner的作用就是对Map端的输出先做一次局部合并，以减少Map和Reduce节点之间的数据传输量

Combiner组件的使用

Combiner是MapReduce程序中出了Mapper和Reducer之外的一种组件，默认情况下不启用
Combiner本质上就是Reducer，combiner和reducer的区别在于运行的位置：
Combiner是在每一个MapTask所在的节点本地运行，是局部聚合
Reducer是对所有的MapTask的输出结果计算，是全局聚合
具体实现步骤：
- 自定义一个CustomCombiner类，继承Reducer，重写Reducer方法
- job.setCombinerClass(CustomCombiner.class)

Combiner使用注意事项

Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟Reduce的输出KV类型对应起来
以下业务禁止使用Combiner，因为这样不仅优化了网络传输数据量，还改变了最终的执行结果：
- 业务和数据个数相关的
- 业务和整体排序相关的
Combiner组件不是禁用，而是慎用，用的好可以提高程序性能，用的不好，改变程序结果且不易被发现

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/42449.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

微信小程序图书商城毕业设计,图书商城购物小程序系统设计与实现,图书商城购物小程序商城毕设作品参考

微信小程序图书商城毕业设计,图书商城购物小程序系统设计与实现,图书商城购物小程序商城毕设作品参考

功能清单【后台管理员功能】会员列表：查看所有注册会员信息，支持删除录入资讯：录入资讯标题、内容等信息管理资讯：查看已录入资讯列表，支持删除和修改广告设置：上传图片和设置小程序首页轮播图广告地…

阅读更多...

相机拍照不清晰怎么回事？不清晰地照片还能修复高清吗？

相机拍照不清晰怎么回事？不清晰地照片还能修复高清吗？

现在有很多的人都非常的喜欢拍照，主要就是因为喜欢记录，抓住我们身边的美，但是拍照的话就要使用相机，那么像相机电子产品我们在平常的时候是使用不到的，只有在有需求的时候可以使用的，而且也是有需求的人才…

阅读更多...

Spring Security（6）

Spring Security（6）

您好，我是湘王，这是我的CSDN博客，欢迎您来，欢迎您再来～ Spring Security使用MySQL保存cookie记录虽然方便，但是目前更多的主流互联网应用都是用NoSQL来保存非业务数据的，Spring Security也应该可…

阅读更多...

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查

案例分享|生产环境MQ集群一个非常诡异的消费延迟排查

1、问题现象某一天，项目组一个同事向我反馈，他们使用公司的数据同步产品将MySQL数据同步到MQ集群，然后使用消费者将数据再同步到ES，反馈数据同步延迟严重，但对应的消费组确没有积压，但最近最近几分钟的数…

阅读更多...

LinkedIn领英开发客户方法大全（篇二）

LinkedIn领英开发客户方法大全（篇二）

profile完善步骤详细说明详细步骤： 如下图箭头所示步骤，点击“view my profile”： 进入你的档案资料界面： 1）点击红色圆圈所示处，即进入Edit intro界面: 即编辑个人简介，包括： …

阅读更多...

企业如何通过推特群推创造商机

企业如何通过推特群推创造商机

尤其是小企业要足够重视Twitter在营销推广上的重要性。因此，你有必要精心设计Twitter主页，并付诸投入和努力，这样就会看到消费者数量的增长，以及品牌忠诚度的提升。无疑，在Twitter上，很多企业可以发现商机&…

阅读更多...

HTML基础-表单标签,button按钮，select下拉菜单

HTML基础-表单标签,button按钮，select下拉菜单

HTML基础-表单标签目标和学习路径 1.表单标签 1.1 input系列标签的基本介绍 1.2 input系列标签-文本框 (拓展)value属性和name属性作用介 1.3 input系列标签-密码框 1.4 input系列标签-单选框 1.5 input系列标签-复选框 1.6 input系列标签-文件选择 2.button按钮标签 1.7 inpu…

阅读更多...

JVS无忧·企业计划2.1.6更新说明

JVS无忧·企业计划2.1.6更新说明

无忧企业计划是JVS企业数字化全家桶中重要组成部分，主要用于项目管理、任务管理、进度跟踪、过程管理等场景。任务管理是企业内部事务协同的重要工具，与传统的OA有类似之处，同样是推动企业内部事务有效快速的执行，但之前存在不同…

阅读更多...

直流无刷电机（BLDC）转速闭环调速系统及Matlab/Simulink仿真分析（二）

直流无刷电机（BLDC）转速闭环调速系统及Matlab/Simulink仿真分析（二）

文章目录前言一、转速闭环直流调速系统二、Matlab/Simulink仿真2.1.仿真电路分析2.2.仿真结果分析总结前言变压调速是直流调速系统的主要调速方法，因此系统的硬件至少包含：可调直流电源和直流电机两部分。可调直流电源多采用直流PWM变换器，…

阅读更多...

CMMI2.0之我见-过程质量保证PQA

编者按： CMMI2.0之我见系列将通过系列文章形式介绍CMMI2.0所涉及到的其中20个实践域，笔者将通过系统性的梳理、浅显易懂的文字描述，同时结合笔者的思考和观点，对每个实践域的目标以及所基本涵盖的内容进行描述，希望能…

阅读更多...

CSS 的快乐：画一个可爱的三只小鸟 Button

CSS 的快乐：画一个可爱的三只小鸟 Button

做为前端工程师，最大的快乐之一就是可以用 CSS 画出各种有趣的效果。比如我最近画的一个 Button： 画的过程中确实很开心，这也是我当时选择做前端的很大一部分原因。今天我们就一起来画下这个可爱的 Button 吧！纯 CSS&#xff…

阅读更多...

Kamiya丨Kamiya艾美捷小鼠血清淀粉样蛋白A ELISA说明书

Kamiya丨Kamiya艾美捷小鼠血清淀粉样蛋白A ELISA说明书

Kamiya艾美捷小鼠血清淀粉样蛋白A ELISA预期用途： 小鼠血清淀粉样蛋白A ELISA是一种高灵敏度的双位点酶联免疫分析（ELISA）小鼠生物样品中血清淀粉样蛋白A（SAA）的定量测定。仅供研究使用。引言铜蓝蛋白是参与铜转运…

阅读更多...

Go学习之路：更多类型：struct、slice 和映射（DAY 2）

Go学习之路：更多类型：struct、slice 和映射（DAY 2）

文章目录前引更多类型：struct、slice 和映射1、指针2.1、结构体/结构体命名（一）2.2、结构体/对象访问、指针访问、初始化规则（二）3、数组4.1、切片/初始化切片4.2、切片/切片引用数组4.3、切片/切片的length和capacity…

阅读更多...

React Context源码是怎么实现的呢

React Context源码是怎么实现的呢

目前来看 Context 是一个非常强大但是很多时候不会直接使用的 api。大多数项目不会直接使用 createContext 然后向下面传递数据，而是采用第三方库（react-redux）。想想项目中是不是经常会用到 connect(...)(Comp) 以及 <Provider value{s…

阅读更多...

非互联网客户收入近6成，阿里云进入新周期

非互联网客户收入近6成，阿里云进入新周期

近日，阿里巴巴发布了截至2022年9月30日止季度（2023财年第二季度，阿里财年从每年4月1日至第二年3月31日）业绩。在除去阿里内部使用的额度，抵销跨分部交易后，阿里云业务分部（包括阿里云和钉钉&am…

阅读更多...

【web前端期末大作业】基于html+css+javascript+jquery技术设计的音乐网站(44页)

【web前端期末大作业】基于html+css+javascript+jquery技术设计的音乐网站(44页)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业： 【📚毕设项目精品实战案例 (10…

阅读更多...

【华为上机真题 2022】字符串加密

【华为上机真题 2022】字符串加密

🎈 作者：Linux猿 🎈 简介：CSDN博客专家🏆，华为云享专家🏆，Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我，关注我，有问题私聊！ &…

阅读更多...

【Linux】基本指令(三)

【Linux】基本指令(三)

文章目录sort 指令find 指令which 指令alias 指令grep 指令top 指令zip/unzip指令tar 指令bc 指令unname 指令history 指令shutdown 指令热键补充sort 指令 💕 Linux sort 命令用于将文本文件内容加以排序并且可针对文本文件的内容，以行为单位来排序。 …

阅读更多...

03 探究Kubernetes工作机制的奥秘

03 探究Kubernetes工作机制的奥秘

自动化的运维管理：探究Kubernetes工作机制的奥秘文章目录1. 云计算时代的操作系统2. kubernets 的基本架构3.节点内部的结构3.1 master 节点3.2 node 节点4. Kubernetes 的大致工作流程5.插件有哪些？5.1 重要的插件6. kubernetes 架构思维导图7. 思考的…

阅读更多...

制作一个简单HTML校园网页（HTML+CSS）学校网站制作校园网站设计与实现

制作一个简单HTML校园网页（HTML+CSS）学校网站制作校园网站设计与实现

🎉精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业…

阅读更多...

推荐文章

最新文章