16.hadoop系列之MapReduce之MapTask与ReduceTask及Shuffle工作机制

16.hadoop系列之MapReduce之MapTask与ReduceTask及Shuffle工作机制

news2026/2/11 4:36:35

1.MapTask工作机制

以上内容我们之前文章或多或少介绍过，就已网络上比较流行的该图进行理解学习吧
MapTask分为五大阶段

Read阶段
Map阶段
Collect阶段
溢写阶段
Merge阶段

2.ReduceTask工作机制

ReduceTask分为三大阶段

Copy阶段
Sort阶段
Reduce阶段

3.ReduceTask并行度决定机制

MapTask并行度由切片个数决定，切片个数由输入文件和切片规则决定，ReduceTask与MapTask的并发数决定不同，可以直接设置

 job.setNumReduceTasks(4);

4.ReduceTask注意事项

ReduceTask=0,表示没有Reduce阶段，输出文件数与Map阶段输出个数一致
ReduceTask默认值1，所以输出文件是一个
如果数据分布不均匀，就有可能Reduce阶段产生数据倾斜
ReduceTask数量并不是任意设置，要考虑业务需求，当需要计算全局汇总结果，就只能有1个ReduceTask
具体多少个ReduceTask,需要根据集群性能而定
如果分区数不是1，但是ReduceTask为1，不会执行分区过程，在MapTask源码中，分区前提是先判断ReduceNum个数是否大于1，不大于1肯定不执行分区

5.Shuffle机制

Map方法之后，Reduce方法之前的数据处理过程称为Shuffle

欢迎关注公众号算法小生与我沟通交流

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/359664.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

eBPF双子座：天使or恶魔？

eBPF双子座：天使or恶魔？

启示录新约圣经启示录认为：恶魔其实本身是天使，但炽天使长路西法背叛了天堂，翅膀变成了黑色，坠落地狱，堕落成为恶魔。这些恶魔主宰著黑暗势力，阻碍人类与上帝沟通，无所不用其极。所以可以说天…

阅读更多...

box-shadow详解

box-shadow详解

box-shadow详解属性定义及使用说明 box-shadow属性可以设置一个或多个下拉阴影的框。语法 box-shadow: h-shadow v-shadow blur spread color inset;注意：boxShadow 属性把一个或多个下拉阴影添加到框上。该属性是一个用逗号分隔阴影的列表，每个阴…

阅读更多...

使用多种算法对sin函数进行拟合-学习记录

使用多种算法对sin函数进行拟合-学习记录

1.使用linear层拟合原代码链接在这里，效果如下： 2.使用LSTM预测原代码链接在这里，效果如下： 3.使用GAN拟合忘记代码哪里找的了，不过效果很差。 4.使用LSTM-GAN 这个代码在GitHub上找的，然后改了改&…

阅读更多...

3、内存管理

3、内存管理

文章目录1、内存的基础知识1.1、什么是内存？1.2、进程的运行原理--指令1.3、逻辑地址 & 物理地址1.4、从写程序到程序运行1.5、装入模块到运行1.6、装入的三种方式--绝对装入1.7、装入的三种方式--静态重定位1.8、装入的三种方式--动态重定位（重定位…

阅读更多...

移动WEB开发四、rem布局

移动WEB开发四、rem布局

零、文章目录文章地址个人博客-CSDN地址：https://blog.csdn.net/liyou123456789个人博客-GiteePages：https://bluecusliyou.gitee.io/techlearn 代码仓库地址 Gitee：https://gitee.com/bluecusliyou/TechLearnGithub：https:…

阅读更多...

树的概念及结构

树的概念及结构

前言什们是树？树是一种非线性的数据结构，它是由n（n>0）个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。树 (1)树的特点有一个特殊的…

阅读更多...

Blazor入门100天 : 身份验证和授权 (3) - DB改Sqlite

Blazor入门100天 : 身份验证和授权 (3) - DB改Sqlite

目录建立默认带身份验证 Blazor 程序角色/组件/特性/过程逻辑DB 改 Sqlite将自定义字段添加到用户表脚手架拉取IDS文件,本地化资源freesql 生成实体类,freesql 管理ids数据表初始化 Roles,freesql 外键 > 导航属性完善 freesql 和 bb 特性本节源码 https://github.com/…

阅读更多...

采用aar方式将react-native集成到已有安卓APP

采用aar方式将react-native集成到已有安卓APP

关于react-native和android的开发环境搭建、环境变量配置等可以查看官方文档。官方文档地址文章中涉及的node、react等版本： node:v16.18.1 react:^18.1.0 react-native:^0.70.6 gradle:gradle-7.2开发工具：VSCode和android studio 关于react-native和…

阅读更多...

即拼商城系统之七人拼团会员模式

即拼商城系统之七人拼团会员模式

即拼商城系统之七人拼团会员模式，在商城选购399商品可加入会员体系，参加7人拼团盈利。购买产品或礼包成为团长，铺满剩余6个位置拼团成功。满团后即可用赚来的钱去复购礼包再次开团，继续盈利。 ◇◆商城系统团长获得礼包提成&#…

阅读更多...

【matplotlib】可视化解决方案——如何向图表中添加数据表

【matplotlib】可视化解决方案——如何向图表中添加数据表

概述虽然 matplotlib 主要用途是绘图，但是他还是可以在绘图时帮助我们做一些其他事务，比如在图表旁边放置一个整齐的数据表格。我们必须明白为数据绘制可视化图形主主要是是为了解释那些不能理解的数据。将一些来自数据整体集合的总结性或者突出强调的…

阅读更多...

大地量子全面使用亚马逊云科技提供的多样化云服务

大地量子全面使用亚马逊云科技提供的多样化云服务

近年来，我国光伏和风电并网装机容量持续增长，截至2021年底，全国可再生能源装机规模突破10亿千瓦，占总发电装机容量的44.8%。其中，风电装机3.28亿千瓦、光伏发电装机3.06亿千瓦。风光电总装机和新增装机规模多年来位居全…

阅读更多...

PCB设计中降低噪声与电磁干扰的24个窍门

PCB设计中降低噪声与电磁干扰的24个窍门

电子设备的灵敏度越来越高，这要求设备的抗干扰能力也越来越强，因此PCB设计也变得更加困难，如何提高PCB的抗干扰能力成为众多工程师们关注的重点问题之一。本文将介绍PCB设计中降低噪声与电磁干扰的一些小窍门。下面是经过多年设计总结出来的…

阅读更多...

MyBaits

MyBaits

MyBaitsMyBaits的jar包介绍MyBaits的入门案例创建实体java日志处理框架常用的日志处理框架Log4j的日志级别Mybatis配置的完善Mybatis的日志管理使用别名alias方式一方式二SqlSession对象下的常用API查询操作Mapper动态代理Mapper 动态代理规范查询所有用户根据用户ID查询用户Ma…

阅读更多...

MMPBSA计算--基于李继存老师gmx_mmpbsa脚本

MMPBSA计算--基于李继存老师gmx_mmpbsa脚本

MMPBSA计算–基于李继存老师gmx_mmpbsa脚本前期准备软件安装安装gromacs, 可以查阅我的blogGromacs-2022 GPU-CUDA加速版 unbantu 安装 apbs, sudo apt install apbs 安装 gawk, sudo apt install gawk MD模拟好的文件我们以研究蛋白小分子动态相互作用-III(蛋白配体…

阅读更多...

钓鱼网站+bypassuac提权

钓鱼网站+bypassuac提权

本实验实现1 ：要生成一个钓鱼网址链接，诱导用户点击，实验过程是让win7去点击这个钓鱼网站链接，则会自动打开一个文件共享服务器的文件夹，在这个文件夹里面会有两个文件，当用户分别点击执行后，则…

阅读更多...

【面试题】vue中的插槽是什么？

【面试题】vue中的插槽是什么？

大厂面试题分享面试题库后端面试题库 （面试必备） 推荐：★★★★★地址：前端面试题库一、slot是什么在HTML中 slot 元素 ，作为 Web Components 技术套件的一部分，是Web组件内的一个占位符该占位符可以在后期…

阅读更多...

Docker----------day3

Docker----------day3

常规安装大体步骤 1.安装tomcat 1.查找tomcat docker search tomcat2.拉取tomcat docker pull tomcat3.docker images查看是否有拉取到的tomcat 4.使用tomcat镜像创建容器实例(也叫运行镜像) docker run -it -p 8080:8080 tomcat5.新版tomcat把webapps.dist目录换成webapp…

阅读更多...

100种思维模型之九屏幕分析思维模型-016

100种思维模型之九屏幕分析思维模型-016

一、认识九屏幕分析思维模型 1.九屏幕分析思维模型定义九屏幕法是TRIZ理论中的创新思维方法五大方法之一。它是把问题当成一个系统来研究， 关注系统的整体性、层级性、目的性，即各要素之间的结构。九屏幕法是按照时间和系统层次两个维度进行思考。包…

阅读更多...

MAC中docker搭建fastdfs

MAC中docker搭建fastdfs

1:首先搭建Docker2:通过Docker搭建fastdfs（1）查找镜像打开终端通命令查找fastdfs的镜像docker search fastdfs（二）拉取镜像在找到合适的镜像后执行命令:docker pull delron/fastdfs（三） 创建storage和track…

阅读更多...

软件设计（十四）-UML建模(上)

软件设计（十四）-UML建模(上)

软件设计（十三）-原码、反码、补码、移码https://blog.csdn.net/ke1ying/article/details/129115844?spm1001.2014.3001.5501 UML建模包含：用例图，类图与对象图，顺序图，活动图，状态图&#xff…

阅读更多...

推荐文章

最新文章