Hadoop3教程(十二):MapReduce中Shuffle机制的概述

news2024/11/29 8:48:42

文章目录

  • (95) Shuffle机制
    • 什么是shuffle?
    • Map阶段
    • Reduce阶段
  • 参考文献

(95) Shuffle机制

面试的重点

什么是shuffle?

Map方法之后,Reduce方法之前的这段数据处理过程,就叫做shuffle,中文直译"洗牌"。

参考上一小节的MR工作流程,整个shuffle的工作流程如下图,可以理解成shuffle横跨map和reduce阶段:

在这里插入图片描述

Map阶段

1) Map()处理之后的数据,会被传输进环形缓冲区,而在这个过程中,数据会被打上一个"分区",之后会讲这个分区是怎么来的。打好分区后,数据会被正式写入环形缓冲区。

2) 环形缓冲区的机制在上一小节里有介绍,看那个就行。需要注意,它在溢写到磁盘之前,需要对数据进行排序,即针对KEY值的索引,按照字典顺序进行快排。

每次溢写后会形成两个文件,一个是保存索引用的spill.index,一个是保存数据用的spill.out。这个过程中有一个可选环节,即combiner,即简单聚合,如果开启这个环节的话,会对本次溢写的文件做一些简单的预聚合,如将<a,1>, <a,1>合并成<a,2>,从而在一定程度上减轻reduce阶段的输入量。

3) 溢写会进行很多轮,即生成很多个.out文件。 当输入数据全部溢写完成后,会以分区为单位,对所有溢写结果做归并排序,并最终整合成一个大文件。相当于是在该MapTask下,最终只保留一个文件,且这个文件内部是按照分区由低到高排列,分区内部有序。

4) 归并排序后,仍然是一个可选的combiner环节,对文件内数据做再次的预聚合。

5) combiner之后,会对各分区的数据文件做压缩。从归并排序到压缩,这部分工作都是在内存中完成的,最后会将压缩后的数据写入磁盘。

为什么要进行压缩呢?

这是一个优化的手段,因为最终的输出是要传到Reduce里的,待传输的文件越小,输出的时间就越短,相比就更加高效。这个后面具体会讲

6) 最后,会将压缩后的文件放进磁盘中,等待Reduce来主动拉取。

Reduce阶段

在Reduce阶段

1) 每个ReduceTask会主动拉取Map阶段的处理结果(指定分区),优先读取到内存,因为内存里面直接处理会更快,但是如果内存不够那就没办法了,只能溢写到磁盘,后续一点点处理了。

2) 然后对从每个MapTask收上来的数据,做归并排序。

3) 归并排序完之后,再根据相同的key进行分组,分组之后的数据类似于如<key, [v1, v2, v3,...]>

4) 最终,把分组后的数据送进Reduce(),做相应的业务逻辑处理,并输出。

以上流程,就是一个完整的shuffle流程。

参考文献

  1. 【尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1096167.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为ICT——云计算基础知识、计算类技术听课笔记

ICT(information and communications technology):信息与通信技术 传统IT架构缺点 TCO&#xff1a;总体拥有成本 云计算模式 云计算价值 云计算通用点 虚拟化技术&#xff1a;将单台物理服务器虚拟为多台虚拟机使用&#xff0c;多台虚拟机共享物理服务器硬件资源。 虚拟化本质…

使用PM2部署spring-boot项目

一、打包应用 1、先清理之前的 2、修改pom.xml文件关于项目名称版本及jdk版本 3、在idea中直接打包项目 4、等打包完成后会在target文件夹下有一个xx.jar的文件,拷贝出来放到一个文件夹下&#xff0c;或者服务器指定目录下 二、使用pm2部署.jar文件 1、pm2的安装,参考地…

Linux性能优化--性能工具:特定进程CPU

4.0 概述 在用系统级性能工具找出是哪个进程降低了系统速度之后&#xff0c;你需要用特定进程性能工具来发现这个进程的行为。对此&#xff0c;Linux提供了丰富的工具用于追踪一个进程和应用程序性能的重要统计信息。 阅读本章后&#xff0c;你将能够&#xff1a; 确定应用程…

nodejs+vue水浒鉴赏平台系统

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;…

unity脚本的生命周期

方法名称调用时间Awake最早调用&#xff0c;所以一般可以在此实现单例模式OnEnable组件激活后调用&#xff0c;在Awake后会调用一次Start在Update之前调用一次&#xff0c;在OnEnable之后调用&#xff0c;可以在此设置一些初始值FixedUpdate固定频率调用方法&#xff0c;每次调…

多模态大模型NextGPT整体结构图、模型示意图和使用模型时示意图

NextGPT模型整体结构 项目地址 论文地址 模型示意图 使用模型时示意图

彩虹易支付 9.27 最新版加订单查询 sy 更新版

彩虹易支付 9.27 最新版加订单查询 sy 更新版 修复客服 2023/09/25&#xff1a; 1. 新增支付宝红包支付插件 2. 新增支付宝 APP 支付转 H5 支付 3. 更新了几个支付插件 安装教程&#xff1a; 环境&#xff1a;php7.2 上传后访问域名进行安装即可 源码下载&#xff1a;ht…

allegro中shape的一些基本操作(一)——添加和修改shape

添加shape 简单添加shape的方式有3种&#xff0c;如下图所示 点击选择相应的shape模式后可以在option面板中设置相应的shape参数&#xff08;这里不做过多介绍&#xff0c;里面可以设置shape的大小、静态或动态shape等参数&#xff09;&#xff0c;然后再用鼠标在相应的层上添…

2022最新版-李宏毅机器学习深度学习课程-P17 卷积神经网络CNN

一、CNN 用于图像分类 需要图片大小统一 彩色图像分为R G B 三层&#xff0c;展平后首尾相接 值代表着颜色的强度 图像识别中不需要全连接的&#xff0c;参数太多了 观测1&#xff1a;通过判断多个小局部图像就能判断出图片标签 感受野的定义 简化1 感受野可以重叠&#xff…

MyBatisPlus的学习项目页面

MyBatisPlus通过扫描实体类&#xff0c;并基于反射获取实体类信息作为数据库表信息 类名驼峰转下划线作为表名 名为id的字段作为主键 变量名驼峰转下划线作为表的字段名 常见注解 TableName&#xff1a;用来指定表名 Tableld&#xff1a;用来指定表中的主键字段信息 Tabl…

Linux:Mac VMware Fusion13以及CentOS7安装包

Linux&#xff1a;Mac VMware Fusion13以及CentOS7安装包 1. Mac VMware Fusion132. CentOS7安装包3. 安装 1. Mac VMware Fusion13 下载官网地址&#xff1a;https:www.vmware.com/products/fusion/fusion-evaluation.html 2. CentOS7安装包 注意是m芯片需要使用arm架构的i…

周记之学习总结

你在人群中看到的每一个耀眼的女孩&#xff0c;都是踩着刀尖过来的。你如履平地般地舒适坦然&#xff0c;当然不配拥有任何光芒&#xff1b; 10.11-10.12 思来想去还是不舍得&#xff0c;搞了一下这个jwt&#xff0c;看了很多视频和博客&#xff0c;一直没看懂&#xff0c;两…

使用VS Code终端窗口创建Python虚拟环境

在日常的Python开发中&#xff0c;管理项目的依赖关系是至关重要的。一个非常有用的工具是Python虚拟环境&#xff0c;它允许我们可以在同一计算机上隔离不同项目的依赖&#xff0c;以确保它们不会相互干扰。在本文中&#xff0c;我们将介绍如何在VS Code终端窗口中使用命令mkv…

Ubuntu:VS Code IDE安装ESP-IDF【保姆级】

物联网开发学习笔记——目录索引 参考&#xff1a; VS Code官网&#xff1a;Visual Studio Code - Code Editing. Redefined 乐鑫官网&#xff1a;ESP-IDF 编程指南 - ESP32 VSCode ESP-ID Extension Install 一、前提条件 Visual Studio Code IDE安装ESP-IDF扩展&…

随机误差理论与测量

文章目录 第1节 随机误差的性质和特点第2节 随机误差的数字特性标准差的估计 第3节 单次测量结果的精度指标第4节 多次测量结果的精度指标算数平均值的分布特性与标准差算数平均值的置信度算数平均值的精度指标&#xff08;常用的有4个) 第5节 非等精度测量 第1节 随机误差的性…

2022 年中职组“ 网络安全 ”赛项-web加固阶段题目

前言 大家好&#xff0c;本章节我将复现一次web加固阶段的操作&#xff0c;给大家看看该怎么操作和截图的具体事项&#xff0c;懂的大佬可以在评论区留言改进&#xff0c;感谢大家的支持&#xff01;接下来就跟随我的步伐一起来操作吧&#xff01; 阶段题目概览 环境搭建 底层…

现实很打脸,iPhone15仅卖3天就成中国第一,H败给苹果

H公司和苹果最近是挺热闹的&#xff0c;在互联网H公司的新手机热度远超苹果&#xff0c;然而从实际销售情况来看&#xff0c;消费者掏钱的时候还是选择了苹果而不是H&#xff0c;这就是消费者一向以来的嘴上说不要、行动却很实际。 据分析机构给出的数据指第38周&#xff0c;iP…

程序编码是 [科学] + [艺术]

来个新人, 问了一个他迷茫的问题。 我不好直抒, 就把感觉写下来当回复了吧! 程序编码是一种 科学 艺术 科学是指要 - 厘清算法, 建立架构, 设定基准: 事件驱动, 顺序架构逻辑? 时间间格基准, 中断层级决定? 决定好主轴了后, 构思 例外状况? 错误如何处理? 再推演逻辑合不…

GO-unioffice实现word编辑

导包 import ("fmt""log""os""time""github.com/unidoc/unioffice/common/license""github.com/unidoc/unioffice/document" ) 创建word文件 func CreateFile(name string) {filename : name ".docx&quo…

微积分 - 洛必达法则的四种类型

洛必达法则 考虑如下形式的极限&#xff1a; 。因为f和g都是可导函数&#xff0c;所以可在xa点对他们进行线性化有&#xff1a; 和 。现在&#xff0c;假设f(a)和g(a)都为0&#xff0c;这说明和。如果f(x)除以g(x),假设则有 这就是洛必达法则。 类型A : 洛必达法则对于和的…