Hadoop学习日记-MapReduce思想及执行流程

news2025/1/12 3:53:24

MapReduce思想

Map负责“拆分”:即将复杂问题拆分成可以并行计算的小问题,彼此之间几乎没有依赖联系。

Reduce负责对Map阶段的结果进行合并汇总

Map和Reduce的抽象接口如下:

map:(k1; v1) — (k2; v2)

reduce:(k2; [v2]) — (k3; v3)

一个完整的MapReduce程序在分布式运行时有三类

  1. MRAppMaster: 负责整个MR程序的过程调度以及状态协调
  2. MapTask: 负责map阶段的整个数据处理流程
  3. ReduceTask:负责reduce阶段的整个数据处理流程

WordCount编程实现思路

map阶段的核心:把输入的数据经过切割,全部标记为1

shuffle阶段核心:经过MR程序内部自带默认的排序分组功能,把key相同的单词作为一组数据构成新的kv对
在这里插入图片描述

Map阶段执行流程

MapReduce整体执行流程

  1. 切片(默认大小与文件块大小相同)
  2. 按行读取数据,返回<key, value>对
  3. map方法处理数据
  4. 根据reducetask数量对输出的键值进行分区partition
  5. 将输出数据写入内存缓冲区,达到比例则溢出spill到磁盘上,溢出的时候根据key值进行排序
  6. 对溢出文件进行最终的merge合并

Reduce阶段执行流程

  1. ReduceTask主动从MapTask复制拉取属于自己处理的数据
  2. 将获取的数据全部进行合并merge,即将分散的数据合并对合并的数据进行排序
  3. 对排序后的键值对调用reduce方法,键相等的键值对调用reduce方法,最后把这些键值对写入到HDFS文件中

shuffle概念

从Map产生输出开始到Reduce得到数据作为输入之前的过程称为shuffle

分为两个阶段:Map端的shuffle、Reduce端的shuffle

Map端的shuffle

Collect阶段:将MapTask结果收集到默认大小为100M的环形缓冲区,保存之前会对key进行分区的计算,默认hash分区

Spill阶段:当内存的数据量达到一定阈值时,会将数据写入本地磁盘,写入前对数据进行一次排序操作

Merge阶段:把所有溢出的临时文件进行合并操作,确保MapTask最终只产生一个中间数据文件

Reduce端的shuffle

Copy阶段:ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据

Merge阶段:在ReduceTask远程复制数据的同时,会在后台开启两个线程对内存本地的数据文件进行合并操作

Sort阶段:在对数据进行合并的同时,会进行排序操作,由于MapTask阶段已经进行局部的排序操作,所以ReduceTask阶段只需保证Copy数据的最终整体有效性

shuffle的弊端

涉及到数据在内存、磁盘间的多次往复

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/791214.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

行为型模式 - 解释器模式

概述 如上图&#xff0c;设计一个软件用来进行加减计算。我们第一想法就是使用工具类&#xff0c;提供对应的加法和减法的工具方法。 //用于两个整数相加 public static int add(int a,int b){return a b; }//用于两个整数相加 public static int add(int a,int b,int c){r…

玩转代码|JS实现中文字符串对utf-8的Base64编码的方法

目录 UTF-8 字符串编解码 解决方法 解析 utf8_to_b64 b64_to_utf8 弃用 unescape 和 escape 方法 原由 解决方法 Node.js 下的 Base64 编解码 Base64 编解码 Base64是一种使用64基的位置计数法。它使用2的最大次方来代表仅可打印的ASCII 字符。这使它可用来作为电子邮…

YOLOv2论文对比总结

1、高分辨率图片效果提升 2、Anchor 3、Loss函数 4、小目标友好

【文献分享】比目前最先进的模型轻30%!高效多机器人SLAM蒸馏描述符!

论文题目&#xff1a;Descriptor Distillation for Efficient Multi-Robot SLAM 中文题目&#xff1a;高效多机器人SLAM蒸馏描述符 作者&#xff1a;Xiyue Guo, Junjie Hu, Hujun Bao and Guofeng Zhang 作者机构&#xff1a;浙江大学CAD&CG国家重点实验室 香港中文大学…

Windows安装Redis(配置开机自启+配置密码)

Windows安装Redis 背景安装配置开机自启补充: 在Windows中配置jar自启动 设置密码暂时永久(推荐) 背景 Redis以其优异的性能备受青睐. 成为开发人员离不开的软件一直, 相信愿意点开观看此文的人DDDD 最近因为需要在Windows服务器上面搭建各种项目运行环境, 其中就包括Redis 因…

vue 实现课程表甘特图

1 封装 components <template><view style"padding-bottom: 100rpx;"><view class"header flex_sb"><div class"header_list flex" v-for"(item,index) in timeList" :key"item.value"><div&g…

CORS跨域资源共享漏洞

前置知识 跨域 域&#xff08;Domain&#xff09;是由三部分组成的标识&#xff1a;协议、域名和端口。 例如这两个ip就属于不同的域&#xff1a; http://example.com https://example.com 因为它们的协议不同&#xff08;一个是HTTP&#xff0c;另一个是HTTPS&#xff0…

2023百强县名单出炉!千亿县达54个

作为国民经济发展中的基本单元&#xff0c;县域经济发挥着重要作用。 赛迪顾问25日发布的《2023中国县域经济百强研究》&#xff08;下称“报告”&#xff09;显示&#xff0c;千亿县达54个&#xff0c;百强县前10名中江苏省独占6席。 在百强县前10名中&#xff0c;江苏省占席最…

Esp32_Arduino接入腾讯云笔记

ESP32是一款由乐鑫科技&#xff08;Espressif Systems&#xff09;推出的双核、低功耗、集成Wi-Fi和蓝牙的单芯片微控制器。它采用了Tensilica Xtensa LX6高性能处理器&#xff0c;具有大量的GPIO引脚、模数转换器、SPI、I2S、UART、PWM、I2C和SD卡接口等功能&#xff0c;可以满…

android 清除缓存方法

获得应用的存储信息 private void getAppStorageInfo(String packageName){StorageStatsManager storageStatsManager (StorageStatsManager) context.getSystemService(Context.STORAGE_STATS_SERVICE);StorageManager storageManager (StorageManager) context.getSystemS…

第二十一章 数据处理篇:imgaug

参考教程&#xff1a; https://imgaug.readthedocs.io/en/latest/source/jupyter_notebooks.html 文章目录 概述针对图片的增强基础使用样例base class: augment增强的组合sequentialsomeof和oneofsometimes 增强的种类 针对关键点的增强针对包围框的增强 概述 imgaug是一个使…

【深度学习】GPT-3

2020年5月&#xff0c;OpenAI在长达72页的论文《https://arxiv.org/pdf/2005.14165Language Models are Few-Shot Learners》中发布了GPT-3&#xff0c;共有1750亿参数量&#xff0c;需要700G的硬盘存储&#xff0c;(GPT-2有15亿个参数)&#xff0c;它比GPT-2有了极大的改进。根…

PX4常见解锁失败报错及解决方法

文章目录 一、Kill switch engagen二、电源检查CBRK_SUPPLY_CHK三、USB连接检查CBRK_USB_CHK四、安全开关检查CBRK_IO_SAFETY五、high Accelerometer bios六、high gyro bios七、compasss inconsistent八、GPS报错九、Accels inconsistent十、偏航角一直漂移十一、PREFLIGHT FA…

同步编程和异步编程的区别

我在这里用几个例子&#xff08;附带图文&#xff09;给你们讲解一下&#xff0c;具体区别。 第一个例子 一、同步 执行步骤&#xff1a; step1 》 step2 》step3 先打印 hello moon&#xff0c; 再打印图片&#xff0c; 等待图片打印完&#xff0c;再打印 hello Jupiter …

全国青少年信息素养大赛Scratch图形化编程_初赛_模拟一卷

全国青少年电子信息智能创新大赛Scratch图形化编程_初赛_模拟一卷 一、选择题 第 1 题 单选题 能让角色在整个舞台范围内的任意位置出现的程序是&#xff1f;&#xff08; &#xff09; A. B. C. D. 第 2 题 单选题 猫抓老鼠游戏的封面上有“开始”按钮和“游戏规则”两…

实战:Docker+Jenkins+Gitee构建CICD流水线

文章目录 前言Jenkins部署创建Jenkins docker-compose配置maven源启动Jenkins容器安装插件Gitee ssh公匙配置与测试项目提交 Jenkins创建流水线写在最后 前言 持续集成和持续交付一直是当下流行的开发运维方式&#xff0c;CICD省去了大量的运维时间&#xff0c;也能够提高开发…

Windows环境部署安装Chatglm2-6B-int4

chatglm2-6B是最近比较火爆的大模型&#xff0c;可以在消费级显卡上部署使用&#xff0c;适合学习。但是一般人也不一定有那么高的硬件配置&#xff0c;所以部署个int4版本应该是大多数人的最好选择。我就在家里部署起了int4版本的chatglm2-6B&#xff0c;记录一下免得忘了。 …

Docker资源限制

Docker资源限制 一、cpu资源控制1、 设置cpu使用率上限2、设置cpu资源占用比&#xff08;设置多个容器时才有效&#xff09;3、设置容器绑定指定的CPU 三、内存资源控制四、磁盘IO配额控制1、限制Block IO2、限制bps和iops进行限制 一、cpu资源控制 cgroups是一个非常强大的li…

VMware虚拟机无法自动获取IP地址的解决办法

安装好虚拟机后&#xff0c;网络是ok的&#xff0c;但是关机后&#xff0c;再次开启就不能用了。网上找了好多方法&#xff0c;都不管用&#xff0c;最后恢复默认设置搞定了&#xff0c;实在没办法的可以试一试

【致敬未来的攻城狮计划】第3期 作业汇总贴 + 获奖公布(文末荐书)

目录 一、写在前面 二、种子学员介绍 三、作业贴汇总 四、小小总结 五、获奖公布 六、学员有话说 七、特别致谢 八、友情荐书 一、写在前面 时间过得真快&#xff0c;距离 【致敬未来的攻城狮计划】第3期 的发起&#xff0c;已经过去有些时间了&#xff0c;让我们一起…