Hadoop学习日记-MapReduce思想及执行流程

news2025/7/8 8:59:18

MapReduce思想

Map负责“拆分”：即将复杂问题拆分成可以并行计算的小问题，彼此之间几乎没有依赖联系。

Reduce负责对Map阶段的结果进行合并汇总

Map和Reduce的抽象接口如下：

map:(k1; v1) — (k2; v2)

reduce:(k2; [v2]) — (k3; v3)

一个完整的MapReduce程序在分布式运行时有三类

MRAppMaster: 负责整个MR程序的过程调度以及状态协调
MapTask：负责map阶段的整个数据处理流程
ReduceTask：负责reduce阶段的整个数据处理流程

WordCount编程实现思路

map阶段的核心：把输入的数据经过切割，全部标记为1

shuffle阶段核心：经过MR程序内部自带默认的排序分组功能，把key相同的单词作为一组数据构成新的kv对
在这里插入图片描述

Map阶段执行流程

MapReduce整体执行流程

切片（默认大小与文件块大小相同）
按行读取数据，返回<key, value>对
map方法处理数据
根据reducetask数量对输出的键值进行分区partition
将输出数据写入内存缓冲区，达到比例则溢出spill到磁盘上，溢出的时候根据key值进行排序
对溢出文件进行最终的merge合并

Reduce阶段执行流程

ReduceTask主动从MapTask复制拉取属于自己处理的数据
将获取的数据全部进行合并merge，即将分散的数据合并对合并的数据进行排序
对排序后的键值对调用reduce方法，键相等的键值对调用reduce方法，最后把这些键值对写入到HDFS文件中

shuffle概念

从Map产生输出开始到Reduce得到数据作为输入之前的过程称为shuffle

分为两个阶段：Map端的shuffle、Reduce端的shuffle

Map端的shuffle

Collect阶段：将MapTask结果收集到默认大小为100M的环形缓冲区，保存之前会对key进行分区的计算，默认hash分区

Spill阶段：当内存的数据量达到一定阈值时，会将数据写入本地磁盘，写入前对数据进行一次排序操作

Merge阶段：把所有溢出的临时文件进行合并操作，确保MapTask最终只产生一个中间数据文件

Reduce端的shuffle

Copy阶段：ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据

Merge阶段：在ReduceTask远程复制数据的同时，会在后台开启两个线程对内存本地的数据文件进行合并操作

Sort阶段：在对数据进行合并的同时，会进行排序操作，由于MapTask阶段已经进行局部的排序操作，所以ReduceTask阶段只需保证Copy数据的最终整体有效性

shuffle的弊端

涉及到数据在内存、磁盘间的多次往复

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/791214.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

行为型模式 - 解释器模式

行为型模式 - 解释器模式

概述如上图，设计一个软件用来进行加减计算。我们第一想法就是使用工具类，提供对应的加法和减法的工具方法。 //用于两个整数相加 public static int add(int a,int b){return a b; }//用于两个整数相加 public static int add(int a,int b,int c){r…

阅读更多...

玩转代码|JS实现中文字符串对utf-8的Base64编码的方法

玩转代码|JS实现中文字符串对utf-8的Base64编码的方法

目录 UTF-8 字符串编解码解决方法解析 utf8_to_b64 b64_to_utf8 弃用 unescape 和 escape 方法原由解决方法 Node.js 下的 Base64 编解码 Base64 编解码 Base64是一种使用64基的位置计数法。它使用2的最大次方来代表仅可打印的ASCII 字符。这使它可用来作为电子邮…

阅读更多...

YOLOv2论文对比总结

YOLOv2论文对比总结

1、高分辨率图片效果提升 2、Anchor 3、Loss函数 4、小目标友好

阅读更多...

【文献分享】比目前最先进的模型轻30%！高效多机器人SLAM蒸馏描述符！

【文献分享】比目前最先进的模型轻30%！高效多机器人SLAM蒸馏描述符！

论文题目：Descriptor Distillation for Efficient Multi-Robot SLAM 中文题目：高效多机器人SLAM蒸馏描述符作者：Xiyue Guo, Junjie Hu, Hujun Bao and Guofeng Zhang 作者机构：浙江大学CAD&CG国家重点实验室香港中文大学…

阅读更多...

Windows安装Redis(配置开机自启+配置密码)

Windows安装Redis(配置开机自启+配置密码)

Windows安装Redis 背景安装配置开机自启补充: 在Windows中配置jar自启动设置密码暂时永久(推荐) 背景 Redis以其优异的性能备受青睐. 成为开发人员离不开的软件一直, 相信愿意点开观看此文的人DDDD 最近因为需要在Windows服务器上面搭建各种项目运行环境, 其中就包括Redis 因…

阅读更多...

vue 实现课程表甘特图

vue 实现课程表甘特图

1 封装 components <template><view style"padding-bottom: 100rpx;"><view class"header flex_sb"><div class"header_list flex" v-for"(item,index) in timeList" :key"item.value"><div&g…

阅读更多...

CORS跨域资源共享漏洞

CORS跨域资源共享漏洞

前置知识跨域域（Domain）是由三部分组成的标识：协议、域名和端口。例如这两个ip就属于不同的域： http://example.com https://example.com 因为它们的协议不同（一个是HTTP，另一个是HTTPS&#xff0…

阅读更多...

2023百强县名单出炉！千亿县达54个

2023百强县名单出炉！千亿县达54个

作为国民经济发展中的基本单元，县域经济发挥着重要作用。赛迪顾问25日发布的《2023中国县域经济百强研究》（下称“报告”）显示，千亿县达54个，百强县前10名中江苏省独占6席。在百强县前10名中，江苏省占席最…

阅读更多...

Esp32_Arduino接入腾讯云笔记

Esp32_Arduino接入腾讯云笔记

ESP32是一款由乐鑫科技（Espressif Systems）推出的双核、低功耗、集成Wi-Fi和蓝牙的单芯片微控制器。它采用了Tensilica Xtensa LX6高性能处理器，具有大量的GPIO引脚、模数转换器、SPI、I2S、UART、PWM、I2C和SD卡接口等功能，可以满…

阅读更多...

android 清除缓存方法

android 清除缓存方法

获得应用的存储信息 private void getAppStorageInfo(String packageName){StorageStatsManager storageStatsManager (StorageStatsManager) context.getSystemService(Context.STORAGE_STATS_SERVICE);StorageManager storageManager (StorageManager) context.getSystemS…

阅读更多...

第二十一章数据处理篇：imgaug

第二十一章数据处理篇：imgaug

参考教程： https://imgaug.readthedocs.io/en/latest/source/jupyter_notebooks.html 文章目录概述针对图片的增强基础使用样例base class: augment增强的组合sequentialsomeof和oneofsometimes 增强的种类针对关键点的增强针对包围框的增强概述 imgaug是一个使…

阅读更多...

【深度学习】GPT-3

【深度学习】GPT-3

2020年5月，OpenAI在长达72页的论文《https://arxiv.org/pdf/2005.14165Language Models are Few-Shot Learners》中发布了GPT-3，共有1750亿参数量，需要700G的硬盘存储，(GPT-2有15亿个参数)，它比GPT-2有了极大的改进。根…

阅读更多...

PX4常见解锁失败报错及解决方法

PX4常见解锁失败报错及解决方法

文章目录一、Kill switch engagen二、电源检查CBRK_SUPPLY_CHK三、USB连接检查CBRK_USB_CHK四、安全开关检查CBRK_IO_SAFETY五、high Accelerometer bios六、high gyro bios七、compasss inconsistent八、GPS报错九、Accels inconsistent十、偏航角一直漂移十一、PREFLIGHT FA…

阅读更多...

同步编程和异步编程的区别

同步编程和异步编程的区别

我在这里用几个例子（附带图文）给你们讲解一下，具体区别。第一个例子一、同步执行步骤： step1 》 step2 》step3 先打印 hello moon， 再打印图片， 等待图片打印完，再打印 hello Jupiter …

阅读更多...

全国青少年信息素养大赛Scratch图形化编程_初赛_模拟一卷

全国青少年信息素养大赛Scratch图形化编程_初赛_模拟一卷

全国青少年电子信息智能创新大赛Scratch图形化编程_初赛_模拟一卷一、选择题第 1 题单选题能让角色在整个舞台范围内的任意位置出现的程序是？（ ） A. B. C. D. 第 2 题单选题猫抓老鼠游戏的封面上有“开始”按钮和“游戏规则”两…

阅读更多...

实战：Docker+Jenkins+Gitee构建CICD流水线

实战：Docker+Jenkins+Gitee构建CICD流水线

文章目录前言Jenkins部署创建Jenkins docker-compose配置maven源启动Jenkins容器安装插件Gitee ssh公匙配置与测试项目提交 Jenkins创建流水线写在最后前言持续集成和持续交付一直是当下流行的开发运维方式，CICD省去了大量的运维时间，也能够提高开发…

阅读更多...

Windows环境部署安装Chatglm2-6B-int4

Windows环境部署安装Chatglm2-6B-int4

chatglm2-6B是最近比较火爆的大模型，可以在消费级显卡上部署使用，适合学习。但是一般人也不一定有那么高的硬件配置，所以部署个int4版本应该是大多数人的最好选择。我就在家里部署起了int4版本的chatglm2-6B，记录一下免得忘了。 …

阅读更多...

Docker资源限制

Docker资源限制

Docker资源限制一、cpu资源控制1、设置cpu使用率上限2、设置cpu资源占用比（设置多个容器时才有效）3、设置容器绑定指定的CPU 三、内存资源控制四、磁盘IO配额控制1、限制Block IO2、限制bps和iops进行限制一、cpu资源控制 cgroups是一个非常强大的li…

阅读更多...

VMware虚拟机无法自动获取IP地址的解决办法

VMware虚拟机无法自动获取IP地址的解决办法

安装好虚拟机后，网络是ok的，但是关机后，再次开启就不能用了。网上找了好多方法，都不管用，最后恢复默认设置搞定了，实在没办法的可以试一试

阅读更多...

【致敬未来的攻城狮计划】第3期作业汇总贴 + 获奖公布（文末荐书）

【致敬未来的攻城狮计划】第3期作业汇总贴 + 获奖公布（文末荐书）

目录一、写在前面二、种子学员介绍三、作业贴汇总四、小小总结五、获奖公布六、学员有话说七、特别致谢八、友情荐书一、写在前面时间过得真快，距离【致敬未来的攻城狮计划】第3期的发起，已经过去有些时间了，让我们一起…

阅读更多...

推荐文章

最新文章