hadoop生态圈（四）- MapReduce

hadoop生态圈（四）- MapReduce

news2026/2/12 20:05:56

目录

MapReduce的基本原理

MapReduce流程图

Map阶段执行流程

Reduce阶段执行流程

Shuffle机制

MapReduce解决的是海量数据计算

MapReduce的思想核心是“分而治之”。就是把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分，然后逐个解决，分别找出各部分的解，再把把各部分的解组成整个问题的解。Map负责“分”，Reduce负责“合”。MapReduce处理的数据类型是<key,value>键值对。

MapReduce的基本原理

MapReduce流程图

MapReduce速度低是因为内存和硬盘的频繁交换

解决方案：

提前规约（小文件合并）
内存加大
加大缓存区

Map阶段执行流程

第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认情况下，Split size = Block size。每一个切片由一个MapTask处理。（getSplits）
第二阶段是对切片中的数据按照一定的规则解析成<key,value>对。默认规则是把每一行文本内容解析成键值对。key是每一行的起始位置(单位是字节)，value是本行的文本内容。（TextInputFormat）
第三阶段是调用Mapper类中的map方法。上阶段中每解析出来的一个<k,v>，调用一次map方法。每次调用map方法会输出零个或多个键值对。
第四阶段是按照一定的规则对第三阶段输出的键值对进行分区。默认是只有一个区。分区的数量就是Reducer任务运行的数量。默认只有一个Reducer任务。
第五阶段是对每个分区中的键值对进行排序。首先，按照键进行排序，对于键相同的键值对，按照值进行排序。比如三个键值对<2,2>、<1,3>、<2,1>，键和值分别是整数。那么排序后的结果是<1,3>、<2,1>、<2,2>。如果有第六阶段，那么进入第六阶段；如果没有，直接输出到文件中。
第六阶段是对数据进行局部聚合处理，也就是combiner处理。键相等的键值对会调用一次reduce方法。经过这一阶段，数据量会减少。本阶段默认是没有的。

Reduce阶段执行流程

第一阶段是Reducer任务会主动从Mapper任务复制其输出的键值对。Mapper任务可能会有很多，因此Reducer会复制多个Mapper的输出。
第二阶段是把复制到Reducer本地数据，全部进行合并，即把分散的数据合并成一个大的数据。再对合并后的数据排序。
第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对。最后把这些输出的键值对写入到HDFS文件中。

Shuffle机制

map阶段处理的数据如何传递给reduce阶段，是MapReduce框架中最关键的一个流程，这个流程就叫shuffle。

shuffle: 洗牌、发牌——（核心机制：数据分区，排序，合并）。

shuffle是Mapreduce的核心，它分布在Mapreduce的map阶段和reduce阶段。一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffle。

1).Collect阶段：将MapTask的结果输出到默认大小为100M的环形缓冲区，保存的是key/value，Partition分区信息等。

2).Spill阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了combiner，还会将有相同分区号和key的数据进行排序。

3).Merge阶段：把所有溢出的临时文件进行一次合并操作，以确保一个MapTask最终只产生一个中间数据文件。

4).Copy阶段： ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据，这些数据默认会保存在内存的缓冲区中，当内存的缓冲区达到一定的阀值的时候，就会将数据写到磁盘之上。

5).Merge阶段：在ReduceTask远程复制数据的同时，会在后台开启两个线程对内存到本地的数据文件进行合并操作。

6).Sort阶段：在对数据进行合并的同时，会进行排序操作，由于MapTask阶段已经对数据进行了局部的排序，ReduceTask只需保证Copy的数据的最终整体有效性即可。

Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2082403.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

作业0828

作业0828

使用C手动封装一个顺序表，包含成员数组一个，成员变量N个 #include <iostream> #include <string>using namespace std;using datatype int;struct Seqlist { private:datatype *data NULL;int size 0;int len 0;public://初始化函数voi…

阅读更多...

从零成本到高效能：免费报表工具在金融行业的实践与应用

从零成本到高效能：免费报表工具在金融行业的实践与应用

在当今金融行业中，多样化的报表体系是支撑机构高效运营、精准决策的重要基石。这些报表不仅反映了金融机构的财务状况，还涵盖了风险管理、业绩评估、流动性管理及合规监管等多个维度。今天我将带领大家深入探讨金融行业中这些报表的多样性和重要性&#…

阅读更多...

数据的存储3（第三十二天）

数据的存储3（第三十二天）

1.整形在内存中的存储（补充） 原码，反码，补码的概念 （1）正数的原码，反码，补码相同 （2）对于整数来说：数据存放内存中其实存放的就是补码 2.浮点…

阅读更多...

最长的一帧学习 part3

最长的一帧学习 part3

文章目录八、osgUtil:: SceneView::cull ()part1 初始化必要的SceneView类成员变量part2 立体显示的处理part3 执行SceneView::cullStage函数，它也是场景视图筛选工作的核心函数part3.1 首先统计场景中的遮挡节点（OccluderNode），…

阅读更多...

【python】关于判断空值None、判断len()=0，和 if not 的区别

【python】关于判断空值None、判断len()=0，和 if not 的区别

如果我们问一个问题：如果一个东西是不存在的，那么它的长度是多少？ 我一开始会不假思索地回答：都不存在了，长度肯定是0啦。但是细想一下，它都不存在了，还怎么会有长度呢？ 这就有点像…

阅读更多...

【Java】数据类型与变量（二）

【Java】数据类型与变量（二）

目录 3.变量 3.1什么是变量（变量的概念） 3.2语法格式编辑编辑3.3整型变量 3.3.1整型变量如何定义编辑 3.3.2长整型变量 3.3.3短整型变量 3.3.4字节型变量 3.4浮点型变量 3.4.1双精度浮点型 3.4.2单精度浮点型 3.4.3单精度浮点型与双…

阅读更多...

【大模型开源教程】Git开源教程「动手学大模型应用开发」，学微调也太简单了

【大模型开源教程】Git开源教程「动手学大模型应用开发」，学微调也太简单了

LLM 正逐步成为信息世界的新革命力量，其通过强大的自然语言理解、自然语言生成能力，为开发者提供了新的、更强大的应用开发选择。随着国内外井喷式的 LLM API 服务开放，如何基于 LLM API 快速、便捷地开发具备更强能力、集成 LLM 的应用&…

阅读更多...

AI搜索“懒人神器”，如何向谷歌和百度发起挑战？

AI搜索“懒人神器”，如何向谷歌和百度发起挑战？

“属于传统搜索的时代，已经彻底落幕了。” 2024年2月，全球IT分析与评估机构Gartner在一份报告中如此判断。同时该机构预测，到2026年，传统搜索引擎的搜索量将减少25％。与此同时，从最近公布的财报来看&…

阅读更多...

源代码加密是什么？给源代码加密如何做？

源代码加密是什么？给源代码加密如何做？

一、源代码加密是什么？ 源代码加密是一种通过特定的加密算法和工具对软件源代码文件进行保护的技术，使得只有授权用户才能解密和访问代码。加密技术可以防止未经授权的访问、阅读、修改或复制源代码。源代码加密，则是对源代码文件进行加密处…

阅读更多...

Kubernetes高级调度2

Kubernetes高级调度2

一.Taint和Toleration 1.为什么使用taint （1）不让pod被部署到被设置为污点的节点上。 （2）不让master节点部署业务，只部署系统组件 （3）除了指点pod外，不想让节点部署其他pod 2.为…

阅读更多...

解决ESP32 VScode环境报错：Something went wrong while trying to build the project。

解决ESP32 VScode环境报错：Something went wrong while trying to build the project。

当我在vscode开发esp32时，点击构建项目报了个错。说明：项目目录包含了中文字符，我给换成全英文路径，再次尝试成功改完发现还有问题，来到这个目录，里面的中文也要改成英文。（不止&#xff0…

阅读更多...

Qt是不是经常写个QWidget输入参数？

Qt是不是经常写个QWidget输入参数？

发现Qt自带的一个输入控件QInputDialog类 QInputDialog类提供了一个简单方便的对话框，用于从用户获取单个值。输入值可以是字符串、数字或列表中的项。必须设置一个标签来告诉用户他们应该输入什么。提供了五个静态方便函数:getText()、getMultiLineText()、getI…

阅读更多...

干货：2024年四大免费PDF编辑器精选指南！

干货：2024年四大免费PDF编辑器精选指南！

在日常生活工作中，我们几乎每天都会接触到PDF文档。当我们需要对这些文档进行编辑时，一些出色的免费PDF编辑器十分重要。接下来，我将分享自己使用过的几款优秀的免费PDF编辑器！ 福昕PDF编辑器：简洁高效的编辑体验链…

阅读更多...

【Python基础】学习Python常见的几种运行报错，看完之后，你就不会再犯错了！！！（附带解析）

【Python基础】学习Python常见的几种运行报错，看完之后，你就不会再犯错了！！！（附带解析）

学习Python时，遇到运行时错误是很常见的，这些错误通常是因为代码中存在语法错误、逻辑错误或是对Python的某些特性理解不够深入所导致的。如果你也是刚入门的小伙伴呢，小编为你们准备了入门Python学习籽料和Python入门实践，点击…

阅读更多...

期权末日轮的前提——高杠杆特性是怎样的？

期权末日轮的前提——高杠杆特性是怎样的？

今天带你了解期权末日轮的前提——高杠杆特性是怎样的？期权末日轮是临近期权到期行权，期权合约往往出现大的波动涨跌幅。如何在实际交易过程中艺术的运用期权产品的高杠杆，始终是一个永无止境的话题，结合一些实战上的经验就是&a…

阅读更多...

miniQMT怎么获取历史/最新行情？miniQMT原生python环境如何获取历史/最新行情？

miniQMT怎么获取历史/最新行情？miniQMT原生python环境如何获取历史/最新行情？

原生Python 调用方法 python from xtquant import xtdata xtdata.get_market_data_ex(field_list[],# 字段stock_list[],# 合约代码列表period1d,# 数据周期——1m、5m、1d、tickstart_time,# 数据起始时间%Y%m%d或%Y%m%d%H%M%Send_time,# 数据结束时间%Y%m%d或%Y%m%d%H%M%Sc…

阅读更多...

QT中UI实现小功能的步骤

QT中UI实现小功能的步骤

1、新建一个目录要勾选Generate form，生成一个.ui文件把Shadow build的勾选取消，避免产生两个文件夹！ 2、具体步骤 1.在UI界面中拖拽需要的组件对象 2.修改组件对象的名称 3.保存并运行，根据运行结果适当调整界面布局 4.业…

阅读更多...

真正懂耳机的人选了什么？开放式耳机推荐

真正懂耳机的人选了什么？开放式耳机推荐

真正懂耳机的人，在选择耳机时，往往会更注重音质的自然还原、佩戴的舒适度、以及耳机的设计是否符合个人审美和生活习惯。开放式耳机以其独特的开放式设计，能够带来更为自然、宽广的声场体验，同时减少对耳朵的压迫感，成…

阅读更多...

宝藏!《联盟作文班配套讲义》(九尾篇)

宝藏!《联盟作文班配套讲义》(九尾篇)

本文内容，全部选自自动化考研联盟企业店的：独家制作，《联盟作文班配套讲义》(九尾篇)。 Part1：资料封面&目录 Part2：各章节内容展示第一章考研英语作文开篇总述第二章、小作文(英语一英语二) 第三章、英语&…

阅读更多...

docker拉取镜像并安装mysql

docker拉取镜像并安装mysql

一. linux安装docker 1. 先删除本机旧的或者残留的docker sudo yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine2. 安装依赖 sudo yum update -y && sudo yum i…

阅读更多...

推荐文章

最新文章