MapReduce原理简介

news2025/2/8 16:00:59

MapReduce 是一种用于处理大规模数据集的编程模型和计算框架,最初由 Google 提出,并被 Hadoop 等开源项目广泛应用。它主要包括两个阶段:Map 阶段和 Reduce 阶段。下面是 MapReduce 的基本原理:

图示不错

MapReduce 的基本原理:

  1. Map 阶段(Map Phase)

    • 输入数据被分割成大小相等的数据块,然后由多个 Map 任务并行处理。
    • 每个 Map 任务接收一部分数据块,并将其转换成键-值对(Key-Value pairs)的集合。
    • 用户定义的 Map 函数(mapper)被应用于每个键-值对,生成新的键-值对列表。
    • Map 函数的输出会根据键的哈希值被分发到多个 Reduce 任务中,以便后续的 Reduce 阶段处理。
  2. Shuffle 阶段(Sort and Shuffle)

    • 在 Map 阶段之后,所有 Map 任务的输出会被分区并按照键的哈希值进行排序。
    • 相同键的值被分配到相同的 Reduce 任务中,以便后续的 Reduce 阶段处理。
  3. Reduce 阶段(Reduce Phase)

    • 每个 Reduce 任务接收来自多个 Map 任务的输出,即经过分区和排序后的键-值对集合。
    • 用户定义的 Reduce 函数(reducer)被应用于每个键-值对列表,生成最终的输出结果。

在这里插入图片描述
以上过程分步骤描述一下:

  1. 创建 Split。由于 Map 任务最终是分布式的进程运行在不同的机器上,split 描述了每个 Map 任务该去哪台机器上的整块数据中,读取哪一部分的数据;
  2. 读取数据;
  3. 数据经过用户编写的 Map 业务处理,输入的是 Key-Value 格式,输出也是 Key-Value 格式。这一步其实是对数据标记的过程,为每条数据标记一个特征(key),相同特征的数据最终会到一起;
  4. 数据经过分区后,写入到内存缓冲区中;
  5. 内存缓冲区被写满 80%后,在内存中进行排序(先按照分区排序,每个分区内部按照 key 排序)
  6. 如果定义了 combiner 的话,进行一次合并
  7. 每个 Map 溢写出一个文件出来;
  8. 最终对每个 Map 溢写出的文件合并成一个大文件;
  9. 进行一次 combine,写入到本地文件中;
  10. 进行到 reduce 阶段,每个 reduce 任务从上游数据中拷贝出属于自己的文件
  11. 调用用户定义的 reduce 方法进行计算
  12. 最终结果写入到 hdfs 中

在这里插入图片描述

  • 这个 Map 任务计算之后,经过一个 partition 分区器,不同的 key 分配到不同的分区中。分区数量由下游的 reduce 数来决定。
  • 经过分区后的数据,进入到一个环形缓冲区中,并且多次溢写之后,生成小文件。每个 Map Task 最终合并成一个文件。
  • 可以看到 merge 最后的一个文件中是分段的,第一段的数据是给下游的第一个reduce任务的,第二段的数据是给下游的第二个 reduce 的。
  • 也就是下游的 每个 reduce 要来上游的每个 Map 任务的文件中,取到属于自己的那一段文件
  • reduce 任务拉取完上游的各个分段数据之后,进行一次合并,合并到同一个文件中
  • reduceTask 读取这个合并好的文件,把相同的key分组一次,进行计算即可

在这里插入图片描述
在这里插入图片描述

word count的例子

博客例子图示

  • 并行读取文本中的内容,然后进行MapReduce操作

在这里插入图片描述

  • Map过程:并行读取文本,对读取的单词进行map操作,每个词都以<key,value>形式生成。
  • 我的理解:
    一个有三行文本的文件进行MapReduce操作。
  • 读取第一行Hello World Bye World ,分割单词形成Map。
    <Hello,1> <World,1> <Bye,1> <World,1>
  • 读取第二行Hello Hadoop Bye Hadoop ,分割单词形成Map。
    <Hello,1> <Hadoop,1> <Bye,1> <Hadoop,1>
  • 读取第三行Bye Hadoop Hello Hadoop,分割单词形成Map。
    <Bye,1> <Hadoop,1> <Hello,1> <Hadoop,1>
    在这里插入图片描述
  • Reduce操作是对map的结果进行排序,合并,最后得出词频。
  • 我的理解:
  • 经过进一步处理(combiner),将形成的Map根据相同的key组合成value数组。
    <Bye,1,1,1> <Hadoop,1,1,1,1> <Hello,1,1,1> <World,1,1>
  • 循环执行Reduce(K,V[]),分别统计每个单词出现的次数。
    <Bye,3> <Hadoop,4> <Hello,3> <World,2>
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1598041.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HarmonyOS4-网络连接-http请求数据

使用Axios发送请求&#xff1a; 详细资料来源于官方文档。

消息队列RabbitMQ入门学习

目录 1.初识MQ 1.1.同步调用 1.2.异步调用 1.3.技术选型 2.RabbitMQ 2.1.收发消息 2.1.1.交换机 2.1.2.队列 2.1.3.绑定关系 2.1.4.发送消息 3.SpringAMQP 3.1WorkQueues模型 3.1.1消息接收 3.1.2测试 3.1.3.能者多劳 3.1.3.总结 3.2.交换机类型 3.3.Fanout交…

Linux学习之路 -- 进程篇 -- PCB介绍 -- 进程的孤儿和僵尸状态

前面介绍了进程的各种状态&#xff0c;下面介绍比较特殊的两种状态 -- 孤儿和僵尸&#xff08;僵死&#xff09;。 一、僵尸状态 我们创建进程的目的其实就是想要进程帮我们执行一些任务&#xff0c;当任务被执行完后&#xff0c;进程的使命其实就已经完成了。此时我们就需要…

用html写文本变形动画

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>文本变形动画</title><link rel"stylesheet" href"./style.css"> </head> <body> <!-- 两个文本部分…

Github 2024-04-16Python开源项目日报 Top10

根据Github Trendings的统计,今日(2024-04-16统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10TypeScript项目1Vue项目1系统设计指南 创建周期:2507 天开发语言:Python协议类型:OtherStar数量:241693 个Fork数量:42010 次…

Java获取调用当前方法的类名或方法名(栈堆信息)的4种方式

在java代码中&#xff0c;是可以在运行时通过某种方式获取到当前方法被谁调用了&#xff08;调用链路&#xff09;。目前我所知道的有四种方式&#xff08;通过Thread、Throwable、SecurityManager获取&#xff09;&#xff0c;下面逐个列出&#xff0c;附有代码和截图。 Threa…

c# 服务创建

服务 创建服务 编写服务 可以对server1.cs重新命名&#xff0c;点击你的server按F7进入代码编辑模式&#xff0c;编写脚本 双击你的server.cs右击空白位置&#xff0c;添加安装程序&#xff0c;此时会生成“serviceInstaller1”及“serviceProcessInstaller1” 后续可以点击P…

51单片机-LED模块

文章目录 1.点亮一个LED灯2.LED闪烁3.LED流水灯 1.点亮一个LED灯 #include <REGX52.H> void main() {P20xFE; //1111 1110while(1){} }2.LED闪烁 增加延时&#xff0c;控制LED的亮灭间隙 延时函数的添加依靠STC-ISP软件的延时函数功能代码自动生成&#xff0c;如图 #i…

Springboot引入外部jar包并打包jar包

前言 spring boot项目开发过程中难免需要引入外部jar包&#xff0c;下面将以idea为例说明操作步骤 将需要的jar包导入到项目中 2.在maven中引入jar包 <dependency><groupId>com</groupId><!--随便填的文件夹名称--><artifactId>xxx</artif…

基于Material Design风格开源、易用、强大的WPF UI控件库

前言 今天大姚给大家分享一款基于Material Design风格开源、免费&#xff08;MIT License&#xff09;、易于使用、强大的WPF UI控件库&#xff1a;MaterialDesignInXamlToolkit。 项目介绍 MaterialDesignInXamlToolkit 是一个开源、易于使用、强大的 WPF UI 控件库&#x…

【MySQL】20. 使用C语言链接

mysql connect mysql的基础&#xff0c;我们之前已经学过&#xff0c;后面我们只关心使用 要使用C语言连接mysql&#xff0c;需要使用mysql官网提供的库&#xff0c;大家可以去官网下载 我们使用C接口库来进行连接 要正确使用&#xff0c;我们需要做一些准备工作&#xff1a; …

海外云手机怎么解决tiktok运营难题?

最近打算做TikTok的商家越来越多了&#xff0c;而做TikTok的第一步就面临如何养号、涨粉的困境&#xff0c;本文将介绍如何通过海外云手机轻松解决这些问题。 早期大家用的比较多的&#xff0c;是真机科学上网的方法。但是这种方法&#xff0c;需要自己搭建海外环境&#xff0c…

部署项目的时候的一些错误

项目打jar包&#xff0c;找不到资源&#xff0c;连接不上数据库 项目打包后无法运行 直接在idea运行可以 解决方法&#xff1a;pom文件中增加&#xff08;配置文件如果是yml&#xff0c;写yml&#xff09; <resources><resource><directory>src/main/java&…

[Linux][基础IO][二][缓冲区][理解文件系统]详细解读

目录 1.缓冲区0.缓冲区的刷新策略1.何为缓冲区&#xff1f;2.总结 2.理解文件系统0.文件元数据1.了解文件系统 --> 理解inode2.软硬链接 1.缓冲区 0.缓冲区的刷新策略 一般情况 立即刷新行刷新(行缓冲)满刷新(全缓冲) 特殊情况 用户强制刷新(fflush)进程退出 所有的设备&a…

2024年山东三支一扶考试报名照片要求

2024年山东三支一扶考试报名照片要求

[spring] Spring Boot REST API - 项目实现

Spring Boot REST API - 项目实现 书接上文 Spring Boot REST API - CRUD 操作&#xff0c;一些和数据库相关联的注解在 [spring] spring jpa - hibernate CRUD 主要的 layer 如下&#xff1a; #mermaid-svg-QE1PR1gyrkz4XIT0 {font-family:"trebuchet ms",verdana…

TCP/IP协议—TCP

TCP/IP协议—TCP TCP协议TCP通信特点TCP技术概念TCP定时器 TCP头部报文TCP连接三次握手&#xff08;建立连接&#xff09;四次挥手&#xff08;释放连接&#xff09;连接状态 TCP协议 传输控制协议&#xff08;TCP&#xff0c;Transmission Control Protocol&#xff09;是一种…

政安晨:【Keras机器学习实践要点】(三十一)—— 使用全局上下文视觉变换器进行图像分类

目录 设置 简介 动机 结构 全局Token创建 模块 窗口 级别 模型 建立模型 预训练权重的理智检查 微调 GCViT 模型 配置 数据加载器 花卉数据集 为花卉数据集重建模型 训练 政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1f44d;点赞✍评论⭐收藏 收录专栏: T…

【Linux C | 多线程编程】线程同步 | 条件变量(万字详解)

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; ⏰发布时间⏰&#xff1a;2024-04-15 0…

04—常用方法和正则表达式

一、字符串 1.length 属性返回字符串的长度(字符数)。 2.在字符串中查找字符串 indexOf() 字符串使用 indexOf() 来定位字符串中某一个指定的字符首次出现的位置 如果没找到对应的字符函数返回-1 lastIndexOf() 方法在字符串末尾开始查找字符串出现的位置。 3.replace() 方…