分布式计算 MapReduce 究竟是怎么一回事?

news2024/11/20 15:31:55

前言

如果要对文件中的内容进行统计,大家觉得怎么做呢?一般的思路都是将不同地方的文件数据读取到内存中,最后集中进行统计。如果数据量少还好,但是面对海量数据、大数据的场景这样真的合适吗?不合适的话,那有什么比较好的方式进行计算呢?不急,看完本文给你答案。

分布式计算思想

我们打开思路,既然文件数据遍布在各个节点上,那么我们就不把文件从各个节点加载过来,而是把算法分到各个节点进行计算,最后统一进行合并处理。这就是所谓的分布式计算。

 分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

整个思想的核心就是“先分再合,分而治之”。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最终结果。 

那么 Hadoop 也借鉴了这样的思想,设计出了 MapReduce 计算框架。那么 MapReduce 框架具体设计上有什么亮点呢?

MapReduce 设计思想

Hadoop 在设计 MapReduce 的时候,吸取了分布式计算中分而治之的思想,同时需要考虑更多细节的问题。

(1)如何对付大数据处理场景

对相互间不具有计算依赖关系的大数据计算任务,实现并行最自然的办法就是采取 MapReduce 分而治之的策略。

首先 Map 阶段进行拆分,把大数据拆分成若干份小数据,多个程序同时并行计算产生中间结果;然后是 Reduce 聚

合阶段,通过程序对并行的结果进行最终的汇总计算,得出最终的结果。 

不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算。

(2)构建抽象编程模型

MapReduce 借鉴了函数式语言中的思想,用 Map 和 Reduce 两个函数提供了高层的并行编程抽象模型。

map: 对一组数据元素进行某种重复式的处理;

reduce: 对 Map 的中间结果进行某种进一步的结果整理。

MapReduce 中定义了如下的 Map 和 Reduce 两个抽象的编程接口,由用户去编程实现:

map: (k1; v1) → (k2; v2)

reduce: (k2; [v2]) → (k3; v3)

通过以上两个编程接口,大家可以看出MapReduce处理的数据类型是<key,value>键值对。

(3)统一架构、隐藏底层细节

如何提供统一的计算框架,如果没有统一封装底层细节,那么程序员则需要考虑诸如数据存储、划分、分发、结果

收集、错误恢复等诸多细节;为此,MapReduce 设计并提供了统一的计算框架,为程序员隐藏了绝大多数系统层

面的处理细节。

MapReduce 最大的亮点在于通过抽象模型和计算框架把需要做什么(what need to do)与具体怎么做(how to do)分开了,为程序员提供一个抽象和高层的编程接口和框架。

程序员仅需要关心其应用层的具体计算问题,仅需编写少量的处理应用本身计算问题的业务程序代码。 

至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理: 从分布代码的执行,到大到数千小到单个节点集群的自动调度使用。

MapReduce 介绍

Hadoop MapReduce是一个分布式计算框架,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多 TB 数据集)。

MapReduce 是一种面向海量数据处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。

MapReduce 特点

  1. 易于编程

Mapreduce 框架提供了用于二次开发的接口;简单地实现一些接口,就可以完成一个分布式程序。任务计算交给计算框架去处理,将分布式程序部署到 hadoop 集群上运行,集群节点可以扩展到成百上千个等。

  1. 良好的扩展性

当计算机资源不能得到满足的时候,可以通过增加机器来扩展它的计算能力。基于 MapReduce 的分布式计算得特点可以随节点数目增长保持近似于线性的增长,这个特点是 MapReduce 处理海量数据的关键,通过将计算节点增至几百或者几千可以很容易地处理数百 TB 甚至 PB 级别的离线数据。

  1. 高容错性

Hadoop 集群是分布式搭建和部署得,任何单一机器节点宕机了,它可以把上面的计算任务转移到另一个节点上运行,不影响整个作业任务得完成,过程完全是由 Hadoop 内部完成的。

  1. 适合海量数据的离线处理

可以处理 GB、TB 和 PB 级别得数据量。

MapReduce 局限性

MapReduce 虽然有很多的优势,也有相对得局限性,局限性不代表不能做,而是在有些场景下实现的效果比较差,并不适合用 MapReduce 来处理,主要表现在以下结果方面:

  1. 实时计算性能差

MapReduce 主要应用于离线作业,无法作到秒级或者是亚秒级得数据响应。

  1. 能进行流式计算

流式计算特点是数据是源源不断得计算,并且数据是动态的;而 MapReduce 作为一个离线计算框架,主要是针对静态数据集得,数据是不能动态变化得。

MapReduce 实战

WordCount算是大数据计算领域经典的入门案例,相当于 Hello World。主要是统计指定文件中,每个单词出现的总次数。 

虽然 WordCount 业务极其简单,但是希望能够通过案例感受背后 MapReduce 的执行流程和默认的行为机制,这才是关键。

  1. Map 阶段代码实现

  • 实现了 map 接口,把输入的数据经过切割,全部标记 1,因此输出就是<单词,1>。

  1. Reduce 阶段代码实现

  • 实现了 reduce 接口,对所有的 1 进行累加求和,就是单词的总次数

  1. 启动代码

可以参考官方例子:https://github.com/apache/hadoop/blob/branch-3.3.0/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WordCount.java

  1. 运行

hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input /output

复制代码

  • 第一个参数:wordcount 表示执行单词统计任务;

  • 第二个参数:指定输入文件的路径;

  • 第三个参数:指定输出结果的路径(该路径不能已存在)

  1. 查看运行结果

最终可以在/output 目录下看到输出的结果

MapReduce 执行流程

从资源运行层面,一个完整的 MapReduce 程序在分布式运行时有三类程序,如下所示:

  • MRAppMaster:负责整个 MR 程序的过程调度及状态协调

  • MapTask:负责 map 阶段的整个数据处理流程

  • ReduceTask:负责 reduce 阶段的整个数据处理流程

MapReduce 任务优先会提交到 Yarn 组件上,这个主要是用来管理资源的,因为计算需要 CPU、内存等资源。首先会运行 1 个MRAppMaster程序,主要负责整个 MR 程序的过程调度及状态协调。然后运行多个MapTask,最后运行ReduceTask

从业务逻辑层面上,以上面的 wordCount 为例,它的运行流程如下图所示:

Map 阶段执行流程

  • 第一阶段:把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片规划。默认Split size = Block size(128M),每一个切片由一个MapTask处理。

  • 第二阶段:对切片中的数据按照一定的规则读取解析返回<key,value>对。默认是按行读取数据。key 是每一行的起始位置偏移量,value 是本行的文本内容。

  • 第三阶段:调用 Mapper 类中的 map 方法处理数据。每读取解析出来的一个<key,value> ,调用一次 map 方法。

  • 第四阶段:按照一定的规则对 Map 输出的键值对进行分区 partition。默认不分区,因为只有一个reducetask。分区的数量就是 reducetask 运行的数量。

  • 第五阶段:Map 输出数据写入内存缓冲区,达到比例溢出到磁盘上。溢出 spill 的时候根据 key 进行排序 sort。默认根据 key 字典序排序。 

  • 第六阶段:对所有溢出文件进行最终的 merge 合并,成为一个文件。

Reduce 阶段执行过程

  • 第一阶段:ReduceTask 会主动从 MapTask 复制拉取属于需要自己处理的数据。

  • 第二阶段:把拉取来数据,全部进行合并 merge,即把分散的数据合并成一个大的数据。再对合并后的数据排序。 

  • 第三阶段是对排序后的键值对调用 reduce 方法。键相等的键值对调用一次 reduce 方法。最后把这些输出的键值对写入到 HDFS 文件中。

shuffle 阶段

  • Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。

  • 而在 MapReduce 中,Shuffle 更像是洗牌的逆过程,指的是将 map 端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便 reduce 端接收处理。 

  • 一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle。

以上就是整个 MapReduce 执行的整个流程。

总结

MapReduce 是 Hadoop 提供的一个分布式计算框架,对于大数据开发人员来说,只要关注于自己的业务,实现他们提供的 Map 和 Reduce 接口,接下来底层都交给 Hadoop 来处理。但是 MapReduce 已经日薄西山,企业用的也越来越少了,慢慢被 Spark、Flink 等计算引擎代替,主要原因还是太慢,比如 shuffle 阶段中频繁涉及到数据在内存、磁盘之间的多次往复,但是这种计算思想还是很值得一学的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/80426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作系统装完之后,安装几个特别有用的经典软件,都是电脑必备,包含pdf编辑、图片编辑、wiki、压缩、影音等等

操作系统装完之后&#xff0c;安装几个特别有用的经典软件&#xff0c;都是电脑必备&#xff0c;包含pdf编辑、图片编辑、wiki、压缩、影音等等。 Gimp https://www.gimp.org/ Gimp 是一款小巧实用的图片编辑工具。 如果你不想用笨重的PS&#xff0c;那可以尝试一下Gimp&…

元胞自动机模拟病毒传染(SEIR模型)(Python代码实现)

&#x1f468;‍&#x1f393;个人主页&#xff1a;研学社的博客 &#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜…

SSM整合-如何配置相关文件

下述操作都是在IDEA上进行 1.首先新建一个Maven工程。 2.在pom.xml中增加相关依赖 <properties><spring.version>5.3.1</spring.version></properties><dependencies><dependency><groupId>org.springframework</groupId>&l…

安卓玩机搞机技巧综合资源----手机各种代码 查询信息 开启端口 调试选项【十】

接上篇 安卓玩机搞机技巧综合资源------如何提取手机分区 小米机型代码分享等等 【一】 安卓玩机搞机技巧综合资源------开机英文提示解决dm-verity corruption your device is corrupt. 设备内部报错 AB分区等等【二】 安卓玩机搞机技巧综合资源------EROFS分区格式 小米红…

踩坑Xxljob本地部署后调度一半成功一半失败原因分析及解决方案记录

缘由 入门学习和本地部署Xxljob过程中&#xff0c;发现Xxljob任务一半调度成功&#xff0c;一半调度失败&#xff0c;给我邮箱发爆了&#xff0c;为啥呢&#xff1f;查了半天资料都没解决 成功比例图&#xff1a; 实际操作时&#xff0c;发现单次手动执行一定成功&#xff0…

Python之数据库编程

目录 一、MySQL数据库的使用 数据库相关操作 二、数据库增删改查 增加 修改 删除 三、数据库标准写法 一、MySQL数据库的使用 建表 CREATE TABLE py_student( id INTEGER primary key auto_increment, name INTEGER not null, gender varchar(11) default 男 , birthday d…

CMake中define_property的使用

CMake中的define_property命令用于定义和记录自定义属性&#xff0c;其格式如下&#xff1a; define_property(<GLOBAL | DIRECTORY | TARGET | SOURCE |TEST | VARIABLE | CACHED_VARIABLE>PROPERTY <name> [INHERITED][BRIEF_DOCS <brief-doc> [docs...]]…

php+vue基于微信小程序的在线挂号预约小程序

网络的广泛应用给生活带来了十分的便利。所以把在线挂号管理与现在网络相结合&#xff0c;利用ThinkPHP5技术建设在线挂号微信小程序&#xff0c;实现在线挂号的信息化。则对于进一步提高在线挂号管理发展&#xff0c;丰富在线挂号管理经验能起到不少的促进作用。 在线挂号微信…

在飞书搞了个机器人,我让ChatGPT帮忙写算法

一、前言 环境&#xff1a; 系统&#xff1a;Windows 11 64位 Python版本&#xff1a;Python 3.9 注&#xff1a;本文不讲怎么实现&#xff0c;只讲实现的效果和一些思考。大家感兴趣再考虑去配置相关机器人。 先来问问ChatGPT两个问题&#xff1a; 1、ChatGPT是什么&#xff…

Java面试题总结-面向对象

面试题总结第一篇面向对象面向对象和面向过程的区别面向对象三大特性Java是如何实现多态的面向对象 面向对象和面向过程的区别 面向过程&#xff1a; 优点&#xff1a;性能比面向对象高&#xff0c;因为类调用时需要实例化&#xff0c;开销比较大&#xff0c;比较消耗资源;比如…

非零基础自学计算机操作系统 第1章 操作系统概述 1.2 操作系统的历史 1.2.1 操作系统的产生

非零基础自学计算机操作系统 文章目录非零基础自学计算机操作系统第1章 操作系统概述1.2 操作系统的历史1.2.1 操作系统的产生第1章 操作系统概述 1.2 操作系统的历史 由于操作系统是直接建造于硬件层之上的&#xff0c;它的演变必然与计算机系统结构的演变有着密切的联系。 …

Java基于JSP的小区内部物业管理系统

对于规模较小的物业管理公司来说,传统的人工小区物业管理模式仍旧可以应付日常的工作需求。但是,随着该行业不断的发展,竞争日益激烈,提高物业管理的工作水平与效率、为业主提供更好的服务,已经成为物业管理公司当前必须考虑的问题。而将计算机引入到管理机制中来将是一个不错的…

2022-12- 05 网工进阶(三十七)MPLS--基本概念、转发过程、基本配置、配置静态LSR

MPLS概述 基本概念 MPLS&#xff08;Multi-Protocol Label Switching&#xff0c;多协议标签交换&#xff09;位于TCP/IP协议栈中的数据链路层和网络层之间&#xff0c;可以向所有网络层提供服务。 通过在数据链路层和网络层之间增加额外的MPLS头部&#xff0c;基于MPLS头部…

木字楠后台管理系统开发(3):Vue项目初始化并引入基础依赖

&#x1f3b6; 文章简介&#xff1a;木字楠后台管理系统开发(3)&#xff1a;Vue项目初始化并引入基础依赖 &#x1f4a1; 创作目的&#xff1a;为了带大家完整的体验木字楠后台管理系统模版的开发流程 ☀️ 今日天气&#xff1a;温度骤降&#xff0c;差点给爷送走。 &#x1f4…

Js逆向教程23-AST Babel插件最简单修改值示例

作者&#xff1a;虚坏叔叔 博客&#xff1a;https://xuhss.com 早餐店不会开到晚上&#xff0c;想吃的人早就来了&#xff01;&#x1f604; AST Babel插件最简单修改值示例 一、文档地址和安装的方式 https://github.com/jamiebuilds/babel-handbook/blob/master/translation…

动态规划

什么是动态规划 动态规划算法通常用于求解具有某种最优性质的问题。在这类问题中&#xff0c;可能会有许多可行解。每一个解都对应于一个值&#xff0c;我们希望找到具有最优值的解。 动态规划的前提是什么&#xff1f; 存在最优解 拿出来任意一块物品&#xff0c;仍旧是最…

详解C++11

文章目录前言一、C11简介二、统一的列表初始化2.1 {}的初始化2.2 std::initializer_list三、声明3.1 auto3.2 decltype3.3 nullptr四、范围for五、智能指针六、STL中一些变化新容器容器中的一些新方法七、右值引用和移动语义7.1 左值引用和右值引用7.2 左值引用和右值引用比较左…

灵魂拷问,你真的了解DNS吗?

未来已来&#xff0c;只是不均衡地分布在当下 大家好&#xff0c;我是菜农&#xff0c;欢迎来到我的频道。 都说程序员是面向Google编程&#xff0c;殊不知当你输入 www.google.com 地址的时候&#xff0c;是否有想过&#xff0c;在回车的一瞬间浏览器如何将请求发送&#xff…

价值年薪70W的JAVA进阶学习路线!终于让我从阿里P8手里抠出来了

作为一个男人我感觉必须得做点什么来证明一下自己&#xff0c;现在我又回来了&#xff0c;准备把自己的节操准备补一下。另外给各位未来的Java程序员说一句&#xff0c;别的我不清楚&#xff0c;学习编程请从一而终 咱们学习编程就挺难的&#xff0c;有这些先驱者来带领咱们学习…

【Maven基础】命令行环境使用

实验一&#xff1a;根据坐标创建 Maven 工程 1、Maven 核心概念&#xff1a;坐标 1.1、数学中的坐标 使用 x、y、z 三个『向量』作为空间的坐标系&#xff0c;可以在『空间』中唯一的定位到一个『点』。 1.2、Maven中的坐标 1.2.1、向量说明 使用三个『向量』在『Maven的仓…