Hadoop MapReduce是一种用于处理大数据的编程模型。它将数据集切分成多个小任务,每一个小任务都可以通过独立的计算来完成,最终的结果可以通过合并或更新数据来进行聚合。Hadoop MapReduce极大地简化了处理大数据的过程,因为它可以同时进行多个计算任务,并且可以快速地进行计算结果的合并和更新。
1. MapReduce的思想很好理解,关键在于如何基于这 个思想设计出一款分布式计算程序?
2. 下面看看Hadoop团队针对MapReduce的设计构思是怎样的?这决定了你将如何使用MapReduce?
(1)如何对付大数据处理场景
⚫ 对相互间不具有计算依赖关系的大数据计算任务,实现并行最自然的办法就是采取MapReduce分而治之的策略。
⚫ 首先Map阶段进行拆分,把大数据拆分成若干份小数据,多个程序同时并行计算产生中间结果;然后是Reduce聚合阶段,通过程序对并行的结果进行最终的汇总计算,得出最终的结果。
⚫ 不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算!
(2)构建抽象编程模型
⚫ MapReduce借鉴了函数式语言中的思想,用Map和Reduce两个函数提供了高层的并行编程抽象模型。
map: 对一组数据元素进行某种重复式的处理;
reduce: 对Map的中间结果进行某种进一步的结果整理。
⚫ MapReduce中定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现:
map: (k1; v1) → (k2; v2)
reduce: (k2; [v2]) → (k3; v3)
⚫ 通过以上两个编程接口,大家可以看出MapReduce处理的数据类型是<key,value>键值对。
(3)统一架构、隐藏底层细节
⚫ 如何提供统一的计算框架,如果没有统一封装底层细节,那么程序员则需要考虑诸如数据存储、划分、分发、结果收集、错误恢复等诸多细节;为此,MapReduce设计并提供了统一的计算框架,为程序员隐藏了绝大多数系统层面的处理细节。
⚫ MapReduce最大的亮点在于通过抽象模型和计算框架把需要做什么(what need to do)与具体怎么做(how to
do)分开了,为程序员提供一个抽象和高层的编程接口和框架。
⚫ 程序员仅需要关心其应用层的具体计算问题,仅需编写少量的处理应用本身计算问题的业务程序代码。
⚫ 至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理:从分布代码的执行,到大到数千小到单个节点集群的自动调度使用。
分布式计算概念
⚫ 分布式计算是一种计算方法,和集中式计算是相对的。
⚫ 随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。
⚫ 分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。
MapReduce介绍
⚫ Hadoop MapReduce是一个分布式计算框架,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集)。
⚫ MapReduce是一种面向海量数据处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。
MapReduce产生背景
⚫ MapReduce最早由Google于2004年在一篇名为《MapReduce:Simplified Data Processingon Large Clusters 》的论文中提出。
⚫ 论文中谷歌把分布式数据处理的过程拆分为Map和Reduce两个操作函数(受到函数式编程语言的启发),随后被 Apache Hadoop参考并作为开源版本提供支持,叫做Hadoop MapReduce。
⚫ 它的出现解决了人们在最初面临海量数据束手无策的问题,同时它还是易于使用和高度可扩展的,使得开发者无需关系分布式系统底层的复杂性即可很容易的编写分布式数据处理程序,并在成千上万台普通的商用服务器中运行。
MapReduce特点
⚫ 易于编程
Mapreduce框架提供了用于二次开发的接口;简单地实现一些接口,就可以完成一个分布式程序。任务计算交给计算框架去处理,将分布式程序部署到hadoop集群上运行,集群节点可以扩展到成百上千个等。
⚫ 良好的扩展性
当计算机资源不能得到满足的时候,可以通过增加机器来扩展它的计算能力。基于MapReduce的分布式计算得特点可以随节点数目增长保持近似于线性的增长,这个特点是MapReduce处理海量数据的关键,通过将计算节点增至几百或者几千可以很容易地处理数百TB甚至PB级别的离线数据。
⚫ 高容错性
Hadoop集群是分布式搭建和部署得,任何单一机器节点宕机了,它可以把上面的计算任务转移到另一个节点上运行, 不影响整个作业任务得完成,过程完全是由Hadoop内部完成的。
⚫ 适合海量数据的离线处理
可以处理GB、TB和PB级别得数据量
MapReduce局限性
MapReduce虽然有很多的优势,也有相对得局限性,局限性不代表不能做,而是在有些场景下实现的效果比较差,并 不适合用MapReduce来处理,主要表现在以下结果方面:
⚫ 实时计算性能差
MapReduce主要应用于离线作业,无法作到秒级或者是亚秒级得数据响应。
⚫ 不能进行流式计算
流式计算特点是数据是源源不断得计算,并且数据是动态的;而MapReduce作为一个离线计算框架,主要是针对静态数据集得,数据是不能动态变化得。
MapReduce实例进程
一个完整的MapReduce程序在分布式运行时有三类
⚫ MRAppMaster:负责整个MR程序的过程调度及状态协调
⚫ MapTask:负责map阶段的整个数据处理流程
⚫ ReduceTask:负责reduce阶段的整个数据处理流程
阶段组成
⚫ 一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段,或者只有Map阶段;
⚫ 不能有诸如多个map阶段、多个reduce阶段的情景出现;
⚫ 如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序串行运行。
MapReduce数据类型
⚫ 注意:整个MapReduce程序中,数据都是以kv键值对的形式流转的;
⚫ 在实际编程解决各种业务问题中,需要考虑每个阶段的输入输出kv分别是什么;
⚫ MapReduce内置了很多默认属性,比如排序、分组等,都和数据的k有关,所以说kv的类型数据确定及其重要的。
Hadoop框架入门
-
P1902-Apache Hadoop介绍、发展简史、现状
-
P2003-Apache Hadoop特性优点、国内外应用
-
P2104-Apache Hadoop发行版本、架构变迁
-
P2205-Apache Hadoop安装部署--集群组成介绍
-
P2306-Apache Hadoop安装部署--服务器基础环境设置
-
P2407-Apache Hadoop安装部署--安装包结构
-
P2508-Apache Hadoop安装部署--修改配置文件、同步安装包与环境变量
-
P2609-Apache Hadoop安装部署--format初始化操作
-
P2710-Apache Hadoop安装部署--集群启停命令、Web UI页面
-
P2811-Apache Hadoop安装部署--初体验
-
P2912-传统文件系统在大数据时代面临的挑战
-
P3013-场景互动:分布式存储系统的核心属性及功能作用
-
P3114-HDFS简介、设计目标与应用场景
-
P3215-HDFS重要特性解读
-
P3316-HDFS shell命令行解释说明
-
P3417-HDFS shell命令行常用操作
-
P3518-HDFS工作流程与机制--各角色职责介绍与梳理
-
P3619-HDFS工作流程与机制--写数据流程--pipeline、ack、副本策略