Hadoop MapReduce

news2024/11/24 16:41:12

目录

      • 1.1 MapReduce介绍
      • 1.2 MapReduce优缺点
        • MapReduce实例进程
        • 阶段组成
      • 1.3 Hadoop MapReduce官方示例
        • 案例:评估圆周率π(PI)的值
        • 案例:wordcount单词词频统计
      • 1.4 Map阶段执行流程
      • 1.5 Reduce阶段执行流程
      • 1.6 Shuffle机制

1.1 MapReduce介绍

MapReduce的思想核心是“先分再合,分而治之”。
所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最终结果。

  • Map第一阶段,负责“拆分”:即把复杂的任务分解为若干个“简单的子任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系
    拆分前提: 可并行计算+没有依赖关系
  • Reduce第二阶段,负责“合并”:即对map阶段的结果进行全局汇总。
    在这里插入图片描述
  • MapReduce借鉴了函数式语言中的思想,用Map和Reduce两个函数提供了高层的并行编程抽象模型。
    map: 对一组数据元素进行某种重复式的处理;
    reduce: 对Map的中间结果进行某种进一步的结果整理
  • MapReduce最大的亮点在于通过抽象模型和计算框架把需要做什么(业务问题)与具体怎么做(技术问题)分开了,为程序员提供一个抽象和高层的编程接口和框架。
    程序员仅需要关心其应用层的具体计算问题,仅需编写少量的处理应用本身计算问题的业务程序代码
  • Hadoop MapReduce是一个分布式计算框架。
    分布式计算是一种计算方法,和集中式计算是相对的

1.2 MapReduce优缺点

优点:

  • 易于编程:Mapreduce框架提供了用于二次开发的接口
  • 良好的扩展性:当计算机资源不能得到满足的时候,可以通过增加机器来扩展它的计算能力。
  • 高容错性:Hadoop集群是分布式搭建和部署得,任何单一机器节点宕机了,它可以把上面的计算任务转移到另一个节点上运行,不影响整个作业任务得完成
  • 适合海量数据的离线处理:可以处理GB、TB和PB级别得数据量

局限性:MR主要是在离线计算领域

  • 实时计算性能差。MapReduce主要应用于离线作业,无法作到秒级或者是亚秒级得数据响应
  • 不能进行流式计算:流式计算特点是数据是源源不断得计算,并且数据是动态的;而MapReduce作为一个离线计算框架,主要是针对静态数据集得,数据是不能动态变化得

MapReduce实例进程

一个完整的MapReduce程序在分布式运行时有三类

  1. MRAppMaster:负责整个MR程序的过程调度及状态协调
  2. MapTask:负责map阶段的整个数据处理流程
  3. ReduceTask:负责reduce阶段的整个数据处理流程

阶段组成

  • 一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段,或者只有Map阶段;
  • 不能有诸如多个map阶段、多个reduce阶段的情景出现;
  • 如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序串行运行

在这里插入图片描述

  • 整个MapReduce程序中,数据都是以kv键值对的形式流转的

1.3 Hadoop MapReduce官方示例

  • 一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以
  • 由于MapReduce计算引擎天生的弊端(慢),当下企业中直接使用率已经很少了,所以在企业中工作很少涉及到MapReduce直接编程,但是某些软件的背后还依赖MapReduce引擎
  • 但是后续的新的计算引擎比如Spark,当中就有MapReduce深深的影子存在

案例:评估圆周率π(PI)的值

蒙特卡洛方法计算,在平面上随机撒点

node1上:

jps  #验证Hadoop是否启动
start-all.sh #启动Hadoop
 
cd /export/server/hadoop-3.3.0/  #进入Hadoop安装包
cd share/
ll
cd hadoop/
ll
cd mapreduce/
ll
#可以看到一个jar文件
hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 2 2
#调用hadoop-mapreduce-examples-3.3.0.jar文件
#后面三个参数:pi表示MapReduce程序执行圆周率计算任务
#指定map阶段运行的任务task次数,并发度,这里是2;、
#每个map任务取样的个数,这里是2。

打开yarn页面:http://node1:8080/

案例:wordcount单词词频统计

统计文件中,每个单词出现的总次数
WordCount算是大数据计算领域经典的入门案例,相当于Hello World。

在这里插入图片描述
流程:

  1. map阶段的核心:把输入的数据经过切割,全部标记1,因此输出就是<单词,1>。
    splite后进入map。因为MR数据类型都要求是keyvalue类型

  2. shuffle阶段核心:经过MR程序内部自带默认的排序分组等功能,把key相同的单词会作为一组数据构成新的kv对
    根据key把他们分组,放在一起

  3. reduce阶段核心:处理shuffle完的一组数据,该组数据就是该单词所有的键值对。对所有的1进行累加求和,就是单词的总次数

操作:

  1. 准备数据:
    1.txt中存放要统计的内容
    打开node1:9870进入Hadoop (要先在node1上start-all.sh启动)
    在Hadoop上创建目录input,然后上传1.txt
  2. 运行官方示例:
    官方实例位于Hadoop中mapReduce中
hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input /outer
#依旧调用hadoop-mapreduce-examples-3.3.0.jar文件
#后面三个参数:wordcount表示执行单词统计任务;
#指定输入文件的路径
#指定输出结果的路径(该路径不能已存在);
  1. 查看结果
    打开hdfs,点进去ouput,有一个success是成功运行的标识文件,另一个文件显示输出结果
    在这里插入图片描述

1.4 Map阶段执行流程

Map阶段执行过程:

  1. 第一阶段:把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片规划。
    默认Split size = Block size(128M),每一个切片由一个MapTask处理。(getSplits)
    栗子:两个文件,文件a(300M)和文件b(200M),需要3+2个切片,5个MapTask处理
  2. 第二阶段:对切片中的数据按照一定的规则读取解析返回<key,value>对。
    默认是按行读取数据。key是每一行的起始位置偏移量,value是本行的文本内容。(TextInputFormat)
  3. 第三阶段:调用Mapper类中的map方法处理数据
  4. 第四阶段:按照一定的规则对Map输出的键值对进行分区partition。默认不分区,因为只有一个reducetask。分区的数量就是reducetask运行的数量。
  5. 第五阶段:Map输出数据写入内存缓冲区,达到比例溢出到磁盘上。溢出spill的时候根据key进行排序sort。默认根据key字典序排序。
    每次结果直接写入磁盘,io次数特别多,所以选择缓冲一下。类似水流打开冲击地面压力大,选择用一个杯子来缓冲,水杯接满一次倒地上一次,载接满再到地上
    缓冲区满了—即溢出spill
  6. 第六阶段:对所有溢出文件进行最终的merge合并,成为一个文件。最后合并成一个文件
    在这里插入图片描述
    input输入
    split切片,几个block数据块几个切片,
    memory buffer:缓冲区
    spill 溢写:同时sort排序
    merge合并成一个文件

1.5 Reduce阶段执行流程

  1. 第一阶段:ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据。
    map运行完后就把数据放在自己运行的本地,是reduce主动出击
  2. 第二阶段:把拉取来数据,全部进行合并merge,即把分散的数据合并成一个大的数据。再对合并后的数据排序
    map阶段有多个maptask,数据从三个地方拉过来,所以需要合并
  3. 第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法。最后把这些输出的键值对写入到HDFS文件中。

copy — 合并排序 — 分组处理reduce

1.6 Shuffle机制

  • Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据

  • 而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理
    shuffle让数据有序

  • 一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffle。处于下面红框中:
    在这里插入图片描述

shuffle机制:是核心,但导致慢,慢的原因:数据在内存、磁盘之间的多次往复

  1. Shuffle是MapReduce程序的核心与精髓,是MapReduce的灵魂
  2. Shuffle也是MapReduce被诟病最多的地方所在。MapReduce相比较于Spark、Flink计算引擎慢的原因,跟Shuffle机制有很大的关系。
  3. Shuffle中频繁涉及到数据在内存、磁盘之间的多次往复
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/373878.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

BigScience bloom模型

简介项目叫 BigScience,模型叫 BLOOM,BLOOM 的英文全名代表着大科学、大型、开放科学、开源的多语言语言模型。拥有 1760 亿个参数的模型.BLOOM 是去年由 1000 多名志愿研究人员,学者 在一个名为“大科学 BigScience”的项目中创建的.BLOOM 和今天其他可用大型语言模型存在的一…

信号的FFT变换与加窗

1. fft 傅里叶变换 1.1 傅里叶变换的本质 数学上有一种公式叫做 泰勒展开&#xff1a; 泰勒公式&#xff1a; 其表达的思想&#xff0c;是任意一函数可以有多个指数函数构成 当指数函数的个数趋近于无穷多个&#xff0c;那么组合出来的函数将会逼近原函数&#xff1b; …

Pandas数据查询

Pandas数据查询 Pandas查询数据的几种方法 df.loc方法&#xff0c;根据行、列的标签值查询 df.iloc方法&#xff0c;根据行、列的数字位置查询 df.where方法 df.query方法 .loc既能查询&#xff0c;又能覆盖写入&#xff0c;强烈推荐&#xff01; Pandas使用df.loc查询数据…

深度学习基础(二)-学习是怎么个回事

深度学习基础(一) 引入了一个 helloworld&#xff0c;提出了神经网络的简单关系&#xff0c;也就是一个基础公式 a(L) Sigmoid( a(L-1)*W(L) b(L)) a(L): 第L层神经元被激活之后 进行Sigmoid函数收敛 得到的值 b(L): 第L层神经元被激活阈值 W(L): 第L层神经元 与 第L-1层…

Android安卓中jni封装代码打包为aar

前文【Android安卓中jni与Java之间传递复杂的自定义数据结构】已经介绍jni编译c++代码且已经成功封装成java,但是c++是以源代码形式继承在app中,本文介绍如何将前述jni c++代码以隐藏源代码封装成aar的形式。 1、aar打包 1.1、新建module 按照流程 File -> New Module …

学习周报2.26

文章目录前言文献阅读摘要方法结果深度学习Encoder-Decoder&#xff08;编码-解码&#xff09;信息丢失的问题Attention机制总结前言 This week,I read an article about daily streamflow prediction.This study shows the results of an in-depth comparison between two di…

Oracle-RAC集群主机重启问题分析

问题背景: 在对一套两节点Oracle RAC19.18集群进行部署时&#xff0c;出现启动数据库实例就会出现主机出现重启的情况&#xff0c;检查发现主机重启是由于节点集群被驱逐导致​。 问题: 两节点Oracle RAC19.18集群,启动数据库实例会导致主机出现重启。 问题分析: 主机多次出现…

2023年第八周总周结 | 开学倒数第一周

为什么要做周总结&#xff1f; 1.避免跳相似的坑 2.客观了解上周学习进度并反思&#xff0c;制定可完成的下周规划 一、上周存在问题 发现自己反复犯同样问题&#xff0c;不想反思就不会意识到。总想以面带点的学习&#xff0c;实际上却在原地踏步。问题导向使用ChatGPT&#…

目标检测:DETR详解

1. 概述 DETR: End-to-End Object Detection with Transformers, DETR 是 Facebook 团队于 2020 年提出的基于 Transformer 的端到端目标检测,是Transformer在目标检测的开山之作 – DEtection TRansformer。 相比于传统的Faster-rcnn,yolo系列,DETR有以下几个优点:1).无需…

微信实时音视频通话数据流分析

一、实时音视频的架构 实时音视频通信架构主要包括P2P、SFU、MCU三种方式&#xff0c;其中点对点通信通常以P2P优先&#xff0c;P2P走不通的场景再借助于SFU/MCU。 P2P方式&#xff0c;终端之间点对点的相互收发数据流&#xff0c;音视频流不经过服务器&#xff1b; SFU是端侧…

scrapy下载图片

&#x1f431; 个人主页&#xff1a;莎萌玩家&#x1f64b;‍♂️ 作者简介&#xff1a;全栈领域新星创作者、专注于全栈各领域技术&#xff0c;共同学习共同进步&#xff0c;一起加油呀&#xff01;&#x1f4ab;系列专栏&#xff1a;网络爬虫、WEB全栈开发&#x1f4e2; 资料…

二叉树的后序遍历-java递归+非递归-力扣145双百方案

一、题目描述给你一棵二叉树的根节点 root &#xff0c;返回其节点值的 后序遍历 。示例 1&#xff1a;输入&#xff1a;root [1,null,2,3]输出&#xff1a;[3,2,1]示例 2&#xff1a;输入&#xff1a;root []输出&#xff1a;[]示例 3&#xff1a;输入&#xff1a;root [1]…

使用jenkins实现自动化部署springboot应用

1. 前置准备 这里代码仓库使用gitlab。在介绍如何通过gitlab和jenkins进行自动化部署之前&#xff0c;需要先安装完成gitlab以及jenkins。两种程序的安装方式以及相关配置可以参看以下内容&#xff1a; linux中安装gitlab&#xff1a;linux安装极狐gitlab linux中安装jenki…

Objective-C description 自定义对象的打印格式/输出的字符串 类似于Java 中的 toString 方法

总目录 iOS开发笔记目录 从一无所知到入门 文章目录IntroNSObject 源码测试类截图测试代码输出Intro 在 Java 中&#xff0c;对于自定义类一般会重写集成自Object类的toString方法&#xff0c;这样在打印该类的对象时&#xff0c;打印出的字符串就是我们在 toString() 方法中返…

【Vue3源码】第六章 computed的实现

【Vue3源码】第六章 computed的实现 上一章节我们实现了 ref 及其它配套的isRef、unRef 和 proxyRefs API。这一章开始实现computed计算属性。 认识computed 接受一个 getter 函数&#xff0c;返回一个只读的响应式 ref 对象。该 ref 通过 .value 暴露 getter 函数的返回值。…

[架构之路-121]-《软考-系统架构设计师》-计算机体系结构 -3-汇编语言与ARM系统的初始化

第9章 计算机体系结构 第1-6节 参考前文第7节 ARM汇编语言7.1 程序框架&#xff08;1&#xff09;数据段Data初始化的数据&#xff1a; 初始的全局变量未初始化的数据&#xff1a;未初始化的全局变量堆heap&#xff1a;malloc的内存或数据栈stack&#xff1a;函数的局部变量&am…

ubuntu20系统+RobotiQ 2F-85夹爪+Ros+VMware配置

文章目录环境说明Ros配置Vmware虚拟机串口通信配置运行节点并调试有关问题解决办法rosdep相关缺少ros有关的库与pymodbus相关参考环境说明 环境说明系统版本Ubuntu 20.04.4Ros版本noetic主机形式VMware虚拟机夹爪型号RobotiQ 2F-85 Ros配置 新建ros工作空间并进行初始化 mkdir…

Nginx配置web服务器及部署反向代理

Nginx配置web服务器及部署反向代理配置web服务器location语法部署反向代理代理转发配置web服务器 项目部署到linux上的静态文件代理给Nginx处理。当访问服务器IP时&#xff0c;可以自动返回静态文件主页。 主配置文件中server块对应的次配置include /etc/nginx/conf.d/*.conf…

ESP-01S烧录MQTT固件连接阿里云

烧录MQTT固件 资源下载包 用到的所有烧录攻击和固件都放百度云链接了 提取码&#xff1a;qwlo 烧录固件 淘宝上10块钱左右一个CH340C下载烧录器ESP8266的就可以了。 连接好硬件打开ESPFlashDownloadTool_v3.6.2.2.exe软件&#xff08;记得放到英文目录下不然可能打不开&a…

windows服务编程

文章目录前言方案一&#xff1a;服务程序方案二&#xff1a;后台程序对比windows服务编程windows服务控制附录 - 完整代码前言 在linux中&#xff0c;如果需要一个程序在后台持续提供服务&#xff0c;我们一般会使用守护进程。 守护进程(daemon)是生存期长的一种进程。它们常…