干翻Hadoop系列:MapReduce详解

news2025/2/28 6:26:46

第一章:MapReduce原理

数据存储在分布式文件系统中HDFS里边,通过使用Hadoop资源管理系统YARN,Hadoop可以将MapReduce计算,转移到有存储部分的数据的各台机器上。

一:概念和原理

1:MapReduce作业

MapReduce作业被称为一个工作单元。
1:一个工作单元的逻辑组成元素:输入数据、MapReduce程序、配置信息。
2:Hadoop将工作单元划分成多个任务(Task)任务有两类(Map和Reduce)。
3:Task任务运行在HDFS集群上,通过YARN进行调度。
4:一个任务失败,将在集群节点上自动重新调度运行。

2:分片

1):分片概念

MapReduce输入数据是等长的小数据块称为分片。一个分片对应一个Map任务,对应任务运行用户定义的map函数,从而处理分片中的每条记录。

2):分片大小

事实A:块越小,从磁盘到内存中的内容越少,计算越快。从这个角度越小越好
事实B:HDFS分块,是越大越好。越大,总体寻址开销小,越小的话,内容中需要存150B字节的源数据,块越小导致内存不够用。
两者相悖,取折中的办法,一秒钟机械磁盘的传输速率100MB,所以这里取得块的大小是128MB
事实C:分片比块大,一个分片需要读多个块,大概率多个块不在在一台物理机,导致网络IO
事实D:分片比快小,多个分片运行一个快,引发单个块如何划分给多个Map任务的问题。
结论:最理想的状态就是一个分片对应一个HDFS的块的大小

在这里插入图片描述

3:Map任务

1:Map任务将会把任务作为Reduce任务的入参
2:Map任务产出结果存储在磁盘而非HDFS,杀鸡用不到宰牛刀,HDFS里边还得做数据副本,也就是数据备份。
3:Map任务结果丢失或者传输失败怎么办?其他节点在走一遍。

4:Reduce任务

Reduce任务没数据本地化的这一说。单个Reduce任务输入来自于所有Map任务的输出。Reduce任务首先进行数据合并,数据合并为一个整体之后进行Reduce任务处理。处理完毕之后Reduce任务结果需要基于网络带宽写入到HDFS里边。

在这里插入图片描述
该图 清晰的表示了Map任务和Reduce任务之间的关系是混洗(shuffle)

在这里插入图片描述

二:组合器函数combiner

组合器函数是一个优化项,减少Map与Reduce之间的网络传输的带宽。
本质上是对Map函数处理结果的组合和精简。让Map和Reduce之间传输的数据量变小。

第二章:关于MapReduce

一:MapReduce应用开发

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/426661.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【机器学习】P16 激活函数 Activation Function

对于激活函数(Activation Function),存在两个问题: 为什么要用激活函数?如何选择用哪种激活函数?如何使用激活函数? 本博文将围绕这两个问题,首先介绍激活函数的作用,从…

2023腾讯云轻量应用服务器性能评测

腾讯云轻量应用服务器性能如何?CPU型号主频、内存、公网带宽和系统盘存储多维对比,轻量应用服务器会不会比云服务器CVM性能差?相对于CVM云服务器轻量服务器更适合轻量级的应用,轻量服务适合中小企或个人开发者用于搭建We网站b应用…

利用Python生成和识读二维码(QR Code)和微二维码(Micro QR Code)

目录一、环境准备二、二维码(QR Code)生成和读取2.1 生成二维码2.2 读取二维码三、微二维码(Micro QR Code)生成和读取3.1 生成微二维码3.2 读取微二维码之前写的一篇 博客采用了segno库来做微二维码的生成,该库可以方…

AD9689 input clock not detect

在项目调试中,遇到的问题,在ADI论坛上发帖咨询,转发到这里。网址如下: AD9689 input clock not detect - Q&A - High-Speed ADCs - EngineerZone (analog.com) Our FPGA board has two AD9689,one works ok, but…

使用Marshaller 将Java对象转化为XML格式和字符串转为xml

使用Marshaller 将Java对象转化为XML格式 对象转xml内容 ①工具类 public static String convertObjectToXml(Object obj) throws Exception {StringWriter writer new StringWriter();// 创建 JAXBContext 和 MarshallerJAXBContext context JAXBContext.newInstance(obj.ge…

MySQL客观题

MySQL客观题 在数据库的三级模式结构中,描述数据库中全体数据的全局逻辑结构和特性的是( A ) A 模式 B 内模式 C 存储模式 D 外模式 数据库系统的特点是( A )、数据独立、减少数据冗余、避免数据不一致和加强了数据保…

自定义jar项目上传到Maven中央仓库/maven仓库/阿里云效仓库

1.前言 如何把自己的项目Jar或者Starter上传到Maven中央仓库中。 2.https://issues.sonatype.org/注册账号 3.注册成功 登录新建项目 摘要随意填写 重点来了 groupId 如果有自己域名的就自己域名com.xxx 如果用的gitee那么填写com.gitee.自己gitee的用户名 projectUrl&…

ASEMI代理AD8603AUJZ-REEL7原装ADI车规级AD8603AUJZ-REEL7

编辑:ll ASEMI代理AD8603AUJZ-REEL7原装ADI车规级AD8603AUJZ-REEL7 型号:AD8603AUJZ-REEL7 品牌:ADI /亚德诺 封装:SOT-23-5 批号:2023 安装类型:表面贴装型 引脚数量:5 类型&#xff1…

WOT全球技术创新大会2023整装待发,一起去见证科技的力量

从2012年开始,51CTO已经连续11年、累计奉献了19场WOT全球技术创新大会。 11年时间,有的技术如神话般崛起又泡沫般消失;有的技术历经时光磨砺而愈发彰显价值;有的技术充满争议而争议还在继续。 为什么我们会持续策划、举办WOT&am…

Pyspark_用户画像项目_1(数据通过Sqoop导入到Hive中)

Pyspark 注:大家觉得博客好的话,别忘了点赞收藏呀,本人每周都会更新关于人工智能和大数据相关的内容,内容多为原创,Python Java Scala SQL 代码,CV NLP 推荐系统等,Spark Flink Kafka Hbase Hi…

bdydns.com是什么网站?

bdydns.com是网站域名接入百度云CDN后,域名CNAME解析的记录值。网站接入百度云CDN,需要添加CNAME域名解析,例如新手站长网接入百度CDN后,域名CNAME解析到百度CDN地址:www.xinshouzhanzhang.com.a.bdydns.com&#xff0…

DQN算法详解

DQN算法详解 一.概述 强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法…

两层神经网络的参数求导过程

假设输入数据 x∈Rnx\in\mathbb{R}^nx∈Rn,两层神经网络有以下形式: 其中 W1∈RhnW_1\in\mathbb{R}^{h\times n}W1​∈Rhn 和 W2∈RmhW_2\in\mathbb{R}^{m\times h}W2​∈Rmh 分别是第一层和第二层的权重矩阵,b1∈Rhb_1\in\mathbb{R}^hb1​∈…

如何高效地设计测试用例并评审

编写出好的测试用例是每一个测试工程师的职责,但在实际工作中大家写的测试用例往往需要不断地修改才能使用,这不仅浪费了时间,还容易让测试工程师产生自我否定的情绪,甚至在团队中产生各种矛盾。 那如何高效地设计测试用例呢&…

一日一题:第十一题---模拟堆(很认真!)

​作者:小妮无语 专栏:一日一题 🚶‍♀️✌️道阻且长,不要放弃✌️🏃‍♀️ 哭了,一定要记录,为了,写这篇文章千辛万苦 堆笔记 题目描述: 维护一个集合,初始…

javaagent 使用注意

前言 最近做项目,需要实现一个agent,实现运行过程替换字节码,当笔者实现这些功能时发现还是很多注意事项的。而且字节码的替换过程如果类的属性与方法升级了,那么加载就会报错。这种做法的好处是代码无侵入,缺点也很明…

离散化的应用

前言:我们了解离散化的都知道,离散化的本质就是将几个差距很大的数映射成相差较小的数据,同时又保证了数据间的相对大小关系不会发生改变,离散化还是有些争议较大的问题的,比如去重问题等,下面我们就来深入…

从抓包的角度分析connect()函数的连接过程

这篇文章主要是从tcp连接建立的角度来分析客户端程序如何利用connect函数和服务端程序建立tcp连接的,了解connect函数在建立连接的过程中底层协议栈做了哪些事情。 tcp三次握手 在正式介绍connect函数时,我们先来看一下tcp三次握手的过程,下…

用孕妇的思维和孕妇对话——《用孩子的思维和孩子对话》

看惯了某鱼上经典的卖货话术,“不懂事怀孕了,遂出”。没想到我居然也快要当爸爸了。这几个月准爸爸的生活让我切身的体会到了孕妇的不容易以及陪伴孕妇的辛苦。本文不打算歌颂母亲或者替准爸爸们倒苦水,单纯总结思考一下孕期夫妻如何沟通。加…

360度全景拍摄,探索全景世界带你飞跃视野新高度

引言: 随着科技的不断发展和进步,数字媒体技术也得到了长足的发展和应用。其中,全景拍摄作为数字媒体领域的一项创新技术,能够为人们提供更加直观、真实和生动的视觉体验,广泛应用于旅游、房地产、商业推广和教育培训…