MapReduce概述

news2026/3/28 20:56:44

MapReduce概述

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

MapReduce优缺点

优点

MapReducer易于编程
良好的扩展性
高容错性
适合PB级以上海量数据的离线处理

缺点

不擅长实时计算

不能在毫秒或秒级内返回结果
不擅长流式计算

流式计算的输入数据是动态的。MapReducer的输入数据是静态的，不能动态变化。
不擅长DAG（有向无环图）计算

多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

MapReduce核心思想

MapReducer运算程序一般需要分为2个阶段：Map阶段和Reducer阶段
Map阶段的并发MapTast，完全并行运行，互不相干
Reduce阶段的并发ReduceTask，完全互不相干，但数据依赖上个阶段的所有MapTask并发实例的输出
MapReducer编程模型只能包含一个Map阶段和一个Reduce阶段。如果业务逻辑非常复杂，那么只能多个MapReducer程序串行运行。

MapReduce进程

一个完整的MapReducer程序在分布式运行时有三类实例进程：

MrAppMaster：负责整个程序的过程调度及状态协调
MapTask：负责Map阶段整个数据处理流程
ReduceTask：负责Reduce阶段的整个数据处理流程

MapReduce编程规范

序列化

Hadoop常用数据序列化类型

在这里插入图片描述

什么是序列化

序列化 就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。

反序列化 就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。

为什么要序列化

Hadoop是一个集群。在集群上运行MapReduce任务时，Map阶段和Reduce阶段不一定在同一台机器上，可能需要跨网络传输。因此需要序列化。

为什么不用Serializable

Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，Header，继承体系等），不便于在网络中高效传输。所以，Hadoop自己开发了一套序列化机制（Writable）。

Hadoop序列化特点：

紧凑：高效使用存储空间
快速：读写数据的额外开销小
互操作：支持多语言的交互

自定义bean对象

实现Writable接口
反序列化时，需要反射调用空参构造函数
重写方法 write 和 readFields 方法
注意反序列化的顺序和序列化的顺序完全一致
要想把结果显示在文件中，需要重写toString()

Mapper

继承Mapper类
Mapper阶段输入数据时kv对的形式
setup()方法在一个MapTask任务开始时执行一次(整个任务只执行一次)
业务逻辑写在map()方法中
map()方法（MapTask进程）对每一个<K,V>调用一次
clearup()方法在一个MapTask任务结束时执行一次

Reducer

继承Reducer类
Reducer的输入数据类型对应Mapper的输出类型
Reducer的业务逻辑写在reduce()方法中
ReduceTask进程对每一组相同k的<K,V>调用一次reduce()方法

Driver

相当于YARN集群的客户端，用于提交整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数的job对象

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/3343.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【优化算法】鹈鹕优化算法（POA）（Matlab代码实现）

【优化算法】鹈鹕优化算法（POA）（Matlab代码实现）

💥💥💥💞💞💞欢迎来到本博客❤️❤️❤️💥💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑…

阅读更多...

ARMv7/ARMv8/ARMv9架构你不知道的那些事

ARMv7/ARMv8/ARMv9架构你不知道的那些事

快速链接: . 👉👉👉 个人博客笔记导读目录(全部) 👈👈👈 付费专栏-付费课程【购买须知】: 【精选】ARMv8/ARMv9架构入门到精通-[目录] 👈👈👈 以下仅代表个人观点&…

阅读更多...

七大排序算法——快速排序

七大排序算法——快速排序

AcWing算法专题——快速排序文章目录AcWing算法专题——快速排序前言一、快速排序的核心二、算法图示三、算法代码四、算法详解1.递归停止的条件2.下标移动的实现3.下标初始值的设定4.边界情况分析4.1区间划分4.2 do while循环条件五、思考题总结前言现在我们开始进入算法模块…

阅读更多...

【第一章虚拟机】

【第一章虚拟机】

第一章虚拟机 1. 虚拟机VM ①虚拟机就是一台虚拟的计算机，它是一款软件，用来执行一系列虚拟计算机指令。 ②虚拟机分为系统虚拟机和程序虚拟机。系统虚拟机（比如VMware）,它们完全是对物理计算机的仿真，提供了一个可运…

阅读更多...

瑞芯微rk3568移植openbmc（三）

瑞芯微rk3568移植openbmc（三）

2022.11.04 更新 1、关于h264 novnc openbmc中使用的ipkvm其server端调用的是libvncserver库，而其web client端调用的则是novnc的库，既上篇研究修改了libvncserver后，再次继续研究了一下novnc。 Github搜索一圈以后，发现https://…

阅读更多...

Java设计模式之单例模式详细讲解

Java设计模式之单例模式详细讲解

设计模式与单例模式 1、什么是单例模式单例模式是指保证某个类在整个软件系统中只有一个对象实例，并且该类仅提供一个返回其对象实例的方法（通常为静态方法） 2、单例模式的种类经典的单例模式实现方式一般有五种 2.1 饿汉式 //…

阅读更多...

【SpringBoot】SpringBoot整合SpringSecurity+thymeleaf实现认证授权（配置对象版）

【SpringBoot】SpringBoot整合SpringSecurity+thymeleaf实现认证授权（配置对象版）

一.概述 1.框架概述 Spring Security 是 Spring 家族中的一个安全管理框架，Spring Security 的两大核心功能就是认证（authentication）和授权（authorization）。认证 ：你是什么人。授权 ：你能…

阅读更多...

RHCE学习 --- 第一次作业

RHCE学习 --- 第一次作业

RHCE学习 — 第一次作业首先我们先设置网卡开机自动启动 vi /etc/sysconfig/network-scripts/ifcfg-ens160 最下面修改ONBOOTyes 然后安装好chrony，配置/etc/chrony.conf文件，添加题目要求的时间服务器然后设置一个例行性工作，每天早上九…

阅读更多...

美国FBA海运专线究竟是什么?美国fba海运专线都有那些?

美国FBA海运专线究竟是什么?美国fba海运专线都有那些?

美国FBA海运专线究竟是什么?美国FBA特别航运线，顾名思义就是海运发送的特别货运线，那么它的收费标准是什么呢?一、美国FBA海运专线究竟是什么美国FBA特别航运线，顾名思义就是海运发送的特别货运线，那么它的收费标准是什么呢? …

阅读更多...

猿创征文｜『编程与创作』10款颜值颇高的宝藏工具

猿创征文｜『编程与创作』10款颜值颇高的宝藏工具

🌟个人主页：Mymel_晗，一名喜欢鼓捣 Java 的在校学生。 🌟撸代码本来是一件枯燥的事情，而一款高颜值工具加持可能会让你事半功倍，今天就给大家推荐一下我在大学学习中发现的几款颜值工具~ 从写代码&#xff…

阅读更多...

录音m4a怎么转换成mp3

录音m4a怎么转换成mp3

有小伙伴问手机录音文件电脑上播放不了怎么办？这是很多小伙伴在用手机录完音后遇到最多的问题，尤其是那些第一次遇到这个问题的人，根本不知道这是什么原因导致的，还总以为自己的录音文件出了问题，回去检查发现手机上还…

阅读更多...

03-Nginx性能调优与零拷贝

03-Nginx性能调优与零拷贝

目录 Nginx 性能调优零拷贝（Zero Copy） 零拷贝基础 A、实现细节 B、总结零拷贝方式 A、实现细节 B、总结 A、实现细节 B、总结 A、实现细节 B、总结 Nginx 性能调优在 Nginx 性能调优中，有两个非常重要的理论点（面试点…

阅读更多...

【C++红黑树】带图详细解答红黑树的插入，测试自己的红黑树是否正确的代码

【C++红黑树】带图详细解答红黑树的插入，测试自己的红黑树是否正确的代码

目录 1.红黑树的概念 1.1红黑树的特性（41） 2.红黑树的框架 3.红黑树的插入 3.1parent在grandfather的左边 3.1parent在grandfather的右边 4.测试自己的红黑树是不是平衡的 1.红黑树的概念红黑树，是一种二叉搜索树，但在每个…

阅读更多...

米联客FDMA3.1数据缓存方案全网最细讲解，自创升级版，送3套视频和音频缓存工程源码

米联客FDMA3.1数据缓存方案全网最细讲解，自创升级版，送3套视频和音频缓存工程源码

米联客的FDMA数据缓存方案发布也有五六年了，但真正能熟练使用的兄弟却很少，其实还是没有好的例程作为参考和同熟易懂的讲解，这里我做如下解析： FDMA部分：这部分是米联客封装了用户接口的AXI4-FULL协议代码，…

阅读更多...

xhs-web校验流程分析

xhs-web校验流程分析

经测试，cookie中需携带gid和timestamp2。参数整理有点乱，仅供参考。 xhsFingerprintV3，VERSION: ‘2.1.2’ 文章目录流程概述timestamp2滑块验证参数Params轨迹FNcaptcha deviceIdProfileDatax-s-commonx5生成x8生成x9生成smidV2a1x-b3-trac…

阅读更多...

Jenkins配置linux节点

Jenkins配置linux节点

之前在Windows下安装Jenkins 但是通过windows节点进行构建有诸多的不便，于是想到通过Jenkins里添加linux节点，让构建的时候，使用远程的linux服务器构建目录一、配置凭据二、配置节点一、配置凭据 Manage Jenkins → Manage Credentials→Je…

阅读更多...

Cadence Allegro PCB设计88问解析(十三) 之 Allegro中artwork层的建立

Cadence Allegro PCB设计88问解析(十三) 之 Allegro中artwork层的建立

一个学习信号完整性的layout工程师作为layout工程师，我们经常接触到的是PCB文件，用Cadence设计的是.brd文件。但是我们发给板厂的都是gerber文件。这就涉及到在我们设计好PCB文件之后，怎么把这些文件给到板厂。也就是我们Allegro中的artwork…

阅读更多...

Java知识点--IO流（上）

Java知识点--IO流（上）

Java知识点--IO流（上）一、文件1、文件的含义2、文件流二、常用的文件操作1、创建文件对象相关构造器和方法2、创建文件案例演示（三种创建方法）3、获取文件相关信息的方法4、获取文件相关信息方法案例演示5、目录的操作与删除6、应…

阅读更多...

电脑系统重装下载的系统在哪找到

电脑系统重装下载的系统在哪找到

因为现在很多人都在使用小白一键重装系统，但是很多人都不太能够了解小白系统重装下载的系统在哪儿，下面是小编提供的具体位置供大家参考。工具/原料： 系统版本：win10 品牌型号：联想yoga13 软件版本：小白…

阅读更多...

期货开户有什么规定

期货开户有什么规定

有很多朋友刚刚接触到资本市场，当他们听到期货时，他们觉得它非常遥远和高端，这是普通人无法接触到的。但事实上，情况并非如此。期货是一种非常普通的金融产品，很容易接触。让我们来看看期货开户有哪些必要条件以及有什…

阅读更多...

推荐文章

最新文章