切片机制和MR工作机制

news2024/9/20 0:57:12

InputFormat基类

  • TextInputFormat:TextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量, LongWritable类型。

  • CombineTextInputFormat:CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。

  • CombineTextInputFormat切片机制

    • 虚拟存储过程:将输入目录下所有文件大小,依次和设置的setMaxInputSplitSize值比较;
      • 小于maxSplitSize:逻辑上划分1块
      • 大于2*maxSplitSize:以最大值划分一块
      • 介于之间时:均分为2块
    • 切片过程
      1. 判断虚拟文件大小是否大于max切片大小
      2. 大于时,单独形成一个切片
      3. 小于时,跟下一个虚拟存储文件进行合并,共同形成一个切片。

切片机制

数据倾斜问题:某个切片的大小太小,浪费了MapTask的CPU资源。
如果剩余数据长度大于128*1.1, 就切片成2份。

MapReduce工作机制

Map阶段

  1. 索引id是哈希和字典序的结合,形象上可以将索引id看做key来进行快排。
  2. 对索引id对索引进行快速排序
  3. 写入磁盘,需要按照分区进行写入,整体有序,分区写入时局部也是有序的。写入时是通过索引在环形缓冲区的右侧数据部分查找对应的数据。
  4. 环型缓冲区一般为100M,实际是指Map的读取数据写入缓冲区和缓冲区索引快排后溢写磁盘的那种往返行为,两者的方向是相反的,一般来说进行快排和溢写(是追加写)的速度是很快的,可以保证写入数据无需等待同时进行,提升效率。
  5. Map在进行溢写后会产生很多局部有序的分区文件,将数据交付给Map前会先进行归并排序,将局部有序的分区文件合并为整体有序的分区数据。

Reduce阶段

  1. copy:从不同Map中拉取分区后的数据
  2. sort:由于是不同Map中的数据,仍然是局部有序,整体无序的数据,Reduce需要将其进行归并排序成为整体有序的数据。
  3. reduce:进行数据的计算

Shuffle机制

Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。

  1. Combiner操作:归并排序后有一次默认的合并操作,第二次合并需要考虑溢写的次数,由于combine合并时需要从磁盘读取数据,数据数量太少时进行合并效率并不高。
  2. Combiner操作是将计算过程提前到了Map阶段,由于Map阶段的数据量较少,一般情况下每次最多128M的数据,减少Reduce阶段的压力。
  3. 进行combiner操作后的结果会一部分放入内存,一部分放入磁盘,后续使用时需要分别进行归并排序合并总体结果,公共需要进行3次归并排序。
  4. 当设置reduceNum为0时,只有map阶段,没有reduce阶段,就没有shuffle阶段。

Partition分区

默认分区器

  1. 分区操作在map阶段之后
  2. key.hashCode() & Integer.MAX_VALUE去除负数
  3. reduce阶段中有默认分区器:
    • 相同的key永远进入同一个分区
    • 不同的key有可能进入不同分区
    • 分区无论怎么算都不会有负数诞生,已经不会超过reduce的上限
  4. 如果对输出结果有具体的分区要求,需要定义分区,继承Partition类
    • 根据业务逻辑定义分区数量
    • 分区数量确定时,分区号已经确定了
    • 如果分区数量大于返回的分区号,会导致reduce空转
    • 如果reduce的数量小于返回的分区号,会报错
    • 当分区数为1时,代码会使用默认的分区器

Combiner合并

  1. Combiner是MR程序中的Mapper和Reducer之外的一种组件
  2. Combiner组件的父类就是Reducer
  3. Combiner和Reducer的区别在于运行的位置
    - Combiner是在每一个MapTask所在的节点运行
    - Reducer是在ReduceTask节点运行
  4. 本质上代码都是一样的,可以直接使用原本的Reduce类作为Combiner类
  5. 如果将ReduceTask的数量设置为0,Combiner将直接不执行,输出结果连排序都没有做,在map阶段直接退出了。即shuffle和reduce两个过程都没有执行。

OutputFormat数据输出

基本上不需要自己实现,有很多现成的工具类,比如Flume, 除非您的公司有自己的文件系统,否则不需要自己操心。

总结

  1. MapTask做了什么?
    • input = 切割 + 读取
    • map:环形缓冲区溢写
    • sort:快排后写入磁盘
  2. ReduceTask做了什么?
    • copy阶段:ReduceTask从各个MapTask上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。
    • sort阶段:对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。
    • reduce阶段:进行数据的规约合并并将结果写入HDFS。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/988770.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是正向代理和反向代理

一、什么是正向代理 正向代理(Forward Proxy)是一种代理服务器,它位于客户端和服务端之间,代表客户端向其他服务器发送请求。 一般使用的场景就是,当客户端无法直接访问某些资源时,可以通过正向代理来访问…

QML实现文件十六进制数据展示

前言 将一个二进制文件直接拖放到Qt Creator中可以直接查看到以十六进制显示的数据格式,如: 要实现一个这样的效果,还是要花不少时间的。 在网上找了挺多示例,其中一个开源代码效果不错(参考这里)&#…

Linux:【Mysql】Centos7安装mysql8.0

目录 一、环境及版本介绍 二、安装前准备 三、开始安装 一、环境及版本介绍 Linux环境:Centos7 Mysql版本:8.0.26 安装时使用的用户:root 二、安装前准备 1.1、下载Centos7镜像 网上寻找相关资源即可 1.2、下载VMwareWorkstation Pro并…

cpolar内网穿透

目录 一、引言二、什么是cpolar三、内网穿透四、如何使用cpolar1、下载cpolar软件安装包2、注册cpolar账号3、使用cpolar 一、引言 当我们完成了一个tomcat的web项目之后,如果我们想让其他电脑访问到这个项目,我们可以让其他电脑和本机连接到同一个局域…

python如何学习

功能如此强大、高效的Python,却非常的简单好学,这让学它的同学爱不释手,也让越来越多的互联网企业开始用Python来做主要的开发语言,比如谷歌、Facebook(现Meta)、豆瓣、知乎等知名互联网公司都在使用Python…

idea2018修改大小写提示(敏感)信息

操作步骤如下: File > Settings > Editor > Code Completion > Code Completion(默认是首字母,选为none将不区分大小写)

花生壳内网穿透+Windows系统,如何搭建网站?

1. 准备工作 在百度搜索“Win7下安装ApachePHPMySQL”,根据搜到的教程自行安装WAMP环境。 如果在网页上键入http://127.0.0.1/ 出现以下页面表示您的服务器已经建好,下一步就是关键,如何通过花生壳内网穿透,让外网的用户访问到您…

1.4 空间中的曲线和曲面

空间中的曲线与曲面 知识点1 曲面方程定义 定义1 如果曲面 S 与方程F (x,y,z ) 0 有下述关系: (1) 曲面 S 上的任意点的坐标都满足此方程 (2)不在曲面S上的点的坐标不满足此方程 则F(x,y,z&#xff0…

无涯教程-JavaScript - IMEXP函数

描述 IMEXP函数以x yi或x yj文本格式返回复数的指数。复数的指数为- $$e ^ {((x yi)} e ^ xe ^ {yi} e ^ x(\cos y i \sin y)$$ 语法 IMEXP (inumber)争论 Argument描述Required/OptionalInumberA complex number for which you want the exponential.Required Not…

第一章: Mysql体系结构和存储引擎

文章目录 1.1 定义数据库和实例1.2 Mysql体系结构1. 3 Mysql存储引擎1. 4 常见问题解答1.5 存储引擎相关操作语法1.6 连接Mysql 1.1 定义数据库和实例 数据库和实例的区别? 数据库是物理操作系统或其他形式文件的集合(数据库是文件的集合,是依…

Numpy包常用科学计算方法总结

numpy包的计算性能是python原始方法计算性能的几十倍到几百倍 一、引入numpy包: import numpy as np 二、创建数组: #定义一个pyth…

微信分账报错1908(请求中含有未在API文档中定义的参数)

开发指引-分账 | 微信支付合作伙伴平台文档中心 问题描述:根据微信分账文档,在下单接口添加是否分账参数后,报错如下 Client error: POST https://api.mch.weixin.qq.com/v3/pay/partner/transactions/jsapi 400 Bad Request {"code…

golang教程 beego框架笔记一

安装beego 安装bee工具 beego文档 # windos 推荐使用 go install github.com/beego/bee/v2master go get -u github.com/beego/bee/v2masterwindows使用安装bee工具时碰到的问题; 环境配置都没有问题,但是执行官网的命令:go get -u github…

Cadence Allegro如何添加/生成测试点?

Allegro因其功能强大、界面灵活、可适应切换复杂项目的需求,很快成为全球最受欢迎的EDA软件之一,而很多工程师在Allegro软件中添加测试点,这样做的好处是为了进行电路的功能测试和故障诊断,那么如何在Allegro添加/生成测试点&…

【Git】Git 分支

Git 分支 1.分支简介 为了真正理解 Git 处理分支的方式,我们需要回顾一下 Git 是如何保存数据的。 或许你还记得 起步 的内容, Git 保存的不是文件的变化或者差异,而是一系列不同时刻的 快照 。 在进行提交操作时,Git 会保存一…

Python 网页爬虫原理及代理 IP 使用

目录 前言 一、Python 网页爬虫原理 二、Python 网页爬虫案例 步骤1:分析网页 步骤2:提取数据 步骤3:存储数据 三、使用代理 IP 四、总结 前言 随着互联网的发展,网络上的信息量变得越来越庞大。对于数据分析人员和研究人…

基于antd+vue2来实现一个简单的绘画流程图功能

简单流程图的实现&#xff08;基于antdvue2的&#xff09;代码很多哦~ 实现页面如下 1.简单操作如下 2.弹框中使用组件&#xff1a; <vfdref"vfd"style"background-color: white;":needShow"true":fieldNames"fieldNames"openUse…

押中AIGC 美图终于认清了自己

随着美图公布中期业绩&#xff0c;该公司的股价再度站上3港元&#xff0c;虽然这个股价距离今年7月创造的年内新高3.56港元还有点距离&#xff0c;但这已经是这家公司过去一年半都未能突破的点位。 股价回升得益于美图公布的惊人业绩。据2023年度中期业绩报告&#xff0c;该公…

javaWeb录入数据异常,mysql显示错误

由于项目,需要输入 电脑的mac地址 ,在web页面中进行录入,但是某个同事录入一直有问题,数据查询时使用 in 或者 都查询不到 通过like %% 可以查询到,非常奇怪,请广大网友不吝赐教. 通过 toHex 进行显示发现 数据开头多了 E2808E