MapReduce工作流程+Shuffle机制

MapReduce工作流程+Shuffle机制

news2024/12/26 4:29:58

一、Mapreduce工作流程

（1）数据切片Split。数据切片数决定maptask并行度，默认情况下，一个切片大小=块大小。切片不是针对整体数据集，而是针对每一个文件单独切片，所以会有小文件问题（CombineTextInputFormat可用于小文件过多的场景，可以将多个小文件在逻辑上划分到一个切片中）。

（2）map。每个maptask并行执行，调用map方法对数据进行业务逻辑处理，并输出kv键值对。

（3）shuffle。shuffle过程从map方法输出outk outv键值对开始，键值对会被写入到环形缓冲区中，同时记录该条数据的分区信息（环形缓冲区一半记录数据的元数据信息，一半记录真实数据信息）当环形缓冲区写到80%的时候，环形缓冲区开始反向写入数据，并且已写入的80%数据开始溢写到磁盘（在真正写入磁盘之前，会在内存中首先按照key进行快速排序），一个mapTask可能会有多个溢写文件，这些文件在进入reduce之前，还会进行归并排序成一个大的溢写文件（如果有combiner，会在这先进行部分聚合）。reduceTask会从不同的mapTask主动拉取自己分区的数据，并对这些来自不同mapTask的数据再次进行归并排序，合并成一个大的文件，到这里shuffle阶段就结束了，之后就是调用reduce方法完成最终的聚合操作了。

（4）reduce。调用reduce方法，完成最后的逻辑聚合。

二、MapTask工作机制

一个MapTask总体上包含read、map、collect、溢写、merge五个阶段。

（1）read阶段。读取数据。

（2）map阶段。调用map方法处理输入的kv键值对。

（3）collect阶段。将map计算结果进行收集，写入到环形缓冲区。

（4）溢写阶段。环形缓冲区达到80%时会进行溢写，注意溢写前会先进行快排。

（5）merge阶段。一个maptask的多个溢写文件进行归并，形成一个大的溢写文件。

三、ReduceTask工作机制

一个ReduceTask总体上包含Copy、Sort、reduce三个阶段。

（1）Copy阶段。从不同的Maptask主动拷贝自己分区的数据文件。

（2）Sort阶段。对来自不同maptask的文件进行归并排序，整合为一个文件。

（3）reduce阶段。调用reduce方法，按照聚合逻辑进行聚合运算。

四、Shuffle机制

map方法结束到reduce方法之前的过程都属于shuffle过程。shuffle过程的理解主要就是三次排序过程（一次快排，两次归并）。

（1）一个maptask在溢写每个文件到磁盘前，都会在内存中对不同的分区内部进行快排，保证了每个溢写文件内部的分区内有序

（2）一个maptask可能会有多个溢写文件，每个溢写文件都划分了分区且分区内有序，这些溢写文件会进行归并排序合并成一个大的溢写文件，保留分区且分区内有序

（3）reduceTask会主动从不同的maptask拉取自己分区的数据，从不同maptask拷贝的文件在进入reduce方法之前还会进行一次归并排序。

五、部分调优参数

（1）shuffle中的缓冲区大小会影响溢写次数，缓冲区越大，溢写次数越少，磁盘的io越少，执行速度越快。缓冲区大小可以通过mapreduce.task.io.sort.mb参数进行调整。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2265626.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

协众OA checkLoginQrCode接口 SQL注入漏洞

协众OA checkLoginQrCode接口 SQL注入漏洞

FOFA app"协众软件-协众OA" 漏洞复现 nuclei运行结果

阅读更多...

如何用gpt来分析链接里面的内容（比如分析论文链接）和分析包含多个文件中的一块代码

如何用gpt来分析链接里面的内容（比如分析论文链接）和分析包含多个文件中的一块代码

如何用gpt来分析链接里面的内容，方法如下这里使用gpt4里面有一个网路的功能点击搜索框下面这个地球的形状即可启动搜索网页模式然后即可提出问题在搜索框里：发现正确识别和分析了链接里面的内容链接如下：https://arxiv.org/pdf/2009.1…

阅读更多...

jdk各个版本介绍

jdk各个版本介绍

JDK（Java Development Kit）是Java开发者用于构建、测试和部署Java应用程序的工具包。随着Java语言的不断演进，JDK也经历了多个版本的更新。下面是对JDK各个主要版本的简要介绍： JDK 1.0 - 1.4（经典时代） •…

阅读更多...

OpenCV(python)从入门到精通——运算操作

OpenCV(python)从入门到精通——运算操作

加法减法操作 import cv2 as cv import numpy as npx np.uint8([250]) y np.uint8([10])x_1 np.uint8([10]) y_1 np.uint8([20])# 加法,相加最大只能为255 print(cv.add(x,y))# 减法，相互减最小值只能为0 print(cv.subtract(x_1,y_1))图像加法 import cv2 as…

阅读更多...

大湾区经济网报道 | 第三届湾商大会暨湾区未来产业发展论坛隆重举行

大湾区经济网报道 | 第三届湾商大会暨湾区未来产业发展论坛隆重举行

大湾区经济网12月25日电（首席记者余芳），在中国式现代化进程与世界新机遇交汇的大背景下，要精准定位并奋力攀登未来科技与产业发展的高峰，加速推进新一代信息技术、人工智能、量子科技、生物科技、新能源以及新材料等领…

阅读更多...

CV-OCR经典论文解读|An Empirical Study of Scaling Law for OCR/OCR 缩放定律的实证研究

CV-OCR经典论文解读|An Empirical Study of Scaling Law for OCR/OCR 缩放定律的实证研究

论文标题 An Empirical Study of Scaling Law for OCR OCR 缩放定律的实证研究论文链接： An Empirical Study of Scaling Law for OCR论文下载论文作者 Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han 内容简介本论文在光学字符识别&#xf…

阅读更多...

ES已死，文本检索永生

ES已死，文本检索永生

长期以来，混合查询（Hybrid Search）一直是提升 RAG（Retrieval-Augmented Generation）搜索质量的重要手段。尽管基于密集向量（Dense Embedding）的搜索技术随着模型规模和预训练数据集的不断扩展&a…

阅读更多...

K线单边突破指标（附带源码）

K线单边突破指标（附带源码）

编写需求： 今天我们来根据粉丝要求进行源码复现： 【请根据最近两根K线判断当下的行情做多，做空方向。用三个价格判断当前K线状态，最高价、最低价、收盘价都大于昨日对应价格，为上涨K线。用三个价格判断当前K线状态&a…

阅读更多...

基于Springboot的在线问卷调查系统【附源码】

基于Springboot的在线问卷调查系统【附源码】

基于Springboot的在线问卷调查系统效果如下： 系统主页面问卷列表页面个人中心页面系统登陆页面管理员主页面问卷管理页面研究背景随着互联网技术的飞速发展，传统的问卷调查方式因其时间和地点的限制，难以高效地收集到足够的数据。…

阅读更多...

SpringBoot状态机

SpringBoot状态机

Spring Boot 状态机（State Machine）是 Spring Framework 提供的一种用于实现复杂业务逻辑的状态管理工具。它基于有限状态机（Finite State Machine, FSM）的概念，允许开发者定义一组状态、事件以及它们之间的转换规则。…

阅读更多...

Redis基础知识分享（含5种数据类型介绍+增删改查操作）

Redis基础知识分享（含5种数据类型介绍+增删改查操作）

一、redis基本介绍 1.redis的启动服务端启动 pythonubuntu:~$ redis-server客户端启动 pythonubuntu:~$ redis-cli <127.0.0.1:6379> exit pythonubuntu:~$ redis-cli --raw //(支持中文的启动方式) <127.0.0.1:6379> exit2.redis基本操作 ping发送给服务器…

阅读更多...

Pytorch注意力机制应用到具体网络方法（闭眼都会版）

Pytorch注意力机制应用到具体网络方法（闭眼都会版）

文章目录以YoloV4-tiny为例要加入的注意力机制代码模型中插入注意力机制以YoloV4-tiny为例解释一下各个部分： 最左边这部分为主干提取网络，功能为特征提取中间这边部分为FPN，功能是加强特征提取最后一部分为yolo head，功能为获…

阅读更多...

交通控制系统中的 Prompt工程：引导LLMs实现高效交叉口管理 !

交通控制系统中的 Prompt工程：引导LLMs实现高效交叉口管理 !

本研究提出了一种新型的交通控制系统方法，通过使用大型语言模型（LLMs）作为交通控制器。该研究利用它们的逻辑推理、场景理解和决策能力，实时优化通行能力并提供基于交通状况的反馈。LLMs将传统的分散式交通控制过程集中化&#xf…

阅读更多...

产品升级！Science子刊同款ARGs-HOST分析，get！

凌恩生物明星chanpin 抗性宏基因-宿主分析 Science子刊同款分析数据挖掘更进一步！ 抗生素的大量使用与滥用使微生物体内编码抗生素抗性的基因在环境中选择性富集，致病菌通过基因突变或者水平基因转移获得抗生素抗性基因后，导致抗生素治疗…

阅读更多...

Python8-写一些小作业

Python8-写一些小作业

记录python学习，直到学会基本的爬虫，使用python搭建接口自动化测试就算学会了，在进阶webui自动化，app自动化 python基础8-灵活运用顺序、选择、循环结构写一些小练习题目1、给一个半径，求圆的面积和周长，…

阅读更多...

四相机设计实现全向视觉感知的开源空中机器人无人机

四相机设计实现全向视觉感知的开源空中机器人无人机

开源空中机器人基于深度学习的OmniNxt全向视觉算法OAK-4p-New 全景硬件同步相机机器人的纯视觉避障定位建图一直是个难题： 系统实现复杂纯视觉稳定性不高很难选到实用的视觉传感器为此多数厂家还是采用激光雷达的定位方案。 OAK-4p-New 为了弥合这一差距…

阅读更多...

Diagramming AI: 使用自然语言来生成各种工具图

Diagramming AI: 使用自然语言来生成各种工具图

前言在画一些工具图时（流程图、UML图、架构图），你还在往画布上一个个的拖拽组件来进行绘制么？今天介绍一款更有效率的画图工具，它能够通过简单的自然语言描述来完成一个个复杂的图。首页进入官网之后，我…

阅读更多...

springboot启动不了因一个spring-boot-starter-web底下的tomcat-embed-core依赖丢失

springboot启动不了因一个spring-boot-starter-web底下的tomcat-embed-core依赖丢失

这个包丢失了启动不了起因是pom中加入了 <tomcat.version></tomcat.version>版本指定，然后idea自动编译后，包丢了，删除这个配置后再也找不回来， 这个包正常在 <dependency><groupId>org.springframe…

阅读更多...

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

2024年12月20日，以“创新情报向新而行”为主题的2024 H-Tech Data创新情报论坛暨创新情报专业委员会成立仪式在深圳成功举办。本次大会由中国科学技术情报学会主办，由深圳国家高新技术产业创新中心牵头承办，旨在围绕技术赋能、场景应用、…

阅读更多...

Android Studio 的革命性更新：Project Quartz 和 Gemini，开启 AI 开发新时代！

Android Studio 的革命性更新：Project Quartz 和 Gemini，开启 AI 开发新时代！

🌟 Android Studio 的革命性更新：Project Quartz 和 Gemini，开启 AI 开发新时代！ 在这个技术飞速发展的时代，Android 开发者们迎来了两项重大更新：Project Quartz 和 Gemini。这不仅仅是更新，而…

阅读更多...

推荐文章

最新文章