94-98-Hadoop-MapReduce工作流程(重要)

news2024/9/20 18:47:55

Hadoop-MapReduce工作流程(重要):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vrVajSmi-1668950931481)(png/1624088951196.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rdTlACsf-1668950931482)(png/1624088959945.png)]

上面的流程是整个 MapReduce 最全工作流程,但是 Shuffle 过程只是从第 7 步开始到第

16 步结束,具体 Shuffle 过程详解,如下:

(1)MapTask 收集我们的 map()方法输出的 kv 对,放到内存缓冲区中

(2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件

(3)多个溢出文件会被合并成大的溢出文件

(4)在溢出过程及合并的过程中,都要调用 Partitioner 进行分区和针对 key 进行排序

(5)ReduceTask 根据自己的分区号,去各个 MapTask 机器上取相应的结果分区数据

(6)ReduceTask 会抓取到同一个分区的来自不同 MapTask 的结果文件,ReduceTask 会

将这些文件再进行合并(归并排序)

(7)合并成大文件后,Shuffle 的过程也就结束了,后面进入 ReduceTask 的逻辑运算过

程(从文件中取出一个一个的键值对 Group,调用用户自定义的 reduce()方法)

注:

(1)Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率,原则上说,缓冲区

越大,磁盘 io 的次数越少,执行速度就越快。

(2)缓冲区的大小可以通过参数调整,参数:mapreduce.task.io.sort.mb 默认 100M。

Shuffle 机制

Map 方法之后,Reduce 方法之前的数据处理过程称之为 Shuffle。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NTkI6zUM-1668950931482)(png/1624089044121.png)]

Partition 分区

1、问题引出

要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机

归属地不同省份输出到不同文件中(分区)

2、默认Partitioner分区

public class HashPartitioner<K, V> extends Partitioner<K, V> {
	public int getPartition(K key, V value, int numReduceTasks) {
		return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; 
	} 
}

默 认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个

key存储到哪个分区。

3、自定义Partitioner步骤

(1)自定义类继承Partitioner,重写getPartition()方法

public class CustomPartitioner extends Partitioner<Text, FlowBean> {
    @Override
    public int getPartition(Text key, FlowBean value, int numPartitions) {
        // 控制分区代码逻辑
        … …
		return partition; 
	} 
}

(2)在Job驱动中,设置自定义Partitioner

job.setPartitionerClass(CustomPartitioner.class);

(3)自定义Partition后,要根据自定义Partitioner的逻辑设置相应数量的ReduceTask

job.setNumReduceTasks(5);

4、分区总结

(1)如果ReduceTask的数量> getPartition的结果数,则会多产生几个空的输出文件part-r-000xx;

(2)如果1<ReduceTask的数量<getPartition的结果数,则有一部分分区数据无处安放,会Exception;

(3)如 果ReduceTask的数量=1,则不管MapTask端输出多少个分区文件,最终结果都交给这一个

ReduceTask,最终也就只会产生一个结果文件 part-r-00000;

(4)分区号必须从零开始,逐一累加。

Partition 分区案例实操 (尚硅谷)

1)需求

将统计结果按照手机归属地不同省份输出到不同文件中(分区)

(1)输入数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k1ELV0x3-1668950931483)(png/1624089550487.png)]

(2)期望输出数据

手机号 136、137、138、139 开头都分别放到一个独立的 4 个文件中,其他开头的放到

一个文件中。

2)需求分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-niK3fPq2-1668950931483)(png/1624089686982.png)]

package com.zh.mapreduce.paritioner;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class ProvincePartitioner extends Partitioner<Text, FlowBean> {
    @Override
    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
        //获取手机号前三位 prePhone
        String phone = text.toString();
        String prePhone = phone.substring(0, 3);
        //定义一个分区号变量 partition,根据 prePhone 设置分区号
        int partition;
        if("136".equals(prePhone)){
            partition = 0;
        }else if("137".equals(prePhone)){
            partition = 1;
        }else if("138".equals(prePhone)){
            partition = 2;
        }else if("139".equals(prePhone)){
            partition = 3;
        }else {
            partition = 4;
        }
        //最后返回分区号 partition
        return partition;
    }
}

驱动修改

        //8 指定自定义分区器
        job.setPartitionerClass(ProvincePartitioner.class);
        //9 同时指定相应数量的 ReduceTask
        job.setNumReduceTasks(5);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x6Xf2LmX-1668950931484)(png/1624090507736.png)]

学习路径:https://space.bilibili.com/302417610/,如有侵权,请联系q进行删除:3623472230

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/31134.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java 动态判断数组维数并取值

一、背景 技术交流群里有同学提了一个看似基础但挺有意思的问题。 问题描述&#xff1a; 一个对象是一个未知的数组类型&#xff0c;可能是 short 二维数组&#xff0c;可能是 int 的三维数组等。 诉求&#xff1a; 想要遍历修改&#xff08;获取&#xff09;它的值不想写太多…

springboot 接入 logback.xml 彻底搞出一个超级完整加注释的版本-可在生产环境直接使用

目录 介绍 开搞 先logback.xml相关的 pom.xml application.yml 配置 启动配置 类中编写 引入 Slf4j logback.xml 重点介绍 logback项目名称 最大保存时间 365天 lOGGER PATTERN 根据个人喜好选择匹配 控制台输出 滚动文件 过滤器 可以选择自己要的日志级别 不选…

【机器学习数据集制作】视频转图片(代码注释,思路推导)

目录数据集效果资源下载实现思路代码实战总结『机器学习』分享机器学习0基础的数据集制作过程。 欢迎关注 『机器学习』 系列&#xff0c;持续更新中 欢迎关注 『机器学习』 系列&#xff0c;持续更新中 数据集效果 资源下载 拿来即用&#xff0c;所见即所得。 项目仓库&#…

​LabVIEW从另一个VI或通过VI服务器访问正在运行的可执行文件

​LabVIEW从另一个VI或通过VI服务器访问正在运行的可执行文件 有没有办法从另一个VI或可执行文件访问正在运行的LabVIEW可执行文件。例如&#xff0c;从显示控件获取值&#xff0c;为控件设置值&#xff0c;以及初始化运行LabVIEW可执行文件VI的前面板。 在正在运行的可执行文…

IOS逆向初探

前言 这些文章用于记录学习路上的点点滴滴&#xff0c;也希望能给到刚入门的小伙伴们一点帮助。爱而所向&#xff0c;不负所心。 环境 iphone 6 MacOS Monterey 12.3.1 一、IOS开发语言 Objective-C Objective-C是iOS操作系统运用的软件开发语言。Objective-C的流行完全是因…

免费下载word简历模板的网站

我这里分享了6个免费简历网站&#xff0c;分享给各位。 1.OfficePlus 微软官方出品的 office 免费模板网站https://www.officeplus.cn/ 2&#xff0e;简历设计网 2000Word模板免费下载&#xff0c;每个用于每天可下载10篇免费模板。https://www.jianlisheji.com/ 3.办公资源…

mysql 一对多查询 合并为一行数据

用户包含多个角色 执行&#xff1a; SELECT ur.user_id,u.name user_name,u.mail,ur.role_id,r.name role_name FROM tb_user_role ur LEFT JOIN tb_user u ON u.idur.user_id LEFT JOIN tb_role r ON r.idur.role_id WHERE u.is_delete0 ORDER BY …

华为大数据HCIA题目1

1. HDFS 不适用于以下哪些场景&#xff1f;[多选题] A.流式数据访问 B.大量小文件存储 C.大文件存储与访问 D.随机写入 &#xff08;BD&#xff09; 2. ZKFC 进程部署在 hdfs 中的以下那个节点上&#xff1f;[多选题] A.active namenode B.standby namenode C.datanod…

重塑运维系统,跨越烟囱式建设的陷阱

企业运维系统建设经过多年演变&#xff0c;从以商业软件为主&#xff0c;到开源软件的百花齐放&#xff0c;极大的降低了成本&#xff0c;但是在建设过程中&#xff0c;却非常容易落入到烟囱式建设的陷阱&#xff0c;因此如何跨越它&#xff0c;成为了众多企业面临的难题。 今…

Deepin Linux系统怎安装打印机? 兄弟1618w打印机驱动安装图文教程

Deepin系统作为国产的一款电脑操作系统&#xff0c;拥有极为非常美观的UI界面。很多不熟悉该操作系统的朋友都不知道该怎么安装打印机驱动&#xff0c;今天我们就以兄弟1618w打印机为例&#xff0c;分享驱动下载&#xff0c;安装&#xff0c;调试的过程。 电脑环境和打印机型号…

Design Compiler工具学习笔记(5)

目录 引言 知识储备 代码风格 DFT 实际操作 引言 本篇继续学习 DC的基本使用。本篇主要学习 DC 工作机理和工作过程 以及简单介绍 DFT。 前文链接&#xff1a; Design Compiler工具学习笔记&#xff08;1&#xff09; Design Compiler工具学习笔记&#xff08;2&#…

动态规划算法学习四:最大上升子序列问题(LIS:Longest Increasing Subsequence)

文章目录前言一、问题描述二、DP步骤1、最优子结构a、限界上升子序列b、最优子结构性质2、状态表示和递推方程3、计算最优值4、算法实现三、优化&#xff1a;非DP /二分法1、新问题2、算法实现前言 一、问题描述 二、DP步骤 1、最优子结构 给定序列&#x1d446;[&#x1d4…

“300万”只是新起点,比亚迪将开启下一个 “黄金周期”

比亚迪再次创造全球新能源汽车市场新标杆。 11月16日&#xff0c;比亚迪第300万辆新能源汽车正式下线。成为首个达成这一里程碑的中国品牌。 正如比亚迪股份有限公司董事长兼总裁王传福说&#xff0c;从“第1辆新能源汽车到第100万辆新能源汽车”用时13年、从“100万辆到200万…

MCE | 磁珠 Protocol,如何快速捕获您心仪的蛋白~

磁珠的优势 ◎ 蛋白荷载量高 ◎ 特异性强、非特异性结合性低 ◎ 样品损失小 ◎ 操作方便 如何操作 ■ 磁珠预处理 将磁珠充分混悬&#xff0c;取 25-50 μL 磁珠&#xff0c;置于 1.5 mL EP 管中&#xff0c;加入 400 μL 结合/洗涤缓冲液&#xff0c;充分混悬&#xff0c;置…

Word处理控件Aspose.Words功能演示:使用 Java 将文本转换为 PDF

TXT格式的文本文档包含行形式的纯文本。TXT 文件是存储没有任何格式的纯文本的最简单和最简单的方法。我们可以在任何文本编辑器或文字处理应用程序中轻松创建、打开和编辑 TXT 文件。在某些情况下&#xff0c;我们可能需要将文本转换为只读格式&#xff0c;例如PDF。在本文中&…

flutter 怎么消除按钮事件的点击溅射背景

flutter 怎么消除按钮事件的点击溅射背景前言一、设置 ThemeData二、Theme 设置三、单独设置总结前言 在flutter 中&#xff0c;大部分事件组件都有一个溅射背影&#xff0c;但是假如某天需求让我们取消点击溅射效果&#xff0c;我们该怎么办呢&#xff1f;本篇文章将记录怎么…

画法几何及机械制图复习题及答案

机 械 制 图复习题及参考答案 一、填空题 1&#xff0e;比例的种类有 、 、 。 2&#xff0e;图样中的可见轮廓线用 绘制&#xff1b;图样中尺寸线和尺寸界线用 绘制。 3&#xff0e;正投影的基本性质包括 、 、 。 4&#xff0e;三视图的投影关系表现为&#xff1a;主、俯…

【ML特征工程】第 1 章 :机器学习管道

&#x1f50e;大家好&#xff0c;我是Sonhhxg_柒&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f4dd;个人主页&#xff0d;Sonhhxg_柒的博客_CSDN博客 &#x1f4c3; &#x1f381;欢迎各位→点赞…

数字逻辑·时序线路分析【常见的时序线路】

这一篇和之前那一篇讲的是时序线路 之前学过的是组合线路 寄存器 有3个D触发器控制 C1 − C3 用来寄存二进制代码。 下面的与或非门用来接收要寄存的二进制代码。 上面的与非门用来发送寄存的二进制代码。 输入信号&#xff1a; RD&#xff1a;清除信号。 WAC&#xff1a;直送…

spring-cloud-dubbo基本使用

创建模块 api模块使用mave quick-start 构建: &#xff0c;provider模块使用 下面方式创建&#xff1a; 点击下一步&#xff0c;会看到一些基于阿里的cloud的依赖&#xff1a; 上面这个是基于阿里云的&#xff0c;下面的Spring Cloud Alibaba是开源的组件依赖&#xff1a; …