94-98-Hadoop-MapReduce工作流程(重要)

news2026/2/12 15:09:30

Hadoop-MapReduce工作流程（重要）：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vrVajSmi-1668950931481)(png/1624088951196.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rdTlACsf-1668950931482)(png/1624088959945.png)]

上面的流程是整个 MapReduce 最全工作流程，但是 Shuffle 过程只是从第 7 步开始到第

16 步结束，具体 Shuffle 过程详解，如下：

（1）MapTask 收集我们的 map()方法输出的 kv 对，放到内存缓冲区中

（2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件

（3）多个溢出文件会被合并成大的溢出文件

（4）在溢出过程及合并的过程中，都要调用 Partitioner 进行分区和针对 key 进行排序

（5）ReduceTask 根据自己的分区号，去各个 MapTask 机器上取相应的结果分区数据

（6）ReduceTask 会抓取到同一个分区的来自不同 MapTask 的结果文件，ReduceTask 会

将这些文件再进行合并（归并排序）

（7）合并成大文件后，Shuffle 的过程也就结束了，后面进入 ReduceTask 的逻辑运算过

程（从文件中取出一个一个的键值对 Group，调用用户自定义的 reduce()方法）

注：

（1）Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率，原则上说，缓冲区

越大，磁盘 io 的次数越少，执行速度就越快。

（2）缓冲区的大小可以通过参数调整，参数：mapreduce.task.io.sort.mb 默认 100M。

Shuffle 机制

Map 方法之后，Reduce 方法之前的数据处理过程称之为 Shuffle。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NTkI6zUM-1668950931482)(png/1624089044121.png)]

Partition 分区

1、问题引出

要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机

归属地不同省份输出到不同文件中（分区）

2、默认Partitioner分区

public class HashPartitioner<K, V> extends Partitioner<K, V> {
	public int getPartition(K key, V value, int numReduceTasks) {
		return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; 
	} 
}

默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个

key存储到哪个分区。

3、自定义Partitioner步骤

（1）自定义类继承Partitioner，重写getPartition()方法

public class CustomPartitioner extends Partitioner<Text, FlowBean> {
    @Override
    public int getPartition(Text key, FlowBean value, int numPartitions) {
        // 控制分区代码逻辑
        … …
		return partition; 
	} 
}

（2）在Job驱动中，设置自定义Partitioner

job.setPartitionerClass(CustomPartitioner.class);

（3）自定义Partition后，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask

job.setNumReduceTasks(5);

4、分区总结

（1）如果ReduceTask的数量> getPartition的结果数，则会多产生几个空的输出文件part-r-000xx；

（2）如果1<ReduceTask的数量<getPartition的结果数，则有一部分分区数据无处安放，会Exception；

（3）如果ReduceTask的数量=1，则不管MapTask端输出多少个分区文件，最终结果都交给这一个

ReduceTask，最终也就只会产生一个结果文件 part-r-00000；

（4）分区号必须从零开始，逐一累加。

Partition 分区案例实操 （尚硅谷）

1）需求

将统计结果按照手机归属地不同省份输出到不同文件中（分区）

（1）输入数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k1ELV0x3-1668950931483)(png/1624089550487.png)]

（2）期望输出数据

手机号 136、137、138、139 开头都分别放到一个独立的 4 个文件中，其他开头的放到

一个文件中。

2）需求分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-niK3fPq2-1668950931483)(png/1624089686982.png)]

package com.zh.mapreduce.paritioner;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class ProvincePartitioner extends Partitioner<Text, FlowBean> {
    @Override
    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
        //获取手机号前三位 prePhone
        String phone = text.toString();
        String prePhone = phone.substring(0, 3);
        //定义一个分区号变量 partition,根据 prePhone 设置分区号
        int partition;
        if("136".equals(prePhone)){
            partition = 0;
        }else if("137".equals(prePhone)){
            partition = 1;
        }else if("138".equals(prePhone)){
            partition = 2;
        }else if("139".equals(prePhone)){
            partition = 3;
        }else {
            partition = 4;
        }
        //最后返回分区号 partition
        return partition;
    }
}

驱动修改

        //8 指定自定义分区器
        job.setPartitionerClass(ProvincePartitioner.class);
        //9 同时指定相应数量的 ReduceTask
        job.setNumReduceTasks(5);

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x6Xf2LmX-1668950931484)(png/1624090507736.png)]

学习路径：https://space.bilibili.com/302417610/，如有侵权，请联系q进行删除：3623472230

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/31134.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

94-98-Hadoop-MapReduce工作流程(重要)

相关文章

Java 动态判断数组维数并取值

springboot 接入 logback.xml 彻底搞出一个超级完整加注释的版本-可在生产环境直接使用

【机器学习数据集制作】视频转图片（代码注释，思路推导）

LabVIEW从另一个VI或通过VI服务器访问正在运行的可执行文件

IOS逆向初探

免费下载word简历模板的网站

mysql 一对多查询合并为一行数据

华为大数据HCIA题目1

重塑运维系统，跨越烟囱式建设的陷阱

Deepin Linux系统怎安装打印机? 兄弟1618w打印机驱动安装图文教程

Design Compiler工具学习笔记（5）

动态规划算法学习四：最大上升子序列问题（LIS：Longest Increasing Subsequence）

“300万”只是新起点，比亚迪将开启下一个 “黄金周期”

MCE | 磁珠 Protocol，如何快速捕获您心仪的蛋白~

Word处理控件Aspose.Words功能演示：使用 Java 将文本转换为 PDF

flutter 怎么消除按钮事件的点击溅射背景

画法几何及机械制图复习题及答案

【ML特征工程】第 1 章：机器学习管道

数字逻辑·时序线路分析【常见的时序线路】

spring-cloud-dubbo基本使用