12.hadoop系列之MapReduce分区实践

news2026/2/12 18:48:55

本文我们学习MapReduce默认分区以及自定义分区实践

当我们要求将统计结果按照条件输出到不同文件(分区)，比如按照统计结果将手机归属地不同省份输出到不同文件中(分区)

1.默认Partitioner分区

public class HashPartitioner<K, V> extends Partitioner<K, V> {
  public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
}

默认分区是根据key的hashCode对ReduceTasks[通过job.setNumReduceTasks(2)赋值]取模得到，用户没法控制key存储到哪个分区

2. 自定义Partitioner分区

我们在resources目录下新建phone2.txt

1 13764368888 196.168.0.11 1116 854 200
2 13764368888 196.168.0.11 1136 834 200
3 13764368888 196.168.0.11 1146 824 200
4 13764368888 196.168.0.11 1116 804 200
5 13664368888 196.168.0.11 1116 854 200
6 13864368888 196.168.0.11 1136 834 200
7 13964368888 196.168.0.11 1146 824 200
8 13764368888 196.168.0.11 1116 804 200

新建自定义ProvincePartitioner类

public class ProvincePartitioner extends Partitioner<Text, FlowBean> {

    @Override
    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
        // Text是手机号
        String phone = text.toString().substring(0, 3);
        // 注意分区号需要连续，从0开始分区
        int partition;
        if ("136".equals(phone)) {
            partition = 0;
        } else if ("137".equals(phone)) {
            partition = 1;
        } else if ("138".equals(phone)) {
            partition = 2;
        } else if ("139".equals(phone)) {
            partition = 3;
        } else {
            partition = 4;
        }
        return partition;
    }
}

新建FlowPartitionerDriver类

public class FlowPartitionerDriver {

    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "flowPartitioner");
        job.setJarByClass(FlowPartitionerDriver.class);
        job.setMapperClass(FlowMapper.class);
        job.setCombinerClass(FlowReduce.class);
        job.setReducerClass(FlowReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);
        // 关联自定义分区类
        job.setPartitionerClass(ProvincePartitioner.class);
        // 设置ReduceTask任务数
        job.setNumReduceTasks(5);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

传参运行

E:\Java\blogCode\hadoop\src\main\resources\phone2.txt E:\Java\blogCode\hadoop\src\main\resources\phone_ret2.txt

由图可知，产生了5个分区，实现了手机归属地不同省份输出到不同文件中

3.分区总结

如果ReduceTask数量>getPartition结果数，则会多产生空的part-r-000xx文件
如果1<ReduceTask数量<getPartition结果数,则有一部分数据无处写，会Exception
如果ReduceTask数量=1，则不管MapTask输出多少分区文件，最终结果都会交给一个ReduceTask,只会产生一个文件part-r-00000
分区号必须从零开始，逐一累加

欢迎关注公众号算法小生与我沟通交流

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/338418.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

12.hadoop系列之MapReduce分区实践

1.默认Partitioner分区

2. 自定义Partitioner分区

3.分区总结

相关文章

ChatGPT已接入微软必应Bing搜索？如何进入新必应候补名单抢先体验

【C++/QT】QT5.6解析Excel教程（qtxlsx）

多传感器融合定位十-基于滤波的融合方法Ⅰ其二

【Python学习笔记】25.Python3 输入和输出(1)

Linux手工创建新用户

jvm学习的核心（五）---垃圾回收算法和常见垃圾回收器

2月面经：真可惜...拿了小米的offer，字节却惨挂在三面

java ssm idea高校图书借阅管理系统设计2z87z

ONNXRUNTUIME c++使用与相关资料（暂记）

开关电源环路稳定性分析（10）——OPA和OTA型补偿器传递函数

IDEA下java程序的调试(简易实例图示版)

1626_MIT 6.828 lab1课程大纲学习过程整理

c# 跑马灯显示

鲜花数据集实验结果总结

常见漏洞之 struts2+ jboss

【Linux】Linux多线程(下)

C++005-C++选择与分支2

php的api系统,php api 框架

【遇见青山】项目难点：缓存击穿问题解决方案

RuoYi-Cloud 部署