7.Shuffle详解

news2025/4/10 11:58:37

1.分区规则

ps."&"指的是按位与运算，可以强制转换为正数

ps."%",假设reduceTask的个数为3，则余数为0，1，2正好指代了三个分区

以上代码的含义就是对key的hash值强制取正之后，对reduce的个数取余，这样的话，如果key相同，则hash值相同，则余数相同，则会放到同一分区。

但是如果某一种key过多，则会导致分区不均匀，此问题称为数据倾斜

2.自定义分区

自定义分区用于解决数据倾斜问题

案例：

数据：一堆手机号

需求：手机号136、137、138、139开头都分别放到一个独立的4个分区中，其他开头的放到一个分区中,然后对总流量进行倒序排序

重点：（1）全局排序是不能分区的（2）把流量当作key来排序

3.1 bean阶段（自定义排序规则：继承WritableComparable接口）

public class FlowBean implements WritableComparable<FlowBean>{

    private Integer upFlow;
    private Integer downFlow;
    private Integer sumFlow;
}

生成set/get阶段：

    public Integer getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(Integer upFlow) {
        this.upFlow = upFlow;
    }

    public Integer getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(Integer downFlow) {
        this.downFlow = downFlow;
    }

    public Integer getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(Integer sumFlow) {
        this.sumFlow = sumFlow;
    }

重写toString方法：

public String toString() {
        return upFlow  + "\t" + downFlow + "\t" +sumFlow;
    }

序列化方法与反序列化方法：

// 序列化
public void write(DataOutput out) throws IOException {
        out.writeInt(upFlow);
        out.writeInt(downFlow);
        out.writeInt(sumFlow);
    }

// 反序列化
public void readFields(DataInput in) throws IOException {
        upFlow = in.readInt();
        downFlow = in.readInt();
        sumFlow = in.readInt();
    }

计算总流量

public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }

自定义排序规则：倒叙输出：当this.getSumFlow()大于o.getSumFlow()时候，返回负数

public int compareTo(FlowBean o) {
        return -this.getSumFlow().compareTo(o.getSumFlow());
    }

3.2 自定义分区规则：需要继承Hadoop的提供的Partitioner对象

public class PhonePartitioner extends Partitioner<FlowBean,Text> {

    public int getPartition(FlowBean flowBean,Text text,int numPartitions) {

        int phonePartitions;
        // 获取手机号
        String phoneNum = text.toString();
        if(phoneNum.startsWith("136")){
            phonePartitions = 0;
        }else if(phoneNum.startsWith("137")){
            phonePartitions = 1;
        }else if(phoneNum.startsWith("138")){
            phonePartitions = 2;
        }else if(phoneNum.startsWith("139")){
            phonePartitions = 3;
        }else {
            phonePartitions =4;
        }
        return phonePartitions;
    }
}

3.3 map阶段：要求输出时以流量做为k,以手机号为v

public class FlowMapper extends Mapper<LongWritable, Text, FlowBean, Text> {


    private Text outv = new Text();

    private FlowBean  outk = new FlowBean();



    protected void map(LongWritable key, Text value, Context context) 
            throws IOException, InterruptedException {
        // 获取当前行数据
        String line = value.toString();
        // 切割数据  
        String[] phoneDatas = line.split("\t");
        // 获取输出数据的key（手机号）
        outv.set(phoneDatas[1]);
        // 获取输出数据的value
        outk.setUpFlow(Integer.parseInt(phoneDatas[phoneDatas.length-3]));
        outk.setDownFlow(Integer.parseInt(phoneDatas[phoneDatas.length-2]));
        outk.setSumFlow();

        // 将数据输出
        context.write(outk, outv);

    }

}

3.4 recue阶段:reduce做的事情就是把数据翻转着写出去

public class FlowReducer extends Reducer<FlowBean, Text, Text, FlowBean> {


private FlowBean outv = new FlowBean();


protected void reduce(FlowBean key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        // 遍历输出
        for (Text value : values) {
            context.write(value,key);
        }
    }

}

3.5 driver阶段:将以上代码整合起来

3.Combiner

定义：就是数据合并，将map的输出结果预聚合，减小网络传输量，比如：

（map,1）(map,1) (map,1) => (map,3)

Combiner和reducer的差别：

Combiner是对每一个mapper进行汇总，reducer是对所有的mapper进行汇总

使用前提：不能影响最终的业务逻辑，combiner输出的kv应该和reducer输出的kv对应

假如有3，5，7，2，6求平均值，使用combiner做局部合并和使用reducer做全局合并：

位置：mapper中，处于分区快排之后，溢写之前

使用案例：对wordCount使用Combiner

1.自定义Combiner类：重写reducer方法

public class WordcountCombiner extends Reducer<Text, IntWritable, Text,IntWritable>{

	@Override
	protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {

        // 1 汇总操作
		int count = 0;
		for(IntWritable v :values){
			count += v.get();
		}

        // 2 写出
		context.write(key, new IntWritable(count));
	}
}

2.在driver中添加Combiner类:

job.setCombinerClass(WordcountCombiner.class);

4.shuffle流程总结

ps1.map缓冲区:

环形缓冲区，右边写数据，左边写元数据。但是环形缓冲区是不能碰头的，否则一端的数据会覆盖另一端的数据，所以达到80%就开始溢写

ps2.reduce缓冲区：

如果缓冲区足够大，整个归排就直接在内存中执行，否则就溢写到磁盘进行，最后在发给reduc

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/467626.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

7.Shuffle详解

1.分区规则

2.自定义分区

3.Combiner

4.shuffle流程总结

相关文章

《可穿戴环形生物阻抗装置连续无袖血压监测》阅读笔记

【动态规划】背包问题

给httprunnermanager接口自动化测试平台加点功能(一)

【单目标优化算法】杂草优化算法（Matlab代码实现）

这些使用工具大推荐，现在知道不晚

Python学习9：对指定r计算圆的面积（python123）

3.动态规划（0x3f：从周赛中学算法 2022下）

( 栈和队列) 503. 下一个更大元素 II ——【Leetcode每日一题】

为何越来越多人不喜欢“试用期六个月”的公司？网友：感觉不靠谱

京城、京味、京韵：从一台服务器看数字北京

【Python】【进阶篇】10、Django中间件

使用@Bean注解指定初始化和销毁的方法

apple pencil有买的必要吗？便宜的平替电容笔推荐

工业设备巨头MSC Industrial Supply的供应链建设——EDI

【图像分割】【深度学习】SAM官方Pytorch代码-Prompt encoder模块ProEnco网络解析

北邮22信通：二叉树层序遍历的非递归算法：A Story Between Two Templates

丁鹿学堂：使用vite手动构建vue项目的注意事项和步骤总结

分享一个有意思的文字飞入动画（模仿水滴融合）

前后端分离demo 旅馆管理系统(Angular+Springboot)

Build an SAP Fiori App（一）后面更新中