Shuffle中进行了分组聚合,而Reduce对分组聚合后的数据进行重新计算.
切片对应的是MapTask
分区对应的是ReduceTask
也可以通过设定reduce数量来调整分区数
分区规则:
设定为1时, 根本不走自定义分区器,而是Hash
如果分区数大于规则 空
如果分区数小于规则(分区数不为1) 报错
小文件的处理
设置输入流的类来控制小文件,
这里的cCombiner分区合并指的是 直接在shuflle进行计算 比如 sum什么的
这个分区合并,就是不同task的相同区号的分区进行合并,例子: task1的分区1和task2的分区1进行合并
在到Reduce之前进行分组