11.hadoop系列之MapReduce框架原理之InputFormat数据输入

news2026/2/11 6:27:05

我们先简要了解下InputFormat输入数据

1.数据块与数据切片

数据块： Block在HDFS物理上数据分块，默认128M。数据块是HDFS存储数据单位
数据切片： 数据切片只是在逻辑上对输入进行分片，并不会物理上切片存储。数据切片是MapReduce计算输入数据的单位，一个切片对应启动一个MapTask

2.数据切片与MapTask并行度决定机制

一个Job的Map阶段并行度由客户端在提交Job时的切片数决定
每一个Split切片分配一个MapTask并行实例处理
默认情况下，切片大小=数据块大小
切片时不考虑数据集整体，而是针对每一个文件单独切片

3.TextInputFormat

TextInputFormat是默认的FileInputFormat实现类，按行读取每条记录。键是文件中的位置LongWritable类型，值是文本行Text类型

4.CombineTextInputFormat

4.1 应用场景

TextInputFormat按文件切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask,这样如果大量小文件，就会产生大量MapTask,影响性能
CombineTextInputFormat用于小文件过多场景，它可以将多个小文件逻辑上规划到一个切片中，这样多个小文件就可以交给一个MapTask处理

4.2 Driver中代码配置

job.setInputFormatClass(CombineFileInputFormat.class);
// 虚拟存储切片最大值设置为4M，可根据小文件情况调整
CombineFileInputFormat.setMaxInputSplitSize(job, 4 * 1024 * 1024);

4.3 切片机制

生成切片过程包括：虚拟存储过程和切片过程

1）假设有4个小文件abcd[读取时按字典顺序]大小分别为1.7M、5.1M、3.4M以及6.8M这四个小文件
2）虚拟存储之后形成6个文件块，大小分别为：1.7M （2.55M、2.55M）3.4M（3.4M、3.4M），因为ac文件小于4M，分为一块;bd文件大于4M且小于2 * 4M且为了均匀考虑故均分为两块(如果有E文件大小为8.2M，即8.2>2 * 4,则先逻辑划分出4M，剩余4.2在按之前逻辑均匀划分)
3）切片过程判断虚拟存储文件是否大于等于4M,是则单独形成一个切片，否则跟下一个虚拟存储文件合并，共同形成一个切片，故abcd最终会形成3个切片，大小分别为：（1.7+2.55）M，（2.55+3.4）M，（3.4+3.4）M

欢迎关注公众号算法小生与我沟通交流

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/335933.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！