Hadoop 数据切片 & MapTask并行度机制

发表于 2018-06-19 分类于 Hadoop 阅读次数：

Hadoop 数据切片 MapTask并行度

split数量和map task数量一一对应。

下图是wordcount的流程：
wordcount流程

可以看到，一个job的Map阶段map task并行度（个数），由客户端提交job时的切片个数决定。

假如有以下两个文件，blocksize=128M，则split和map task的关系如下图所示：
split-maptask的关系

也就是说，有多少个切片，就会启动相应数量的map task进行数据处理。那么，如果需要确定map task的数量，只需要确定切片的实际数量即可。

默认使用FileInputFormat类处理数据输入，遵循如下的切片机制：

比如待处理数据有两个文件：

file01.txt 320M

file02.txt 10M

经过FileInputFormat的切片机制运算后，形成的切片信息如下：

file01.txt.split1– 0~128

file01.txt.split2– 128~256

file01.txt.split3– 256~320

file02.txt.split1– 0~10M

那么切片的数量是否就是分块的数量+小文件的数据量呢？其实是不一定的，因为源码中还有这样一个参数：private static final double SPLIT_SLOP = 1.1，也就是还有10%的切片裕度，下面结合源码进行说明。

整体流程：

总结：所以，切片的数量并不一定等于分块的数量+小文件的数据量，还要考虑大文件切分后剩余的部分是否大于块的1.1倍。