MapReduce编程解析

输入数据

atguigu atguigu
ss ss
cls cls
jiao
banzhang
xue
hadoop

输出数据

atguigu 2
banzhang 1
cls 2
hadoop 1
jiao 1
ss 2
xue 1

Split：交由MapReduce作业来处理的数据块，是MapReduce中最小的计算单元
- HDFS：blocksize是HDFS中最小的存储单元 128M
- 默认情况下：他们两是一一对应的，当然我们也可以手工设置他们之间的关系
InputFormat
OutputFormat
Combiner
Partitioner

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个job的处理速度。
MapTask并行度决定机制
- 数据块：Block是HDFS物理上把数据分成一块一块
- 数据切片：数据切片只是在逻辑上对输入进行切片，并不会在磁盘上将其切分成片进行存储

切片机制
- 简单地按照文件的内容长度进行切片
- 切片大小，默认等于Block大小
- 切片时不考虑数据集整体，而是逐个针对每个文件单独切片
案例分析
- 输入两个文件：file1.text 320M ，file2.txt 10M
- 经过FileInputFormat的切片机制运算后，形成的切片信息如下：
  
  file1.text.split1-- 0~128
  
  file1.text.split2-- 128~256
  
  file1.text.split3-- 256~320
  
  file2.text.split1-- 0~10
源码中计算切片大小的公式

Math.max(minSize,Math.min(maxSize,blocksize));

mapreduce.input.fileinputformat.split.minsize=1 默认值为1

mapreduce.input.fileinputformat.split.maxsize=Long.MAXValue 默认值Long.MAXValue

因此，默认情况下，切片大小=blocksize。
切片大小设置

maxsize（切片最大值）：参数如果调得比blockSize小，则会让切片变小，而且就等于配置的这个参数

minsize（切片最小值）：参数调的比blockSize大，则可以让切片变得比blockSize还大
获取切片信息API

//获取切片的文件名称

String name = inputSplit.getPath().getName();

//根据文件类型获取切片信息

FileSplit inputSplit = (FileSplit)context.getInputSplit();

框架默认的TextInputFormat切片机制时对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个MapTask，这样如果有大量小文件，就会产生大量的MapTask，处理效率极其低下。
应用场景：

CombineTextInputFormat用于小分件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。