MapReduce概述

MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。MR由两个阶段组成：Map和Reduce，用户只需要实现map()

和reduce()两个函数，即可实现分布式计算。这两个函数的形参是key、value对，表示函数的输入信息。

MapReduce结构

一个完整的mapreduce程序在分布式运行时有三类实例进程：

切片的计算：

long splitSize = Math.max(minSize, Math.min(maxSize, blockSize))

默认：minSize 1

maxSize Long.MAX_VALUE

blockSize 128

splitSize默认是128M。

FileInputFormat先扫描切片，每次扫描一行数据，调用RecordReader类中的getCurrentKey()、getCurrentValue()返回一个key（行偏移量）,value（每行的内容）。
context将返回的key和value带入到MapTask中，让map方法去进行处理。
map方法处理完以后，将处理后的key、value进行序列化，写入到环形缓冲区中。（默认是100M）。当环形缓冲区到达80%以后，就会将里面的内容进行溢写。
溢写的时候会进行分区，并默认按照key的hashcode值，对reduceTask进行取余。根据余数相同的分到一个分区中。在分区时还会进行排序，默认按字典顺序。使用快速排序。
Key -> key的hashcode ->根据reduceTask的个数取余->根据取余的结果进行分区。
在MapTask结束的时候，会将相同分区的数据聚合到一块。并进行排序，使用归并排序。
MapTask自此结束。

努力到无能为力，拼搏到感动自己