MapReduce运行流程具体解释

在hadoop中。每一个mapreduce任务都会被初始化为一个Job。

每一个Job又能够分为两个阶段：map阶段和reduce阶段。这两个阶段分别用两个函数来表示，即map函数和reduce函数。map函数接收一个<key,value>形式的输入，然后产生相同为<key,value>形式的中间输出，hadoop会负责将全部具有相同中间key值的value集合到一起传递给reduce函数，reduce函数接收一个如<key,(list of values)>形式的输入，然后对这个value集合进行处理并输出结果，reduce的输出也是<key,value>形式的。

为了方便理解，分别将三个<key,value>对标记为<k1,v1>、<k2,v2>、<k3,v3>。那么上面所述的过程就能够用下图来表示了。

1、InputFormat()和InputSplit

InputSplit是hadoop中用来把输入数据传送给每一个单独map。InputSplit存储的并不是数据本身，而是一个分片长度和一个记录数据位置的数组。生成InputSplit的方法能够通过InputFormat()来设置。

当数据传送给map时，map会将输入分片传送到InputFormat()上，InputFormat()则调用getRecordReader()方法生成RecordReader。RecordReader再通过createKey()、createValue()方法创建可供map处理的<key,value>对，即<k1,v2>。简而言之，InputFormat()方法是用来生成可供map处理的<key,value>对的。

TextInputFormat是hadoop默认的输入方法，在TextInputFormat中，每一个文件（或当中一部分）都会单独作为map的输入，二这是继承自FileInputFoemat的。之后。每行数据都会生成一条记录。每条记录则表示成<key,value>形式：

key值是每一个数据的记录在数据分片中的字节偏移量，数据类型是LongWritable；

value值是每行的内容，数据类型是Text。

2、OutputFormat()

对于每一种输入格式都有一种输出格式与其相应。

相同，默认的输出格式是TextOutputFormat。这样的输出方式与输入类似，会将每条记录以一行的形式存入文本文件。

只是，他的键和值能够是随意形式的。由于程序内部会调用toString方法将键和值转化为string类型再输出。

3、map()

map()函数继承自MapReduceBase，而且它实现了Mapper接口，此接口是一个范型类型，它有4种形式的參数，分别用来指定Map()的输入key值类型、输入value值类型、输出key值类型和输出value值类型。

4、reduce()

与map()类似，reduce函数也继承自MapReduceBase，须要实现Reducer接口，Reduce函数以Map()的输出作为输入。

负责控制及调度MapReduce的Job的是JobTracker。负责运行MapReduce的Job的是TaskTracker。

当然，MapReduce在运行时是分成Map Task和Reduce Task来处理的，而不是完整的Job。

简单的控制流大概是这种：JobTracker调度任务给TaskTracker，TaskTracker运行任务时，会返回进度报告。

JobTracker则会记录进度的进行状况。假设某个TaskTracker上的任务运行失败。那么JobTracker会把这个任务分配给还有一台TaskTracker，直到任务运行完毕。

这里更具体的解释一下数据流。数据首先依照TextInputFormat形式被处理成多个InputSplit，然后输入到多个Map中，Map程序会读取InputSplit指定位置的数据，然后依照设定的方式处理该数据，最后写入到本地磁盘中，注意。这里并非写到HDFS上，这应该非常好理解，由于Map的输出在Job完毕后壳删除了。因此不须要存储到HDFS上，尽管存储到HDFS上会更安全，可是由于网络传输会减少MapReduce任务的运行效率，因此Map的输出文件时写在本地磁盘上的。

假设Map程序在没来得及将数据传送给Reduce时就崩溃了（程序出错或者机器崩溃），那么JobTracker仅仅须要另选一台机器又一次运行这个Task就能够了。

Reduce会读取Map的输出数据。合并value。然后将他们输出到HDFS上。

Reduce的输出会占用非常多的网络宽带，只是这与上传数据一样是不可避免的。

此外，还有两中情况须要注意：

1、MapReduce在运行过程中往往不止一个Reduce Task。Reduce Task的数量是能够程序指定的。

当存在多个Reduce Task时，每一个Reduce会搜集一个或多个key值。须要注意的是当出现多个Reduce Task时，每一个Reduce Task都会生成一个输出文件。

2、另外，没有Reduce任务的时候，系统会直接将Map的输出结果作为终于结果，同一时候Map Task的数量能够看做是Reduce Task的数量，即有多少个Map Task 就有多少个输出文件。