hadoop编程模型

1. 拷贝数据

将一个超大的数据文件拷贝到hadoop集群中，hdfs将其分割成多个数据块，然后再把每一个数据块放到不同的节点里面。

2. map函数

提交一个map函数，此map函数可以被jobchacker进程分配到多个节点里面去运行，对分在那个节点所在机器里面的数据进行map。

3. shuffe预处理

将map结果进行排序然后列表化，其实shuffe就是对map结果进行reduce之前的预处理从而来减少网络数据量的传输，分担reduce的压力

4. reduce

对map阶段的结果进行汇总并计算最终结果，然后将结果输出到hdfs中。