wc的shuffle

MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。
MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。

shuffle是介于map和reduce之间的一一步,需要经过网络来实现。

 shuffle就是map按照一定的规则将数据分发到reduce的过程

多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点上。

关于map和reduce的详细的知识可以参考:http://www.cnblogs.com/ahu-lichang/p/6665242.html

原文地址:https://www.cnblogs.com/xuziyu/p/10457452.html