map端join和reduce端join的区别

MapReduce Join


MapJoin和ReduceJoin区别及优化

maptask处理后写到本地,如果再到reduce,又涉及到网络的拷贝。

map端join最大优势,可以提前过滤不需要的数据。

如对于20G左右的文件,可以用2个job来处理:

一个mapreduce进行数据过滤,

另一个mapreduce进行计算。

成就人
原文地址:https://www.cnblogs.com/pingzizhuanshu/p/9129023.html