hadoop优化问题

当在Map阶段输入数据逻辑上很大(二十G)(存在hdfs上实际都是以64M的块存储),

而你的集群数量不是很大(只有十台),

这样造成会有很多的Map(320个),

造成map效率不是很高

这里可以通过设置 Configuration

Configuration defaultConf = new Configuration();

defaultConf.set("mapred.min.split.size", "134217728"); //默认为64M,这里改为128M

来增大map的split的大小

将Map数减少为160个

hadoop版本:1.0.4

原文地址:https://www.cnblogs.com/liangyours/p/2863057.html