Hadoop压缩

为什幺要压缩?

压缩会提高计算速度?这是因为mapreduce计算会将数据文件分散拷贝到所有datanode上,压缩可以减少数据浪费在带宽上的时间,当这些时间大于压缩/解压缩本身的时间时,计算速度就会提高了。 
    hadoop的压缩除了将输入文件进行压缩外,hadoop本身还可以在计算过程中将map输出以及将reduce输出进行压缩。

合理设置Map和Reduce个数:通过设置分片大小

原文地址:https://www.cnblogs.com/kxdblog/p/4316709.html