hadoop相关的学习

http://www.kuqin.com/system-analysis/20111221/316517.html     hadoop的分布式管理工具

http://www.tbdata.org/archives/1470    淘宝关于hadoop的性能调优

     当job指定了combiner的时候,我们都知道map介绍后会在map端根据combiner定义的函数将map结果进行合并。运行combiner函数的时机有可能会是merge完成之前,或者之后,这个时机可以由一个参数控制,即min.num.spill.for.combine(default 3),当job中设定了combiner,并且spill数最少有3个的时候,那么combiner函数就会在merge产生结果文件之前运行。通过这样 的方式,就可以在spill非常多需要merge,并且很多数据需要做conbine的时候,减少写入到磁盘文件的数据数量,同样是为了减少对磁盘的读写 频率,有可能达到优化作业的目的。

    并不能保证所有的map输出结果都走一遍combiner  。

http://blog.csdn.net/xhh198781/article/details/7187731    对于DataBlockScanner的源代码

原文地址:https://www.cnblogs.com/serendipity/p/2349457.html