hadoop相关的学习

http://www.kuqin.com/system-analysis/20111221/316517.html hadoop的分布式管理工具

http://www.tbdata.org/archives/1470 淘宝关于hadoop的性能调优

当job指定了combiner的时候，我们都知道map介绍后会在map端根据combiner定义的函数将map结果进行合并。运行combiner函数的时机有可能会是merge完成之前，或者之后，这个时机可以由一个参数控制，即min.num.spill.for.combine（default 3），当job中设定了combiner，并且spill数最少有3个的时候，那么combiner函数就会在merge产生结果文件之前运行。通过这样的方式，就可以在spill非常多需要merge，并且很多数据需要做conbine的时候，减少写入到磁盘文件的数据数量，同样是为了减少对磁盘的读写频率，有可能达到优化作业的目的。

并不能保证所有的map输出结果都走一遍combiner 。

http://blog.csdn.net/xhh198781/article/details/7187731 对于DataBlockScanner的源代码