数据算法 --hadoop/spark数据处理技巧 --(17.小文件问题 18.MapReuce的大容量缓存)

十七。小文件问题

  

  

  

  

  

  

  

  

  

  

十八。MR的大容量缓存

  在MR中使用和读取大容量缓存,(也就是说,可能包括数十亿键值对,而无法放在一个商用服务器的内存中)。本次提出的算法通用,可以在任何MR范式中使用。(eg:MR,Spark)

   

  

   

    

    

    

原文地址:https://www.cnblogs.com/dhName/p/11400419.html