MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算

MapReduce框架

  • MapReduce将复杂的,运行大规模集群上的并行计算过程高度地抽象两个函数:Map和Reduce
  • MapReduce采用“分而治之”策略,将一个分布式文件系统中的大规模数据集,分成许多独立的分片。这些分片可以被多个Map任务并行处理。
  • MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,原因是,移动数据需要大量的网络传输开销
  • MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave,Master上运行JobTracker,Slave运行TaskTracker
  • Hadoop框架是用JAVA来写的,但是,MapReduce应用程序则不一定要用Java来写。
原文地址:https://www.cnblogs.com/gengyufei/p/12605856.html