离线计算框架 MapReduce

离线计算框架 MapReduce

思想:分而治之(将大数据集分为小的数据集)

  • 将计算过程分为两个阶段,Map和Reduce
  1. Map阶段并行处理输入数据
  2. Reduce阶段对Map结果进行汇总
  • Shuffle连接Map和Reduce两个阶段
  1. Map Task将数据写到本地磁盘
  2. Reduce Task从每个Map Task上读取一份数据
  • 仅适合离线批处理
  1. 具有很好的容错性和扩展性
  2. 适合简单的批处理任务
  • 缺点明显
    启动开销大、过多使用磁盘导致效率低下等
 
 
 
 
原文地址:https://www.cnblogs.com/Zlcode/p/8404154.html