第七章 映射-化简

7.1 基本“映射 - 化简”

  略

7.2 分区与归并

7.3 组合“映射-化简”

  为了使计算工作可以在集群中的各个节点上并发执行。

  “映射任务”:只能操作同一个聚合内的数据。

  “化简任务”:只操作具有同一关键字的数据。

  7.3.1 举例说明两阶段“映射-化简”

    如果“映射-化简”计算比较复杂,可以使用“管道及过滤器”。

  7.3.2 增量式“映射 - 化简”

    许多情况是,计算过程中,新数据不断涌入,为了保证数据不过时,必须从头计算,这样很耗时,通常用“增量更新”的形式。

7.5 要点

  • 映射-化简”:是一种在集群上执行并发计算所用的模式。
  • “映射”:任务从聚合中读出数据,将其缩减为键值对。映射只能读一条记录,所以可以在存放记录的节点上并发执行。
  • “映射任务”:会生成许多具备同一个关键字的值,而“化简任务”将它们简化为单一的输出值。化简函数可以并发。
  • 输入数据与输出数据形式相同的多个“化简函数”可归并为“管道”,以提高并发执行能力,并减少传输数据量。
  •     

  

  

  

原文地址:https://www.cnblogs.com/liufei1983/p/9439830.html