Spark RDD概念学习系列之transformation操作

  不多说,直接上干货!

transformation操作

  惰性求值

    (1)RDD 的转化操作都是惰性求值的。这意味着在被调用行动操作之前Spark不会开始计算。

    (2)读取数据到RDD的操作也是惰性的。

    (3)惰性求值的好处:

      a. Spark 使用惰性求值可以把一些操作合并到一起来减少计算数据的步骤。在类似 Hadoop MapReduce 的系统中,开发者常常花费大量时间考虑如何把操作组合到一起,以减少MapReduce 的周期数。

      b. 而在Spark 中,写出一个非常复杂的映射并不见得能比使用很多简单的连续操作获得好很多的性能。因此,用户可以用更小的操作来组织他们的程序,这样也使这些操作更容易管理。

  转换操作

    RDD 的转化操作是返回新RDD 的操作。

    我们不应该把RDD 看作存放着特定数据的数据集,而最好把每个RDD 当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。

    基本转换操作1

    

     基本转换操作2

原文地址:https://www.cnblogs.com/zlslch/p/6941234.html