RDD基础-笔记

RDD编程

基础Spark中的RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Python、java、Scala中任意类型的对象，甚至可以包含用户自定义的对象。两种方法创建RDD：
1. 读取一个外部数据集
2. 在驱动器程序里分发驱动器程序中的对象集合（比如list和set）。

RDD 支持的操作：
1. 转化操作（transformation）：一个RDD生成一个新的RDD。
2. 行动操作（action）：会对RDD计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部。
3. 虽可以在任何时候定义新的RDD，但Spark只会惰性计算这些RDD。他们只有第一次在一个行动操作中用到时，才会真正计算。
4. 默认情况下，Spark的RDD会在你每次对他们进行行动操作时重新计算。（在任何时候都能进行重算是我们为什么把RDD描述为“弹性的原因”）如果想在多个行动操作中重用同一个RDD，可以使用RDD.persist()让Spark把这个RDD缓存下来。

每个Spark程序或shell会话都按如下方式工作。
1. 从外部数据创建出输入RDD。
2. 使用诸如filter()这样的转化操作对RDD进行转化，以定义新的RDD。
3. 告诉Spark对需要被重用的中间结果RDD执行persist()操作。
4. 使用行动操作（例如count()和first()等）来触发一次并行计算，Spark会对计算进行优化后再执行。

errorsRDD = inputRDD.filter(lambad x:"error" in x)
warningsRDD = inputRDD.filter(lamdba x: "warning" in x)
badLinesRDD = errorsRDD.union(warningRDD)

cache()与使用默认存储级别调用persist()是一样的。
count()返回计数结果
take() 收集RDD中的一些元素

file