[Spark RDD_1] RDD 基本概念

0. 说明

　　RDD 概述 && 创建 RDD 的方式 && RDD 编程 API（Transformation 和 Action Operations） && RDD 的依赖关系

　　Spark 围绕弹性分布式数据集（RDD）的概念展开，RDD 是可以并行操作的容错的容错集合。

　　resilient distributed dataset，弹性分布式数据集。

　　不可变集合，可以进行并行操作的分区化数据集合。

　　该类包含了 RDD 常见操作，比如 map、filter、persist 等。

　　对于 key-value 的 RDD，会自动转换成（隐式转换）PairRDDFunction,该类提供了所有的 ByKey 操作。

　　内部，每个 RDD 主要含有 5 个主要属性：

　　创建 RDD 有两种方法

　　【方法一】

　　并行化驱动程序中的现有集合。

　　例子如下

　　【方法二】

　　引用外部存储系统中的数据集，例如共享文件系统，HDFS，HBase 或提供 Hadoop InputFormat 的任何数据源。

　　textFile() 方法最初创建的是 HadoopRDD，HadoopRDD 提供了读取 HDFS 文件核心功能。

　　sc.textFile()

　　产生了两个 RDD
　　HadoopRDD -> MapPartitionRDD

　　【变换 Transformation】

　　返回值为新的 RDD

　　map

　　flatMap

　　filter()

　　reduceByKey()

　　【动作 Actions】

　　返回值为具体的值

　　collect()
　　save()
　　reduce()
　　count()

　　【依赖】

　　【说明】

　　构造 RDD 时使用的是 One2OneDependency

且将新火试新茶，诗酒趁年华。