RDD认知

1.RDD又叫弹性分布式数据集

2.抽象

3.带泛型,支持多种数据类型

4.集合是可以进行分区

例如(1,2,3,4,5,6,7,8,9)这个数组是可以进行分区的(1,2,3)  (4,5,6)  (7,8,9)可以并行计算(这就是分布式计算)

RDD5大特性

1.一个RDD有一系列的分区

2.对RDD执行一个操作,是对所有的分区执行相应的操作

3.一系列RDD,一个RDD依赖另一个RDD

4.对于Key-value时进行partitioner进行分区

4.数据在哪优先把作业调度到结点进行计算,移动数据不如移动计算

SparkContext&&SparkConf

1.SparkContext是主入口点,连接到Spark“集群” local standlone ,yarn,mesos

通过SParkContext来创建RDD或者来广播到集群

2.在创建SparkContext之前还需要创建SparkConf

原文地址:https://www.cnblogs.com/chenligeng/p/9535517.html