spark笔记

spark on yarn

yarn client :适用于交互和调试

1.Driver在任务提交机器上执行

2.ApplicationMaster只负责向ResourceManager申请executor需要的资源

3.基于yarn时，spark-shell和pyspark必须要使用yarn-client模式

yarn cluster:适用于生产环境

1.Spark基于弹性分布式数据集（RDD)模型，具有良好的通用性、容错性与并行处理数据的能力

2.RDD(ResilientDistributedDataset):弹性分布式数据集（相当于集合），它的本质是数据集的描述（只读的、可分区的分布式数据集），而不是数据集本身

3.RDD的关键特征：

由于spark默认从hdfs读取文件，所以官方实例中会报错：

解决办法，在读取文件的时候指定从本地文件路径读取：

还有读取多文件的api是wholeTextFiles。

textFile与wholeTextFiles