Day3-spark基本认识

1.Spark 是类Hadoop MapReduce的通用并行框架, 专门用于大数据量下的迭代式计算.

是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop,

Spark 运算比 Hadoop 的 MapReduce 框架快的原因：是因为 Hadoop 在一次 MapReduce 运算之后,会将数据的运算结果从内存写入到磁盘中,第二次 Mapredue 运算时在从磁盘中读取数据,

所以其瓶颈在2次运算间的多余 IO 消耗.

Spark 则是将数据一直缓存在内存中,直到计算得到最后的结果,再将结果写入到磁盘,

所以多次运算的情况下, Spark 是比较快的. 其优化了迭代式工作负载

2.RDD(Resilent Distributed Datasets)俗称弹性分布式数据集,是 Spark 底层的分布式存储的数据结构,可以说是 Spark 的核心, Spark API 的所有操作都是基于 RDD 的. 数据不只存储在一台机器上,而是分布在多台机器上,实现数据计算的并行化.弹性表明数据丢失时,可以进行重建