[杂谈]重新认识RDD

在spark中，怎么强调RDD都不为过，很多资料把RDD的第一个单词翻译成弹性，我觉得这个翻译偏离本意太严重了

RDD，能够快速恢复的分布式式内存数据集；为什么是内存数据集? 因为spark是为更高效的迭代计算而设计的，相比其它的计算框架比如mr，spark大尺度地利用了集群的内存(数据一旦落盘，就需要序列化，磁盘io, 甚至网络io，性能就低了)
因为是内存数据集，RDD的容错性设计不能基于副本(内存多宝贵啊，哪经得起副本这种败家玩法；而且如果使用副本技术，需要把同一个副本的数据存放到不同的机器的内存，这个会发生很大的网络io)，而是基于lineage。这个和mr有很大差别。
RDD需要在计算过程中提供容错能力，海量数据集的快速恢复是必备能力。RDD不能像RMDB使用像redo,undo这种细粒度的方式来提供恢复能力。为什么？
如果RDD使用细粒度的方式，它需要建立内存共享(share memory)的机制，需要做大量的内存加锁，线程/进程同步的工作，可想而知，效率会很低。
RDD使用的是粗粒度的容错性：先通过transformation建立逻辑上的lineage。如果需要容错，可以通过lineaga重新计算一遍transforamtion来构造RDD，大部分场景中，这个过程要远比从磁盘重新load数据进内存快得多。
这种方式，可以避免对RDD加锁，避免实现分布式锁和分布式同步，性能会更高，但是必须要求RDD“不可变”。
当然，spark也为RDD提供了缓存的能力，避免重新计算，尤其对复杂低效的计算，比如shuffle。总之，这种方式，简单粗暴，能快速恢复但消耗内存。

快速恢复是RDD特性，这也是Resilient这个单词的本意呀。