spark中RDD持久化浅析

今天朋友面试遇到一个问题:RDD能否持久化?

相信很多初步了解spark的朋友都会给予肯定的回答:是的,能够持久化!然后讲出持久化的算子或者级别等等。

对于这个问题我专门去网上查了一些资料,自己总结如下:

持久化说白了就是RDD.catch/persist/checkpoint调用这些算子,

而RDD五大特性第一条就很明确的告诉我们“算子是直接作用在RDD内的每个partition上”,

所以我们由此可以得知RDD的持久化其实是RDD内partition的持久化。

我们通常所说的RDD持久化改成partition的持久化或许会更确切一些。

原文地址:https://www.cnblogs.com/hejianxin/p/6893711.html