虽然默认情况下 RDD 的内容是临时的,但 Spark 提供了在 RDD 中持久化数据的机制.第一次调用动作并计算出 RDD 内容后,RDD 的内容可以存储在集群的内存或磁盘上.这样下一次需要调用依赖该 RDD 的动作时,就不需要从依赖关系中重新计算 RDD,数据可以从缓存分区中直接返回: cached.cache()cached.count()cached.take(10) 在上述代码中, cache 方法调用指示在下次计算 RDD 后,要把 RDD 存储起来.调用count 会导致第一次计算…