RDD的缓存 Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存数据集.当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用.这使得后续的动作变得更加迅速.RDD相关的持久化和缓存是Spark最重要的特征之一.可以说,缓存是Spark构建迭代式算法和快速交互式查询的关键. RDD缓存方式 RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的A…