一.前述 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存. 控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition.cache和persist都是懒执行的.必须有一个action类算子触发执行.checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系. 二.具体算子 1. cache 默认将RDD的数据持久化到内存中.cache是懒执行. chche (…