有时候,Transformation 的 RDD 非常多或者具体 Transformation 产生的 RDD 本身计算特别复杂和耗时,此时我们必须考虑对计算结果数据进行持久化.与 persist 不同,persist 是优先将结果放入内存,内存不够的情况下,会放在磁盘.无论是放内存还是磁盘,都是不可靠的.Checkpoint 的产生就是为了相对而言更加可靠的持久化数据. 1. Checkpoint 可以指定把数据放在本地并且是多副本的方式,但是正常的生产环境下是放在 HDFS 上的,这就保证了…