在使用中一直知其然不知其所以然的地使用RDD.cache(),系统的学习之后发现还有一个与cache功能类似看起来冗余的persist 点进去一探究竟之后发现cache()是persist()的特例,persist可以指定一个StorageLevel.StorageLevel的列表可以在StorageLevel 伴生单例对象中找到: cache的源码: /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */…
问题:cache 与 checkpoint 的区别? 关于这个问题,Tathagata Das 有一段回答: There is a significant difference between cache and checkpoint. Cache materializes the RDD and keeps it in memory and/or disk(其实只有 memory). But the lineage(也就是 computing chain) of RDD (that is, s…