一般来说,分布式数据集的容错性有两种方式: 1.数据检查点 2.记录数据的更新 我们面向的是大规模数据分析,数据检查点操作成本很高:需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源(在内存中复制数据可以减少需要缓存的数据量,而存储到磁盘则会降低应用程序速度).所以,我们选择记录更新的方式. 但是,如果更新太多,记录更新成本也不低.因此,RDD只支持粗粒度转换,即在大量记录上执行的单个操作.将创建RDD的一系列转换记录下来(即Lin…