数据结构 核心之数据集RDD 俗称为弹性分布式数据集.Resilient Distributed Datasets,意为容错的.并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区.同时,RDD还提供了一组丰富的操作来操作这些数据. RDD的特点 它是在集群节点上的不可变的.已分区的集合对象. 通过并行转换的方式来创建如(map, filter, join, etc). 失败自动重建. 可以控制存储级别(内存.磁盘等)来进行重用. 必须是可序列化的. 是静态类型的. 优点…