RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以有许多分区(partitions),每个分区又拥有大量的记录(records). 五个特征: dependencies:建立RDD的依赖关系,主要rdd之间是宽窄依赖的关系,具有窄依赖关系的rdd可以在同一个stage中进行计算. partition:一个rdd会有若干个分区,分区的大小决定了对这个…