在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区.通过对多台机器上不同RDD分区的控制,能够减少机器之间的数据重排(Data Shuffle).Spark提供了“partitionBy”运算符,能够通过集群中多台机器之间对原始RDD进行数据再分配来创建一个新的RDD.RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序.通过…