1.三大弹性数据集介绍 1)概念 2)优缺点对比 2.Spark RDD概述与创建方式 1)概述 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilientdistributed dataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区.RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序. 通过对RDD的操作形成整个Spark程序. 2)创建方式 a)创建方式一 val data = Array(1, 2, 3, 4,…