1.概述 总的来讲,每一个spark驱动程序应用都由一个驱动程序组成,该驱动程序包含一个由用户编写的main方法,该方法会在集群上执行一些并行计算操作.Spark最重要的一个概念是弹性分布式数据集,简称RDD,RDD是一个数据容器,他将分布式在集群上各个节点上的数据抽象为一个数据集,并且RDD能够进行一系列的并行计算操作.可以将RDD理解为一个分布式的List,该List的数据为分布在各个节点上的数据.RDD通过读取Hadoop文件系统中的一个文件进行创建,也可以有一个RDD经过转换得到.用户也…