转载自:https://www.2cto.com/kf/201604/497083.html 1.概述 在高层的角度上看,每一个Spark应用都有一个驱动程序(driver program).驱动程序就是运行用户的main主程序并在集群上执行各种并行操作的程序.Spark中的一个主要的抽象概念就是弹性分布数据集(resilient distributed dataset,RDD),RDD是分布在多个节点构成的集群上的元素的集合,并支持并行操作.RDD可以由Hadoop的分布式文件系统(或其他支持…