1.Spark架构 分布式spark应用中的组件 在分布式环境下,Spark集群采用的是主/从结构.在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点.这个中央协调节点被称为驱动器(Driver)节点.与之对应的工作节点被称为执行器(executor)节点.驱动器节点可以和大量的执行器节点进行通信,它们也都作为独立的Java进行运行.驱动器节点和所有的执行器节点一起被称为一个Spark应用(application). Spark应用通过一个叫作集群管理器(Cluster Ma
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念. 对于RDD的原理性的知识,可以参阅Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 和 An Architecture for Fast and General Data Processing on Large Clusters 这两篇论文. 这篇