前言:Spark编程模型两个主要抽象,一个是弹性分布式数据集RDD,它是一种特殊集合,支持多种数据源,可支持并行计算,可缓存:另一个是两种共享变量,支持并行计算的广播变量和累加器. 1.RDD介绍 Spark大数据处理平台建立在RDD之上,RDD是Spark的核心概念,最主要的抽象之一.RDD和Spark之间的关系是,RDD是一种基于内存的具有容错性的集群抽象方法,Spark是这个抽象方法的实现. RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spa…