做大数据一定要有一个概念,需要处理的数据量非常大,少则几十T,多则上百P,全部放内存是不可能的,会OOM,必须要用迭代器一条一条处理. RDD叫做弹性分布式数据集,是早期Spark最核心的概念,是一种数据集合,它的核心就是迭代器. 创建方式 有两种创建RDD的方式: 在驱动程序中并行化现有集合 引用外部存储系统中的数据集 示例1:并行化集合 val rdd = sc.parallelize(Array(1,2,3,2,3,2,5)) 示例2:引用外部文件 val file = sc.textFi