1 简述 spark中的RDD是一个分布式的元素集合. 在spark中,对数据的所有操作不外乎创建RDD,转化RDD以及调用RDD操作进行求值,而这些操作,spark会自动将RDD中的数据分发到集群上,并将操作并行执行. 2 创建 RDD 创建RDD分两种:读取外部数据集,在程序中对一个集合进行并行化. 2.1 读取外部数据集: 常用的方式是读取外部的数据集,比如文本文件读入为一个RDD: scalac版: val lines = sc.textFile("D:\workspace\scala_