1.最基本的Map用法 val data = Array(1, 2, 3, 4, 5)val distData = sc.parallelize(data)val result = distData.map(x=>x*x)println(result.collect().mkString(",")) 其中最关键的操作就是:从分布式数据集 --转换--> 并行数据集from a distributed dataset to Parallelized collections S…
scala版 ,基本名词概念及 rdd的基本创建及使用 var conf = new SparkConf() var sc: SparkContext = new SparkContext(conf) val rawRDDA = sc.parallelize(List("!! bb ## cc","%% cc bb %%","cc && ++ aa"),3) # sc.parallelize(,3) 将数据并行加载到三台机器上…