scala> val input =sc.textFile("/home/simon/SparkWorkspace/test.txt")input: org.apache.spark.rdd.RDD[String] = /home/simon/SparkWorkspace/test.txt MapPartitionsRDD[32] at textFile at <console>:24 scala> input.foreach(println)hello sim…
Transformation处理的数据为Key-Value形式的算子大致可以分为:输入分区与输出分区一对一.聚集.连接操作. 输入分区与输出分区一对一 mapValues mapValues:针对(Key,Value)型数据中的Value进行Map操作,而不对Key进行处理. 方框代表RDD分区.a=>a+2代表只对( V1, 1)数据中的1进行加2操作,返回结果为3. 源码: /** * Pass each value in the key-value pair RDD through a m…
RDD: Resilient Distributed Dataset RDD的特点: 1.A list of partitions 一系列的分片:比如说64M一片:类似于Hadoop中的split: 2.A function for computing each split 在每个分片上都有一个函数去迭代/执行/计算它 3.A list of dependencies on other RDDs 一系列的依赖:RDDa转换为RDDb,RDDb转换为RDDc,那…