RDD是什么? RDD,全称是Reslilient Distributed Datasets,是一个容错的,并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区.同时,RDD还提供了一组丰富的操作来操作这些数据.在这些操作中.诸如map,flatMap,filter等转换操作实现了monad模式,很好的契合了Scala的集合操作.除此之外,RDD还提供了诸如join,groupBy,reduceByKey等更为方便的操作,(注意:reduceByKey是action,而非…