Spark最吸引开发者的就是简单易用.跨语言(Scala, Java, Python, and R)的API. 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API:它们各自适合的使用场景:它们的性能和优化:列举使用DataFrame和DataSet代替RDD的场景.本文聚焦DataFrame和Dataset,因为这是Apache Spark 2.0的API统一的重点. Apache Spark 2.0统一API的主要动机是:简化Spark.通过减少…