本文主要介绍Spark的一些基本算子,PySpark及Spark SQL 的使用方法. 虽然我从2014年就开始接触Spark,但几年来一直没有真正地学以致用,时间一久便忘了如何使用,直到在工作中用到才再次捡起来.遂再整理一番,留作备忘. Apache Spark - Unified Engine for large-scale data analytics 支持的语言有:Python, SQL, Scala, Java, R. 因为Spark采用Scala开发,因此Scala接口是原生的.全面