Spark 是大数据领域的一大利器,花时间总结了一下 Spark 常用算子,正所谓温故而知新. Spark 算子按照功能分,可以分成两大类:transform 和 action.Transform 不进行实际计算,是惰性的,action 操作才进行实际的计算.如何区分两者?看函数返回,如果输入到输出都是RDD类型,则认为是transform操作,反之为action操作. 准备 准备阶段包括spark-shell 界面调出以及数据准备.spark-shell 启动命令如下: bin/spark-s…