一.spark的算子分类 转换算子和行动算子 转换算子:在使用的时候,spark是不会真正执行,直到需要行动算子之后才会执行.在spark中每一个算子在计算之后就会产生一个新的RDD. 二.在编写spark程序的时候,会遇到可以通过spark算子完成的操作,同时,scala原生语法也可以完成的操作是,两者的区别是什么? scala在执行语句的时候是在JVM进程执行,所有的计算全是在JVM中通过相应的调度完成. 而spark的RDD执行时,是通过分布式计算的方式完成. 三.转换算子的使用 map算…