首先我们来了解一些Spark的优势:1.每一个作业独立调度,可以把所有的作业做一个图进行调度,各个作业之间相互依赖,在调度过程中一起调度,速度快.2.所有过程都基于内存,所以通常也将Spark称作是基于内存的迭代式运算框架.3.spark提供了更丰富的算子,让操作更方便.4.更容易的API:支持Python,Scala和Java其实spark里面也可以实现Mapreduce,但是这里它并不是算法,只是提供了map阶段和reduce阶段,但是在两个阶段提供了很多算法.如Map阶段的map, fla…