1.spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速.因此运行spark的机器应该尽量的大内存,如96G以上. 2.spark所有操作均基于RDD,操作主要分成2大类:transformation与action. 3.spark提供了交互处理接口,类似于shell的使用. 4.spark可以优化迭代工作负载,因为中间数据均保存于内存中. 5.spark 是在 Scala 语言中实现的,它可以使用scala.python进行交互式操作,还可以使用scala.python.…