Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时.数据挖掘与机器学习应用场景 Spark和Hadoop Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReducer快40倍左右. Spark是hadoop的升级版本,Hadoop作为第一代产品使用HDFS,第二代加入了Cache来保存中间计算结果,并能适时主动推Map/Reduce…