Spark 是一个用来实现快速而通用的集群计算的平台.在速度方面,Spark 扩展了广泛使用的MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理.在处理大规模数据集时,速度是非常重要的.Spark 的一个主要特点就是能够在内存中进行计算,因而更快.不过即使是必须在磁盘上进行的复杂计算,Spark 依然比MapReduce 更加高效. 总的来说,Spark 适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理.迭代算法.交互式查询.流处理.通过在一个统一的框架…