一.简介 Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目.相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最为广泛使用的分布式计算框架. 二.特点 Apache Spark 具有以下特点: 使用先进的 DAG 调度程序,查询优化器和物理执行引擎,以实现性能上的保证: 多语言支持,目前支持的有 Java,Sc…