Apache Spark是一种快速通用的集群计算系统. 它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎. 它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和Spark Streaming. Spark优点: 减少磁盘I/O:随着实时大数据应用越来越多,Hadoop作为离线的高吞吐.低响应框架已不能满足这类需求.HadoopMapReduce的map端将中间输出和结果存储在…