Spark作为一个开源数据处理框架,它在数据计算过程中把中间数据直接缓存到内存里,能大大提高处理速度,特别是复杂的迭代计算.Spark主要包括SparkSQL,SparkStreaming,Spark MLLib以及图计算. Spark核心概念简介 1.RDD即弹性分布式数据集,通过RDD可以执行各种算子实现数据处理和计算.比如用Spark做统计词频,即拿到一串文字进行WordCount,可以把这个文字数据load到RDD之后,调用map.reducebyKey 算子,最后执行count动作触发…