背景 使用spark开发已有几个月.相比于python/hive,scala/spark学习门槛较高.尤其记得刚开时,举步维艰,进展十分缓慢.不过谢天谢地,这段苦涩(bi)的日子过去了.忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验. Spark基础 基石RDD spark的核心是RDD(弹性分布式数据集),一种通用的数据抽象,封装了基础的数据操作,如map,filter,reduce等.RDD提供数据共享的抽象,相比其他大数据处理框架,如MapReduce,Peg…