Spark基础 什么是spark 也是一个分布式的并行计算框架 spark是下一代的map-reduce,扩展了mr的数据处理流程. Spark架构原理图解 RDD[Resilient Distributed Dataset] 它是一个弹性分布式数据集,具有良好的通用性.容错性与并行处理数据的能力,为用户屏蔽了底层对数据的复杂抽象和处理,为用户提供了一组方便的数据转换与求值方法. 弹性 存储弹性:n内存与磁盘d额自动切换 容错弹性:数据丢失可以自动恢复 计算的弹性:计算出错重试机制 分片弹性:根…