开篇:spark各种库,sparksql,sparkmachicelearning,等这么多库底层都是封装的RDD.意味着 1:RDD本身提供了通用的抽象, 2:spark现在有5个子框架,sql,Streaming,流式处理,机器学习,图计算,sparkR.可以根据具体领域的内容建模,建第6个库,第7个库.必须掌握spark的这个通用抽象基石-RDD. 1:RDD,基于工作集的分布式函数编程的应用抽象.MapReduce是基于数据集的.他们的共同特征是位置感知,容错和负载均衡是数据集和工作集都…