生态 Spark Core:最重要,其中最重要的是RDD(弹性分布式数据集) Spark SQL Spark Streaming Spark MLLib:机器学习算法 Spark Graphx:图计算 特点 针对大规模数据处理的快速通用引擎 基于内存计算 速度快,易用,兼容性强 体系架构 主节点:Cluster Manager(Standalone时叫Master) 从节点:Worker(占用节点上所有资源,耗内存,没用内存管理机制,易OOM) 安装部署 安装jdk,配置主机名,配置免密码登录…