第一 概论 1.spark的特点 适用多种不同分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理: spark提供了python,scale,java等接口 2.spark的组件 spark的底层组件包括:独立调度器,Hadoop YARN,Apache Mesos spark的内核包括:任务调度,内存管理,错误恢复,RDD spark的顶层包括:spark sql,spark streaming,mlib,graphx 第二 环境搭建 1.说明: spark是用scale语言编写的:运