什么是spark,是一个分布式计算平台,或者说是分布式计算引擎,他的职责就是将指定的数据读入到各个node的内存中,然后计算.所以spark是具有泛化性质的,只要数据源是可读入的,读到内存里面之后,处理就和数据源没有关系了,你是HBASE,kudu,还是parquet都无所谓了. 什么是RDD,弹性分布式数据集,其实RDD是一个抽象概念,因为RDD本身不包含数据,它只包含数据描述以及对于数据的算法,比如一个sparkSQL返回的RDD其实就是一个对数据的描述,告诉各个节点的executor要处理