1.怎么理解spark streaming中的dstream? 它是spark streaming的基础数据结构,代表着(time,RDD)序列,有两种生成方式,一种是基于流数据创建(kafka,socket...),一种是基于已有的dstream进行转换产生.在spark streaming作业运行的时候,Dstream会根据它的duration,定期生成RDD.而且会进一步根据rdd生成作业,排入队列,调度器触发执行. 由此可以理解,为什么说spark streaming是微批处理的.它提前…