答案: 两个坑, 性能坑和线程坑 DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”. DStream内部实现上有批次处理时间间隔,滑动窗口等机制来保证每个微批次的时间间隔里, 数据流以RDD的形式发送给spark做进一步处理.因此, 在一个为批次的处理时间间隔里, DStream只产生一个RDD. 可以利用dstream.foreachRDD把数据发送给外部系统. 但是想要正确地, 有效率的使用它, 必须理解一下背…