Spark Streaming 是一个分布式数据流处理框架,它可以近乎实时的处理流数据,它易编程,可以处理大量数据,并且能把实时数据与历史数据结合起来处理. Streaming 使得 spark 具有了流式处理的能力,它为数据流式处理提供了高层抽象,底层仍然是 spark,所以它具有 spark 的可扩展.可容错.高吞吐量的特点,而且它可以与 spark 的各种库结合使用,如 sparkSQL.MLib.ml 等 总体架构 Spark Streaming 是一个伪实时的流处理框架,它处理的是一个…