介绍 1.是spark core的扩展,针对实时数据流处理,具有可扩展.高吞吐量.容错. 数据可以是来自于kafka,flume,tcpsocket,使用高级函数(map reduce filter ,join , windows), 处理的数据可以推送到database,hdfs,针对数据流处理可以应用到机器学习和图计算中. 内部,spark接受实时数据流,分成batch(分批次)进行处理,最终在每个batch终产生结果stream. 2.discretized stream or DStre…