一.介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等.数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取.并且可以使用以高级函数表示的复杂算法进行处理map,例如reduce,join和window.最后,处理后的数据可以推送到文件系统,数据库和实时仪表盘.[DStresam]:离散流,连续的RDD序列.准实时计算,以batch处理作业. 2.在内部,它的工作原理如下.Spark Stream