spark streaming是以batch的方式来消费,strom是准实时一条一条的消费.当然也可以使用trident和tick的方式来实现batch消费(官方叫做mini batch).效率嘛,有待验证.不过这两种方式都是先把数据从kafka中读取出来,然后缓存在内存或者第三方,再定时处理.如果这时候集群退出,而偏移量又没处理好的话,数据就丢掉了. 而spark streaming提供了两种获取方式,一种是同storm一样,实时读取缓存到内存中;另一种是定时批量读取. 这两种方式分别是: R…