最近在做sparkstreaming整合kafka的时候遇到了一个问题: 可以抽象成这样一个问题:有状态的wordCount,且按照word的第一个字母为key,但是要求输出的格式为(word,1)这样的形式 举例来说: 例如第一批数据为: hello how when hello 则要求输出为:(hello,1) (how,2) (when,1) (hello,3) 第二批数据为: hello how when what hi 则要求输出为: (hello,4) (how,5) (when,2…