Storm 第三章 Storm编程案例及Stream Grouping详解

1 功能说明

　　设计一个topology，来实现对文档里面的单词出现的频率进行统计。整个topology分为三个部分：

　　SentenceSpout：数据源，在已知的英文句子中，随机发送一条句子出去。

　　SplitBolt：负责将单行文本记录（句子）切分成单词

　　CountBolt：负责对单词的频率进行累加

2 代码实现

 package com.ntjr.bigdata;

 import org.apache.storm.Config;

 import org.apache.storm.LocalCluster;

 import org.apache.storm.StormSubmitter;

 import org.apache.storm.generated.AlreadyAliveException;

 import org.apache.storm.generated.AuthorizationException;

 import org.apache.storm.generated.InvalidTopologyException;

 import org.apache.storm.topology.TopologyBuilder;

 import org.apache.storm.tuple.Fields;

 public class WrodCountTopolog {

     public static void main(String[] args) throws AlreadyAliveException, InvalidTopologyException, AuthorizationException {

         //使用TopologyBuilder 构建一个topology

         TopologyBuilder topologyBuilder = new TopologyBuilder();

         //发送英文句子

         topologyBuilder.setSpout("sentenceSpout", new SentenceSpout(), 2);

         //将一行行的文本切分成单词

         topologyBuilder.setBolt("splitBolt", new SplitBolt(), 2).shuffleGrouping("sentenceSpout");

         //将单词的频率进行累加

         topologyBuilder.setBolt("countBolt", new CountBolt(), 2).fieldsGrouping("splitBolt", new Fields("word"));

         //启动topology的配置信息

         Config config = new Config();

         //定义集群分配多少个工作进程来执行这个topology

         config.setNumWorkers(3);

         //本地模式提交topology

         LocalCluster localCluster = new LocalCluster();

         localCluster.submitTopology("mywordCount", config, topologyBuilder.createTopology());

         //集群模式提交topology

         StormSubmitter.submitTopologyWithProgressBar("mywordCount", config, topologyBuilder.createTopology());

     }

 }

WrodCountTopolog.java

 package com.ntjr.bigdata;

 import java.util.Map;

 import org.apache.storm.spout.SpoutOutputCollector;

 import org.apache.storm.task.TopologyContext;

 import org.apache.storm.topology.OutputFieldsDeclarer;

 import org.apache.storm.topology.base.BaseRichSpout;

 import org.apache.storm.tuple.Fields;

 import org.apache.storm.tuple.Values;

 public class SentenceSpout extends BaseRichSpout {

     private static final long serialVersionUID = 1L;

     // 用来收集Spout输出的tuple

     private SpoutOutputCollector collector;

     @Override

     public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {

         this.collector = collector;

     }

     // 该方法会循环调用

     @Override

     public void nextTuple() {

         collector.emit(new Values("i am lilei love hanmeimei"));

     }

     // 消息源可以发送多条消息流，该方法定义输出的消息类型的字段

     @Override

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

         declarer.declare(new Fields("love"));

     }

 }

SentenceSpout.java

 package com.ntjr.bigdata;

 import java.util.Map;

 import org.apache.storm.task.OutputCollector;

 import org.apache.storm.task.TopologyContext;

 import org.apache.storm.topology.OutputFieldsDeclarer;

 import org.apache.storm.topology.base.BaseRichBolt;

 import org.apache.storm.tuple.Fields;

 import org.apache.storm.tuple.Tuple;

 import org.apache.storm.tuple.Values;

 public class SplitBolt extends BaseRichBolt {

     private static final long serialVersionUID = 1L;

     private OutputCollector collector;

     // 该方法只会调用一次用来执行初始化

     @Override

     public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

         this.collector = collector;

     }

     // 接收的参数时spout发出来的句子，一个句子就是一个tuple

     @Override

     public void execute(Tuple input) {

         String line = input.getString(0);

         String[] words = line.split(" ");

         for (String word : words) {

             collector.emit(new Values(word, 1));

         }

     }

     // 定义输出类型，输出类型为单词和单词的数目和collector.emit(new Values(word, 1));对应

     @Override

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

         declarer.declare(new Fields("word", "num"));

     }

 }

SplitBolt.java

 package com.ntjr.bigdata;

 import java.util.HashMap;

 import java.util.Map;

 import org.apache.storm.task.OutputCollector;

 import org.apache.storm.task.TopologyContext;

 import org.apache.storm.topology.OutputFieldsDeclarer;

 import org.apache.storm.topology.base.BaseRichBolt;

 import org.apache.storm.tuple.Tuple;

 public class CountBolt extends BaseRichBolt {

     private static final long serialVersionUID = 1L;

     private OutputCollector collector;

     // 用来保存最后的计算结果 key:单词，value：单词的个数

     Map<String, Integer> map = new HashMap<String, Integer>();

     // 该方法调用一次用来执行初始化

     @Override

     public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

         this.collector = collector;

     }

     @Override

     public void execute(Tuple input) {

         String word = input.getString(0);

         Integer num = input.getInteger(1);

         if (map.containsKey(word)) {

             Integer count = map.get(word);

             map.put(word, count + num);

         } else {

             map.put(word, num);

         }

         System.out.println("count:" + map);

     }

     @Override

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

     }

 }

CountBolt.java

3 执行流程图

3 Stream Grouping详解

　　3.1 Shuffle Grouping: 随机分组，随机派发stream里面的tuple，保证每个bolt接收到的tuple数目大致相同。

　　3.2 Fields Grouping：按字段分组，比如按userid来分组，具有同样userid的tuple会被分到相同的Bolts里的一个task，而不同的userid则会被分配到不同的bolts里的task。

　　3.3 All Grouping：广播发送，对于每一个tuple，所有的bolts都会收到。

　　3.4 Global Grouping：全局分组，这个tuple被分配到storm中的一个bolt的其中一个task。再具体一点就是分配给id值最低的那个task。

　　3.5 Non Grouping：不分组，这stream grouping个分组的意思是说stream不关心到底谁会收到它的tuple。目前这种分组和Shuffle grouping是一样的效果，有一点不同的是storm会把这个bolt放到这个bolt的订阅者同一个线程里面去执行。

　　3.6 Direct Grouping：直接分组，这是一种比较特别的分组方法，用这种分组意味着消息的发送者指定由消息接收者的哪个task处理这个消息。只有被声明为Direct Stream的消息流可以声明这种分组方法。而且这种消息tuple必须使用emitDirect方法来发射。

　　　　　　　　　　　　消息处理者可以通过TopologyContext来获取处理它的消息的task的id （OutputCollector.emit方法也会返回task的id）。

　　3.7 Local or shuffle grouping：如果目标bolt有一个或者多个task在同一个工作进程中，tuple将会被随机发生给这些tasks。否则，和普通的Shuffle Grouping行为一致。