1,分布式单词计数的流程

首先要有数据源,在SentenceSpout中定义了一个字符串数组sentences来模拟数据源。字符串数组中的每句话作为一个tuple发射。其实,SplitBolt接收SentenceSpout发射的tuple,它将每句话分割成每个单词,并将每个单词作为tuple发射。再次,WordCountBolt接收SplitBolt发送的tuple,它将接收到的每一个单词统计计数,并将 <单词:出现次数> 作为tuple发射。最后,ReportBolt接收WordCountBolt发送的tuple,将统计的结果存入HashMap中,并打印出结果。

流程图如下:

2,Topology的组成类

ISpout、IComponent、IBolt三个接口定义了一些最基本的方法,BaseRichSpout、BaseRichBolt是接口的实现类,自定义的Spout与Bolt通过继承实现类来完成工作。

aaarticlea/png;base64," alt="" />

详细解释参考代码里面的注释。参考《Storm分布式实时计算模式》第一章中的例子。

1, SentenceSpou.java分析:

private String[] sentences = { "my dog has fleas", "i like cold beverages",
"the dog ate my homework", "don't have a cow man",
"i don't think i like fleas" };

定义了待发射的数据源。Spout从该字符串数组一次取一个字符串生成tuple进行发射。

32     public void open(@SuppressWarnings("rawtypes") Map conf,
33 TopologyContext context, SpoutOutputCollector collector) {
34 // TODO Auto-generated method stub
35 this.collector = collector;
36 }

open函数,在ISpout接口中定义,所有的Spout组件在初始化时调用这个方法。在open()中初始化了发射器。

55     public void declareOutputFields(OutputFieldsDeclarer declarer) {
56 // TODO Auto-generated method stub
57 declarer.declare(new Fields("sentence"));// 标记SentenceSpout发送的tuple的键为
58 // sentence
59 }

declareOutputFields函数标记了该Spout发射的tuple的(字段值)键值。下游的Bolt可以通过该键值来接收它发出的tuple

41     public void nextTuple() {
42 // TODO Auto-generated method stub
43 // 以字符串数组sentences 中的每个字符串 作为参数 构造tuple
44 this.collector.emit(new Values(sentences[index]));// 通过emit方法将构造好的tuple发送出去
45 index++;
46 if (index >= sentences.length) {
47 index = 0;
48 }
49 Utils.sleep(100);
50 }

nextTuple()是所有Spout的核心方法。Storm通过调用这个方法向collector发射tuple。Values.java 继承了ArrayList,new Values(...)构造了一个List对象,并将之作为emit的参数通过collector发射出去。

这里的发射规则是:每次发射其中一个字符串,阻塞100ms。当发射完整个字符串数组时,将索引(index)重新置0。可以继续发射。除非显示终止Topology,否则它不会停止。

SentenceSpou.java代码如下:

 1 package org.apache.storm.storm_core;
2
3 import java.util.Map;
4
5 import backtype.storm.spout.SpoutOutputCollector;
6 import backtype.storm.task.TopologyContext;
7 import backtype.storm.topology.OutputFieldsDeclarer;
8 import backtype.storm.topology.base.BaseRichSpout;
9 import backtype.storm.tuple.Fields;
10 import backtype.storm.tuple.Values;
11 import backtype.storm.utils.Utils;
12
13 public class SentenceSpout extends BaseRichSpout {
14 /**
15 *
16 */
17 private static final long serialVersionUID = 3444934973982660864L;
18 private SpoutOutputCollector collector;// 用来向其他Spout发射tuple
19 private String[] sentences = { "my dog has fleas", "i like cold beverages",
20 "the dog ate my homework", "don't have a cow man",
21 "i don't think i like fleas" };
22
23 private int index = 0;
24
25 /*
26 * open() 方法在所有的Spout组件初始化时被调用
27 *
28 * @param Map conf storm 配置信息
29 *
30 * @context TopologyContext topology 组件信息
31 */
32 public void open(@SuppressWarnings("rawtypes") Map conf,
33 TopologyContext context, SpoutOutputCollector collector) {
34 // TODO Auto-generated method stub
35 this.collector = collector;
36 }
37
38 /*
39 * Values.java extends ArrayList Storm 调用该方法向输出的collector发射tuple
40 */
41 public void nextTuple() {
42 // TODO Auto-generated method stub
43 // 以字符串数组sentences 中的每个字符串 作为参数 构造tuple
44 this.collector.emit(new Values(sentences[index]));// 通过emit方法将构造好的tuple发送出去
45 index++;
46 if (index >= sentences.length) {
47 index = 0;
48 }
49 Utils.sleep(100);
50 }
51
52 /*
53 * SentenceSpout 发送的tuple它是一个包含键值对的List,该方法声明了List中包含的键值对的键为 sentence
54 */
55 public void declareOutputFields(OutputFieldsDeclarer declarer) {
56 // TODO Auto-generated method stub
57 declarer.declare(new Fields("sentence"));// 标记SentenceSpout发送的tuple的键为
58 // sentence
59 }
60 }

SplitBolt.java代码如下:

 1 package org.apache.storm.storm_core;
2
3 import java.util.Map;
4
5 import backtype.storm.task.OutputCollector;
6 import backtype.storm.task.TopologyContext;
7 import backtype.storm.topology.OutputFieldsDeclarer;
8 import backtype.storm.topology.base.BaseRichBolt;
9 import backtype.storm.tuple.Fields;
10 import backtype.storm.tuple.Tuple;
11 import backtype.storm.tuple.Values;
12
13 public class SplitSentenceBolt extends BaseRichBolt {
14 /**
15 *
16 */
17 private static final long serialVersionUID = -2107029392155190729L;
18 private OutputCollector collector;// 用来向其他Spout发射tuple的发射器
19
20 /*
21 * (non-Javadoc) prepare方法类似于open方法,prepare在bolt初始化时被调用
22 */
23 public void prepare(Map stormConf, TopologyContext context,
24 OutputCollector collector) {
25 // TODO Auto-generated method stub
26 this.collector = collector;// 发射器初始化
27
28 }
29
30 public void execute(Tuple input) {
31 // TODO Auto-generated method stub
32 // 接收从SentenceSpout的发射器发射过来的tuple,因为SentenceSpout中声明的tuple字段为sentence,故getStringByField方法的参数为sentence
33 String sentence = input.getStringByField("sentence");// 该tuple是一个包含
34 // 键为sentence
35 // 值为字符串
36 // 的列表List<Map<sentence,String>>
37 String[] words = sentence.split(" ");// 将字符串分解成一个个的单词
38 for (String word : words)
39 this.collector.emit(new Values(word));// 将每个单词构造成tuple并发送给下一个Spout
40 }
41
42 public void declareOutputFields(OutputFieldsDeclarer declarer) {
43 // TODO Auto-generated method stub
44 declarer.declare(new Fields("word"));// 定义SplitSentenceBolt发送的tuple的字段("键值")为 word
45 }
46 }

WordCountBolt.java

 package org.apache.storm.storm_core;

 import java.util.HashMap;
import java.util.Map; import backtype.storm.task.OutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichBolt;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Tuple;
import backtype.storm.tuple.Values; public class WordCountBolt extends BaseRichBolt{ private OutputCollector collector;
private HashMap<String, Long>counts = null;//统计每个单词出现的次数,放到HashMap中保存起来 public void prepare(Map stormConf, TopologyContext context,
OutputCollector collector) {
// TODO Auto-generated method stub
this.collector = collector;
this.counts = new HashMap<String, Long>();//初始化HashMap,因为prepare会被自动调用的
} public void execute(Tuple input) {
// TODO Auto-generated method stub
String word = input.getStringByField("word");
Long count = this.counts.get(word);
if(count == null)//HashMap中没有word这个单词
count = 0L;
count++;
this.counts.put(word, count);//更新该单词在HashMap中的统计次数
//此处发射的tuple包含了两个元素:单词和计数,它每次发送的是一个长度为2的List,
//可理解为:List.add(new HashMap("word",word)); List.add(new HashMap(("count",count));
this.collector.emit(new Values(word, count));//第一个元素的键为 "word",值为该单词(a string),第二个键为 "count",值为单词的计数
} public void declareOutputFields(OutputFieldsDeclarer declarer) {
// TODO Auto-generated method stub
declarer.declare(new Fields("word", "count"));
}
}

ReportBolt.java如下:

package org.apache.storm.storm_core;

import java.util.ArrayList;
import java.util.Collections;
import java.util.HashMap;
import java.util.List;
import java.util.Map; import backtype.storm.task.OutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichBolt;
import backtype.storm.tuple.Tuple; public class ReportBolt extends BaseRichBolt{
/**
*
*/
private static final long serialVersionUID = 4921144902730095910L;
// private OutputCollector collector; ReportBolt不需要发射tuple了
private HashMap<String, Long> counts = null; public void prepare(Map stormConf, TopologyContext context,
OutputCollector collector) {
// TODO Auto-generated method stub
this.counts = new HashMap<String, Long>();
} public void execute(Tuple input) {
// TODO Auto-generated method stub
String word = input.getStringByField("word");
Long count = input.getLongByField("count");
this.counts.put(word, count);
} public void declareOutputFields(OutputFieldsDeclarer declarer) {
// TODO Auto-generated method stub
//不需要发出任何数据流
} //Topology在storm集群中运行时,cleanup方法是不可靠的,并不能保证它一定会执行
public void cleanup(){
System.out.println("------ print counts ------");
List<String> keys = new ArrayList<String>();
keys.addAll(counts.keySet());//将HashMap中所有的键都添加到一个集合中
Collections.sort(keys);//对键(单词)进行排序
for(String key : keys)//输出排好序的每个单词的出现次数
System.out.println(key + " : " + this.counts.get(key));
System.out.println("--------bye----------");
}
}

WordCountTopology.java如下:

 1 package org.apache.storm.storm_core;
2
3 import backtype.storm.Config;
4 import backtype.storm.LocalCluster;
5 import backtype.storm.topology.TopologyBuilder;
6 import backtype.storm.tuple.Fields;
7 import backtype.storm.utils.Utils;
8
9 public class WordCountTopology {
10 private static final String SENTENCE_SPOUT_ID = "sentence-spout";
11 private static final String SPLIT_BOLT_ID = "split-bolt";
12 private static final String COUNT_BOLT_ID = "count-bolt";
13 private static final String REPORT_BOLT_ID = "report-bolt";
14 private static final String TOPOLOGY_NAME = "word-count-topology";
15
16 public static void main(String[] args) throws Exception{
17 SentenceSpout spout = new SentenceSpout();
18 SplitSentenceBolt splitBolt = new SplitSentenceBolt();
19 WordCountBolt countBolt = new WordCountBolt();
20 ReportBolt reportBolt = new ReportBolt();
21
22 TopologyBuilder builder = new TopologyBuilder();
23 builder.setSpout(SENTENCE_SPOUT_ID, spout);
24 builder.setBolt(SPLIT_BOLT_ID, splitBolt).shuffleGrouping(SENTENCE_SPOUT_ID);
25 builder.setBolt(COUNT_BOLT_ID, countBolt).fieldsGrouping(SPLIT_BOLT_ID, new Fields("word"));
26 builder.setBolt(REPORT_BOLT_ID, reportBolt).globalGrouping(COUNT_BOLT_ID);
27
28 Config config = new Config();
29 LocalCluster cluster = new LocalCluster();
30
31 cluster.submitTopology(TOPOLOGY_NAME, config, builder.createTopology());
32 Utils.sleep(1000);
33 cluster.killTopology(TOPOLOGY_NAME);
34 cluster.shutdown();
35
36 }
37 }

Storm WordCount Topology学习的更多相关文章

  1. 2 storm的topology提交执行

    本博文的主要内容有 .storm单机模式,打包,放到storm集群 .Storm的并发机制图 .Storm的相关概念 .附PPT 打包,放到storm集群去.我这里,是单机模式下的storm. wee ...

  2. 3、SpringBoot 集成Storm wordcount

    WordCountBolt public class WordCountBolt extends BaseBasicBolt { private Map<String,Integer> c ...

  3. 关于Storm 中Topology的并发度的理解

    来自:https://storm.apache.org/documentation/Understanding-the-parallelism-of-a-Storm-topology.html htt ...

  4. Storm编程入门API系列之Storm的Topology默认Workers、默认executors和默认tasks数目

    关于,storm的启动我这里不多说了. 见博客 storm的3节点集群详细启动步骤(非HA和HA)(图文详解) 建立stormDemo项目 Group Id :  zhouls.bigdata Art ...

  5. Storm编程入门API系列之Storm的Topology多个Workers数目控制实现

    前期博客 Storm编程入门API系列之Storm的Topology默认Workers.默认executors和默认tasks数目 继续编写 StormTopologyMoreWorker.java ...

  6. Storm编程入门API系列之Storm的Topology多个Executors数目控制实现

    前期博客 Storm编程入门API系列之Storm的Topology默认Workers.默认executors和默认tasks数目 Storm编程入门API系列之Storm的Topology多个Wor ...

  7. Storm编程入门API系列之Storm的Topology多个tasks数目控制实现

    前期博客 Storm编程入门API系列之Storm的Topology默认Workers.默认executors和默认tasks数目 Storm编程入门API系列之Storm的Topology多个Wor ...

  8. Storm提交Topology报错:Found multiple defaults.yaml resources.

    Storm提交Topology运行方式分为本地和集群运行两种,其中集群运行需要将程序打包并把jar包复制到集群,通过以下方式执行: bin/storm jar /opt/run/storm-demo- ...

  9. Twitter Storm中Topology的状态

    Twitter Storm中Topology的状态 状态转换如下,Topology 的持久化状态包括: active, inactive, killed, rebalancing 四个状态. 代码上看 ...

随机推荐

  1. Oracle 数据表误删恢复 Flashback

    1. 前提条件. recyclebin 参数打开. 验证参数是否打开: SHOW PARAMETER RECYCLEBIN 2. 如果参数没有打开的话 需要打开,并且重启一下数据库方法为 alter ...

  2. PSexec以及xcopy的简单使用

    1. 远程执行命令. 有时候不想远程但是想执行一些命令, 比较简单的方法是: 下载systeminternals 然后解压缩后可以讲目录放到path环境变量中 然后打开命令行工具 输入 如下的命令 p ...

  3. 从网上整理的一些delphi字符串加密解密方法

    function Encode(Str: string): string; var //加密 TmpChr: AnsiChar; i, Len: integer; begin Result := St ...

  4. 为Bootstrap模态对话框添加拖拽移动功能

    请自行下载使用到的Bootstrap库及jQuery库 <!DOCTYPE html> <html> <head lang="en"> < ...

  5. 闭包自由变量引用对象的问题 http://bbs.pythontab.com/thread-4266-1-1.html

  6. Galaxy S10使用几乎零黑边框的OLED显示屏

    2019年的首波安卓旗舰中,目前关于三星Galaxy S10的爆料是最多的,在销量连续萎缩后,外界对手机一哥的“发力之作”充满期待. 据TheElec报道,Galaxy S10正面使用的是一块几乎零黑 ...

  7. Linux学习之/etc/init.d/目录和rc.local脚本

    init.d目录中包含很多系统服务的启动和停止脚本,比较常用的就是网络服务,当你修改了网络配置时,可以自行 sudo /etc/init.d/networking restart  命令来重启网络服务 ...

  8. 关于js特效轮播图练习

    [出现问题] js轮播图,图片未正常轮播. [解决方法] 通过对代码的检查,发现是以下三个原因造成的错误. 1.js代码问题 js代码使用alert(test);,测试修改完毕后,发现依然没有解决错误 ...

  9. Catenyms POJ - 2337(单词+字典序输出路径)

    题意: 就是给出几个单词 看能否组成欧拉回路或路径  当然还是让输出组成的最小字典序的路 解析: 还是把首尾字母看成点   把单词看成边 记录边就好了 这题让我对fleury输出最小字典序又加深了一些 ...

  10. Lights inside a 3d Grid UVA - 11605(概率)

    题意: 给出一个n * m * h的空间 每次任意选择两个点  使得在以这两个点连线为对角线的空间的点的值 取反  (初始为0) 求经过k次操作后最后有多少点的值为1 解析: 遇到坐标分维去看  把三 ...