欢迎转载，转载请注明出处，徽沪一郎。

从用户层面来看TridentTopology，有两个重要的概念一是Stream,另一个是作用于Stream上的各种Operation。在实现层面来看，无论是stream，还是后续的operation都会转变成为各个Node，这些Node之间的关系通过重要的数据结构图来维护。具体到TridentTopology，实现图的各种操作的组件是jgrapht。

说到图，两个基本的概念会闪现出来，一是结点，二是描述结点之间关系的边。要想很好的理解TridentTopology就需要紧盯图中结点和边的变化。

TridentTopology在转换成为普通的StormTopology时，需要将原始的图分成各个group，每个group将运行于一个独立的bolt中。TridentTopology又是如何知道哪些node应该在同一个group,哪些应该处在另一个group中的呢；如何来确定每个group的并发度(parallismHint)的呢。这些问题的解决都与jgrapht分不开。

关于jgrapht的更多信息，请参考其官方网站 http://jgrapht.org

概要

在TridentTopology中向图中添加结点的api有三种：

addNode
addSourcedNode
addSourcedStateNode

其中addNode在创建stream是使用，addSourcedStateNode在partitionPersist时使用到，其它的operation使用到的是addSourcedNode.

addNode与其它两个方法的一个重要区别还在于，addNode是不需要添加边(Edge)，而其它两个API需要往图中添加edge，以确定该node的源是哪个。

TridentTopology

public TridentTopology() {

        _graph = new DefaultDirectedGraph(new ErrorEdgeFactory());

        _gen = new UniqueIdGen();

    }

在TridentTopology的构造函数中，创建了DAG(有向无环图)。利用这个_graph来作为容器以存储后续过程中创建的各个node及它们之间的关系。

newStream

newStream会为DAG(有向无环图)中创建源结点，其调用关系如下所示。

newStream
- addNode
  - registerNode

 protected void registerNode(Node n) {

         _graph.addVertex(n);

         if(n.stateInfo!=null) {

             String id = n.stateInfo.id;

             if(!_colocate.containsKey(id)) {

                 _colocate.put(id, new ArrayList());

             }

             _colocate.get(id).add(n);

         }

     }

each

作用于stream上的Operation有很多，以each为例来看新的operation是如何转换成为node添加到_graph中的。

//Stream.java
public Stream each(Fields inputFields, Function function, Fields functionFields) {

        projectionValidation(inputFields);

        return _topology.addSourcedNode(this,

                new ProcessorNode(_topology.getUniqueStreamId(),

                    _name,

                    TridentUtils.fieldsConcat(getOutputFields(), functionFields),

                    functionFields,

                    new EachProcessor(inputFields, function)));

    }

调用关系描述如下

Stream::each
TridentTopology::addSourcedNode
TridentTopology::registerSourcedNode

registerSourcedNode的实现如下

protected void registerSourcedNode(List<Stream> sources, Node newNode) {

        registerNode(newNode);

        int streamIndex = 0;

        for(Stream s: sources) {

            _graph.addEdge(s._node, newNode, new IndexedEdge(s._node, newNode, streamIndex));

            streamIndex++;

        }

    }

注意此处添加edge是，是有索引的，这样可以区别处理的先后顺序。

在Stream中含有成员变量_node，表示stream最近停泊的node,有了该变量添加edge才成为了可能。

partitionPersist

public TridentState partitionPersist(StateSpec stateSpec, Fields inputFields, StateUpdater updater, Fields functionFields) {

        projectionValidation(inputFields);

        String id = _topology.getUniqueStateId();

        ProcessorNode n = new ProcessorNode(_topology.getUniqueStreamId(),

                    _name,

                    functionFields,

                    functionFields,

                    new PartitionPersistProcessor(id, inputFields, updater));

        n.committer = true;

        n.stateInfo = new NodeStateInfo(id, stateSpec);

        return _topology.addSourcedStateNode(this, n);

    }

调用关系

Stream::partitionPersist
TridentTopology::addSourcedStateNode
TridentTopology::registerSourcedNode

与addNode及addSourcedNode不同的是，addSourcedStateNode返回的是TridentState而非Stream。

既然谈到了TridentState就不得不谈到其另一面Stream::stateQuery,

public Stream stateQuery(TridentState state, Fields inputFields, QueryFunction function, Fields functionFields) {

        projectionValidation(inputFields);

        String stateId = state._node.stateInfo.id;

        Node n = new ProcessorNode(_topology.getUniqueStreamId(),

                        _name,

                        TridentUtils.fieldsConcat(getOutputFields(), functionFields),

                        functionFields,

                        new StateQueryProcessor(stateId, inputFields, function));

        _topology._colocate.get(stateId).add(n);

        return _topology.addSourcedNode(this, n);

    }

从此处可以看出stateQueryNode最起码有两个inputStream，一是从TridentState而来表示状态已经改变，另一个是处于drpcStream这个方面的上一跳结点。

build

TridentTopology::build是将TridentTopology转变为StormTopology的过程，这一过程中最重要的一环就是将_graph中含有的node进行分组。

grouping

算法逻辑概述

将boltNodes中的每个boltNode作为一个group加入全部加入initialGroups
以graph和initialGroups作为入参创建GraphGrouper
分组的过程其实就是进行合并的过程，详见GraphGrouper::mergeFully()
- 如果从当前group1的输出目的地都是属于group2，则将group1,group2合并
- 如果当前group1的所有输入源都是来自于group2，则将group1，group2合并
- 将需要合并的group1,group2作为入参创建新的group，同时将group1,group2从已有的集合出移除

   public void mergeFully() {

        boolean somethingHappened = true;

        while(somethingHappened) {

            somethingHappened = false;

            for(Group g: currGroups) {

                Collection<Group> outgoingGroups = outgoingGroups(g);

                if(outgoingGroups.size()==1) {

                    Group out = outgoingGroups.iterator().next();

                    if(out!=null) {

                        merge(g, out);

                        somethingHappened = true;

                        break;

                    }

                }

                Collection<Group> incomingGroups = incomingGroups(g);

                if(incomingGroups.size()==1) {

                    Group in = incomingGroups.iterator().next();

                    if(in!=null) {

                        merge(g, in);

                        somethingHappened = true;

                        break;

                    }

                }

            }

        }

    }

GraphGrouper::merge()

  private void merge(Group g1, Group g2) {

        Group newGroup = new Group(g1, g2);

        currGroups.remove(g1);

        currGroups.remove(g2);

        currGroups.add(newGroup);

        for(Node n: newGroup.nodes) {

            groupIndex.put(n, newGroup);

        }

    }

在group之间添加partitionNode

// add identity partitions between groups

        for(IndexedEdge<Node> e: new HashSet<IndexedEdge>(graph.edgeSet())) {

            if(!(e.source instanceof PartitionNode) && !(e.target instanceof PartitionNode)) {

                Group g1 = grouper.nodeGroup(e.source);

                Group g2 = grouper.nodeGroup(e.target);

                // g1 being null means the source is a spout node

                if(g1==null && !(e.source instanceof SpoutNode))

                    throw new RuntimeException("Planner exception: Null source group must indicate a spout node at this phase of planning");

                if(g1==null || !g1.equals(g2)) {

                    graph.removeEdge(e);

                    PartitionNode pNode = makeIdentityPartition(e.source);

                    graph.addVertex(pNode);

                    graph.addEdge(e.source, pNode, new IndexedEdge(e.source, pNode, 0));

                    graph.addEdge(pNode, e.target, new IndexedEdge(pNode, e.target, e.index));

                }

            }

        }

_graph中所有的node在变换过后，变成两组元素，一是spoutNodes，另一个是合并后的mergedGroup.

spoutNodes中的每个元素作为spout添加到TridentTopologyBuilder的_spouts数组中，mergedGroup中的每个group添加到TridentTopologyBuilder的_bolt数组中。在TridentTopologyBuilder::build()中最主要的事情是为每个_spouts和_bolts数组中的成员添加grouping关系。

小结

到目前为止，通过两篇文章分析了TridentTopology的创建过程及其运行时在每个TridentBoltExecutor中的消息传递情况。接下来会分析TridentTopology提供的API实现及其作用场景。

twitter storm源码走读之8 -- TridentTopology创建过程详解的更多相关文章

Spring源码分析之Bean的创建过程详解
前文传送门: Spring源码分析之预启动流程 Spring源码分析之BeanFactory体系结构 Spring源码分析之BeanFactoryPostProcessor调用过程详解本文内容: 在 ...
twitter storm 源码走读之5 -- worker进程内部消息传递处理和数据结构分析
欢迎转载,转载请注明出处,徽沪一郎. 本文从外部消息在worker进程内部的转化,传递及处理过程入手,一步步分析在worker-data中的数据项存在的原因和意义.试图从代码实现的角度来回答,如果是从 ...
Apache Spark源码走读之16 -- spark repl实现详解
欢迎转载,转载请注明出处,徽沪一郎. 概要之所以对spark shell的内部实现产生兴趣全部缘于好奇代码的编译加载过程,scala是需要编译才能执行的语言,但提供的scala repl可以实现代码 ...
twitter storm源码走读之2 -- tuple消息发送场景分析
欢迎转载,转载请注明出处源自徽沪一郎.本文尝试分析tuple发送时的具体细节,本博的另一篇文章<bolt消息传递路径之源码解读>主要从消息接收方面来阐述问题,两篇文章互为补充. worke ...
twitter storm源码走读之3--topology提交过程分析
概要 storm cluster可以想像成为一个工厂,nimbus主要负责从外部接收订单和任务分配.除了从外部接单,nimbus还要将这些外部订单转换成为内部工作分配,这个时候nimbus充当了调度室 ...
twitter storm源码走读之1 -- nimbus启动场景分析
欢迎转载,转载时请注明作者徽沪一郎及出处,谢谢. 本文详细介绍了twitter storm中的nimbus节点的启动场景,分析nimbus是如何一步步实现定义于storm.thrift中的servic ...
twitter storm源码走读之7 -- trident topology可靠性分析
欢迎转载,转载请注明出处,徽沪一郎. 本文详细分析TridentTopology的可靠性实现, TridentTopology通过transactional spout与transactional s ...
twitter storm源码走读之6 -- Trident Topology执行过程分析
欢迎转载,转载请注明出处,徽沪一郎. TridentTopology是storm提供的高层使用接口,常见的一些SQL中的操作在tridenttopology提供的api中都有类似的影射.关于Tride ...
twitter storm源码走读之4 -- worker进程中线程的分类及用途
欢迎转载,转载请注明出版,徽沪一郎. 本文重点分析storm的worker进程在正常启动之后有哪些类型的线程,针对每种类型的线程,剖析其用途及消息的接收与发送流程. 概述 worker进程启动过程中最 ...

随机推荐

AU版有锁机的福利，704越狱彻底解决+86问题，完美IM/FT，重启不掉APN设置
http://bbs.25pp.com/thread-172881-1-1.html 串号99的是au版串号013的是sb版 44050 AU为找到咱们SB版的文件,为44020 http:/ ...
取余运算（codevs 1497）
题目描述 Description 输入b,p,k的值,编程计算bp mod k的值.其中的b,p,k*k为长整型数(2^31范围内). 输入描述 Input Description b p k 输出描 ...
ubuntu 安装tigervnc
root@iZ25q0jd99eZ:~# apt-get install tigervnc Reading package lists... Done Building dependency tree ...
Linux内核NAPI机制分析
转自:http://blog.chinaunix.net/uid-17150-id-2824051.html 简介:NAPI 是 Linux 上采用的一种提高网络处理效率的技术,它的核心概念就是不采用 ...
PHP使用七牛云存储之图片的上传、下载、303重定向教程，CI框架实例
网上关于七牛云存储的教程除了官网上的API文档,其他的资料太少了.研究了下API之后,现在已经能实现图片的上传和下载及上传之后的重定向. http://blog.csdn.net/cqcre/arti ...
如何开启PostGreSQL的远程访问端口？
用以下办法即可: postgresql默认情况下,远程访问不能成功,如果需要允许远程访问,需要修改两个配置文件,说明如下: 1.postgresql.conf 将该文件中的listen_address ...
h5 canvas 小球移动
h5 canvas 小球移动 <!DOCTYPE html> <html lang="en"> <head> <meta charset= ...
如何在多模型的情况下进行EF6的结构迁移
所谓多模型就是在一个数据库中包含两个不同模型,或者换句话说就是两个不同DbContext的数据都放到同一个数据库中.这里的多模型不是指多租户的数据库(有谁知道EF很好处理多租户数据库的方案,可以联系我 ...
C. Graph and String
二分图染色 b点跟除自身外所有的点连接,共n-1个,首先把连接n-1个的点全部设为b点,其它点任意一点设为a,与a相连的都是a点,剩余为c点.最后验证是否成立. 验证条件为,所有连接的点之间的差值的绝 ...
request操作的几个容易混淆的请求路径
假定你的web application 名称为news,你在浏览器中输入请求路径: http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果 ...

twitter storm源码走读之8 -- TridentTopology创建过程详解

概要