<dependency>
<groupId>org.apache.storm</groupId>
<artifactId>storm-core</artifactId>
<version>0.9.5</version>
</dependency>

经常使用类

backtype.storm.topology.TopologyBuilder

用来建立topology。

SpoutDeclarer backtype.storm.topology.TopologyBuilder.setSpout(String id, IRichSpout spout, Number parallelism_hint)

给topology设置spout。parallelism_hint为将要运行这个spout的任务数。每一个任务相应着一个线程。

BoltDeclarer backtype.storm.topology.TopologyBuilder.setBolt(String id, IRichBolt bolt, Number parallelism_hint)

给topology设置bolt。



backtype.storm.Config

此类拥有一系列成员方法。用来设置相应的參数。



void backtype.storm.StormSubmitter.submitTopology(String name, Map stormConf, StormTopology topology) 

向storm集群提交topology。

backtype.storm.topology.IComponent
一个接口,表明topology的组件。
void backtype.storm.topology.IComponent.declareOutputFields(OutputFieldsDeclarerdeclarer)

声明当前topology的全部stream的输出模式。

backtype.storm.topology.OutputFieldsDeclarer
输出字段的声明者。

void backtype.storm.topology.OutputFieldsDeclarer.declare(Fields fields)
用默认的stream id进行声明。

void backtype.storm.topology.OutputFieldsDeclarer.declareStream(String streamId, Fields fields)
用指定的stream id与field进行声明
backtype.storm.task.TopologyContext

一个topologyContext会在bolt的prepare()和spout的open()方法中传递给bolt和spout。该类包括了组件在topology内的位置信息,如任务id,输入与输出等。



List<Integer> backtype.storm.spout.SpoutOutputCollector.emit(List<Object> tuple)

喷出一个tuple到默认的输出stream。此steam没有消息id,所以storm没有办法跟踪,因此对于这个tuple将永远不会调用ack()与fail()方法。

List<Integer> backtype.storm.task.OutputCollector.emit(Tuple anchor, List<Object> tuple)

喷射一个新的tuple到默认的抛锚在一个单一tuple的流上。

Tuple

backtype.storm.tuple.Tuple

tuple是storm中的主要数据结构之中的一个,是喷口与闪电之间发送消息的基本单位。它是一个被命名的values的list,当中的每个value都能够是随意类型。

backtype.storm.tuple.Fields.Fields(String... fields)

Fields类的构造函数。形參列表为(String... fields)。

调试中的一个tuple见图1.
图1:调试中的一个tuple

Spout

backtype.storm.spout.ISpout
这是spout类的核心接口。它有一下几种方法。

void backtype.storm.spout.ISpout.open(Map conf, TopologyContext context, SpoutOutputCollector collector)
当这个组件的task在集群中的一台worker内被初始化的时候,该函数被调用。它向spout提供了该spout运行的环境。
void backtype.storm.spout.ISpout.close()

当spout被关闭时此方法得到调用。
void backtype.storm.spout.ISpout.activate()
当spout从抑制状态变为激活状态时调用。

void backtype.storm.spout.ISpout.deactivate()
当spout被抑制时调用。此时它的nextTuple()方法不会被调用。

void backtype.storm.spout.ISpout.nextTuple()

当该方法被调用时,要求SpoutOutputCollector喷射tuple。

void backtype.storm.spout.ISpout.ack(Object msgId)

表示从此spout喷出的带有messageID的tuple已被全然处理。

该方法的一个典型实现是把消息从队列中移走。避免被再次处理。

void backtype.storm.spout.ISpout.fail(Object msgId)

表示从此spout喷出的带有messageID的tuple未被全然处理。该方法的一个典型实现是把该消息再次放入队列,以便被再次发送。



backtype.storm.topology.IRichSpout

继承自ISpout与IComponent。

backtype.storm.spout.SpoutOutputCollector
用于spout的tuple喷射。注意与backtype.storm.task.OutputCollector的差别。
List<Integer> backtype.storm.spout.SpoutOutputCollector.emit(List<Object> tuple)

喷出一个tuple到默认的输出stream,此steam没有消息id,所以storm没有办法跟踪。因此对于这个tuple将永远不会调用ack()与fail()方法。

Bolt

backtype.storm.task.IBolt
这是bolt类的核心接口。

有下面几个方法:

void backtype.storm.task.IBolt.prepare(Map stormConf, TopologyContext context, OutputCollector collector)

当这个组件的task在集群中的一台worker内被初始化的时候。该函数被调用。它向bolt提供了该bolt运行的环境。

void backtype.storm.task.IBolt.execute(Tuple input)

处理输入的一个单一tuple。




backtype.storm.topology.IRichBolt

继承自IBolt与IComponent。

backtype.storm.task.OutputCollector

输出收集器用于发射来自IRichBolt的tuple。

List<Integer> backtype.storm.task.OutputCollector.emit(Tuple anchor, List<Object> tuple)

喷射一个新的tuple到默认的抛锚在一个单一tuple的流上。

List<Integer> backtype.storm.task.OutputCollector.emit(String streamId, List<Object> tuple)

向指定的stream中喷射数据。

backtype.storm.topology.InputDeclarer.shuffleGrouping(String componentId)

用于声明接收哪些spout或bolt的输出作为该bolt的输入。

BoltDeclarer backtype.storm.topology.InputDeclarer.localOrShuffleGrouping(String componentId)

用于声明接收哪些spout或bolt的输出作为该bolt的输入。

BoltDeclarer backtype.storm.topology.InputDeclarer.fieldsGrouping(String componentId, String streamId, Fields fields)

用于声明接收指定spout或bolt的指定stream的指定fields作为该bolt的输入。

BoltDeclarer backtype.storm.topology.InputDeclarer.allGrouping(String componentId, String streamId)

用于声明接收指定spout或bolt的指定stream作为该bolt的输入。

样例


storm 经常使用类的更多相关文章

  1. Storm常用的类

    BaseRichSpout (消息生产者)BaseBasicBolt (消息处理者)TopologyBuilder (拓扑的构建器)Values (将数据存放到values ,发送到下个组件)Tupl ...

  2. Storm TimeCacheMap RotatingMap源码分析

    TimeCacheMap是Twitter Storm里面一个类, Storm使用它来保存那些最近活跃的对象,并且可以自动删除那些已经过期的对象. 不过在storm0.8之后TimeCacheMap被弃 ...

  3. 用Storm轻松实时大数据分析【翻译】

    原文地址 简单易用,Storm让大数据分析变得轻而易举. 如今,公司在日常运作中经常会产生TB(terabytes)级的数据.数据来源包括从网络传感器捕获的,到Web,社交媒体,交易型业务数据,以及其 ...

  4. 使用Storm实现实时大数据分析

    摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战.Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Sto ...

  5. storm概念学习及流处理与批处理的区别

    在过去10 年中,随着互联网应用的高速发展,企业积累的数据量越来越大,越来越多.随着Google MapReduce.Hadoop 等相关技术的出现,处理大规模数据变得简单起来,但是这些数据处理技术都 ...

  6. Twitter Storm如何保证消息不丢失

    storm保证从spout发出的每个tuple都会被完全处理.这篇文章介绍storm是怎么做到这个保证的,以及我们使用者怎么做才能充分利用storm的可靠性特点. 一个tuple被”完全处理”是什么意 ...

  7. Twitter Storm: storm的一些常见模式

    这篇文章列举出了storm topology里面的一些常见模式: 流聚合(stream join) 批处理(Batching) BasicBolt 内存内缓存 + fields grouping 组合 ...

  8. 流式计算之Storm简介

    Storm是一个分布式的.容错的实时计算系统,遵循Eclipse Public License 1.0,Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm之于实时处理,就好比H ...

  9. Zookeeper+Kafka+Storm+HDFS实践

    Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据. Hadoop一般用在离线的分析计算中,而storm区别于hadoop,用在实时的流式计算中,被广泛用来 ...

随机推荐

  1. 【Codeforces Round #450 (Div. 2) A】Find Extra One

    [链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 模拟. 看看Y左边或右边的点个数是否<=1 [代码] #include <bits/stdc++.h> using ...

  2. (转)如何启动或关闭数据库的归档(ARCHIVELOG)模式

    转自:http://www.eygle.com/archives/2004/10/oracle_howtoeci.html Oracle数据库可以运行在2种模式下:归档模式(archivelog)和非 ...

  3. SpringMVC响应Ajax请求(@Responsebody注解返回页面)

    项目需求描述:page1中的ajax请求Controller,Controller负责将service返回的数据填充到page2中,并将page2整个页面返回到page1中ajax的回调函数. 一句话 ...

  4. CentOS 7 virt-manager 无法连接本地的hypervisor

    OS : CentOS 7 Gnome Desktop 问题描写叙述: CentOS 7 下使用yum install virt-manager之后.使用virt-manager无法连接本地的hype ...

  5. apache-spark导入eclipse环境

    工作中用到了apache-spark,想深入了解一下,决定从源码开始. 先导入到常用的ide,eclipse吧: 准备工作 1.  下载Eclipse:http://scala-ide.org/ 2. ...

  6. express 学习笔记(一)路由

    先导入express: var express = require('express'); var app = express(); 1.路由方法: get, post, put, head, del ...

  7. windows SID

    显示SID whoami /user 修改SID C:\windows\system32\sysprep\sysprep.exe /generalize /oobe /reboot

  8. 2、JNI说明

    JNI (Java Native Interface) 1. JAVA调用CLinux是用C语言写的,可以写一个APP简单调用open,read,write来访问驱动程序;Android是用Java写 ...

  9. hdu 5078 Osu!(鞍山现场赛)

    Osu! Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 262144/262144 K (Java/Others) Total Sub ...

  10. [WASM] Read WebAssembly Memory from JavaScript

    We use an offset exporting function to get the address of a string in WebAssembly memory. We then cr ...