storm并行

Storm并行度

wordcount 统计job代码

public class WordCountTopology {

    private static final String SENTENCE_SPOUT_ID = "sentence-spout";

    private static final String SPLIT_BOLT_ID = "split-bolt";

    private static final String COUNT_BOLT_ID = "count-bolt";

    private static final String REPORT_BOLT_ID = "report-bolt";

    private static final String TOPOLOGY_NAME = "word-count-topology";

    public static void main(String[] args) throws

            Exception {

        SentenceSpout spout = new SentenceSpout();

        SplitSentenceBolt splitBolt = new

                SplitSentenceBolt();

        WordCountBolt countBolt = new WordCountBolt();

        ReportBolt reportBolt = new ReportBolt();

        TopologyBuilder builder = new TopologyBuilder();

        builder.setSpout(SENTENCE_SPOUT_ID, spout);

        // SentenceSpout --> SplitSentenceBolt

        builder.setBolt(SPLIT_BOLT_ID, splitBolt).shuffleGrouping(SENTENCE_SPOUT_ID);

        // SplitSentenceBolt --> WordCountBolt

        builder.setBolt(COUNT_BOLT_ID, countBolt).fieldsGrouping(

                SPLIT_BOLT_ID, new Fields("word"));

        // WordCountBolt --> ReportBolt

        builder.setBolt(REPORT_BOLT_ID, reportBolt).globalGrouping(COUNT_BOLT_ID);

        Config config = new Config();

        LocalCluster cluster = new LocalCluster();

        cluster.submitTopology(TOPOLOGY_NAME, config,

                builder.createTopology());

        Utils.sleep(10000);

        cluster.killTopology(TOPOLOGY_NAME);

        cluster.shutdown();

    }

}

流程：（包括一个spout和三个bolt）
sentence-spout  生成句子

split-bolt      切分句子传入单词

count-bolt　    单词统计

report-bolt     结果输出

Storm允许计算水平扩展到多台机器,将计算划分为多个独立的任务在集群上并行执行。在storm中,任务只是在集群中运行的一个Spout的bolt实例。理解并行性是如何工作的,我们必须首先解释一个Stormn集群拓扑参与执行的四个主要组件:

　　1）Nodes(机器):这些只是配置为Storm集群参与执行拓扑的部分的机器。Storm集群包含一个或多个节点来完成工作。

　　2）Workers(JVM):这些是在一个节点上运行独立的JVM进程。每个节点配置一个或更多运行的worker。一个拓扑可以请求一个或更多的worker分配给它。

　　3）Executors(线程):这些是worker运行在JVM进程一个Java线程。多个任务可以分配给一个Executor。除非显式重写,Storm将分配一个任务给一个Executor。

　　4）Tasks(Spout/Bolt实例):任务是Spout和bolt的实例，在executor线程中运行nextTuple()和executre()方法。

1、WordCountTopology并行性

　　到目前为止,在我们的单词计数的例子中,我们没有显式地使用任何Storm的并行api;相反,我们允许Storm使用其默认设置。在大多数情况下,除非覆盖,Storm将默认使用最大并行性设置。改变拓扑结构的并行设置之前,让我们考虑拓扑在默认设置下是如何将执行的。设我们有一台机器(节点),指定一个worker的拓扑,并允许Storm每一个任务一个executor执行,执行我们的拓扑，将会如下:

　　正如您可以看到的,并行性只有线程级别。每个任务运行在一个JVM的一个单独的线程内。我们怎样才能利用我们手头的硬件更有效地提高并行性?让我们开始通过增加worker和executors的数量来运行我们的拓扑。

2、在拓扑中增加worker

　　分配额外的worker是一个增加拓扑计算能力的一种简单方法,Storm提供了通过其API或纯粹配置来更改这两种方式。无论我们选择哪一种方法,我们的组件上Spout的和bolt没有改变,并且可以重复使用。以前版本的字数统计拓扑中,我们介绍了配置对象,在部署时传递到submitTopology()方法,但它基本上未使用。增加分配给一个拓扑中worker的数量,我们只是调用Config对象的setNumWorkers()方法:

Config config = new Config();

config.setNumWorkers(2);

　　这个分配两个Worker的拓扑结构而不是默认的。这将计算资源添加到我们的拓扑中,为了有效地利用这些资源,我们也会想调整executors的数量和我们的拓扑每个executor的task数量。

3、配置executor数和task数

　　正如我们所看到的,默认情况下，在一个拓扑定义时Storm为每个组件创建一个单一的任务,为每个任务分配一个executor。Storm的并行API提供了修改这种行为的方式,允许您设置的每个任务的executor数和每个exexutor的task数量。

executor的数量分配到一个给定的组件是通过修改配置当定义一个流分组并行性时。为了说明这个特性,让我们修改我们的拓扑SentenceSpout并行度分配两个任务,每个任务分配自己的executor线程:

builder.setSpout(SENTENCE_SPOUT_ID, spout, 2);

　　如果我们使用一个worker,执行我们的拓扑现在看起来像下面的样子:

　　接下来,我们将设置分割句子bolt为两个有四个task的executor执行。每个executor线程将被指派两个任务执行(4 / 2 = 2)。我们还将配置字数统计bolt运行四个任务,每个都有自己的执行线程:

builder.setBolt(SPLIT_BOLT_ID, splitBolt, 2).setNumTasks(4)

    .shuffleGrouping(SENTENCE_SPOUT_ID);

builder.setBolt(COUNT_BOLT_ID, countBolt, 4)

    .fieldsGrouping(SPLIT_BOLT_ID, newFields("word"));

　　有两个worker,拓扑的执行将看起来像下面的图:

　　拓扑结构的并行性增加,运行更新的WordCountTopology类为每个单词产生了更高的总数量:

--- FINAL COUNTS ---

a : 2726

ate : 2722

beverages : 2723

cold : 2723

cow : 2726

dog : 5445

don't : 5444

fleas : 5451

has : 2723

have : 2722

homework : 2722

i : 8175

like : 5449

man : 2722

my : 5445

the : 2727

think : 2722

--------------

原来的结果：

--- FINAL COUNTS ---

a : 1426

ate : 1426

beverages : 1426

cold : 1426

cow : 1426

dog : 2852

don't : 2851

fleas : 2851

has : 1426

have : 1426

homework : 1426

i : 4276

like : 2851

man : 1426

my : 2852

the : 1426

think : 1425

--------------

　　因为Spout无限发出数据,直到topology被kill,实际的数量将取决于您的计算机的速度和其他什么进程运行它,但是你应该看到一个总体增加的发射和处理数量。

重要的是要指出,增加woker的数量并不会影响一个拓扑在本地模式下运行。一个拓扑在本地模式下运行总是运行在一个单独的JVM进程,所以只有任务和executro并行设置才会有影响。Storm的本地模式提供一个近似的集群行为在你测试在一个真正的应用程序集群生产环境之前对开发是很有用的。

Storm流分组

　　基于前面的例子,你可能想知道为什么我们不增加ReportBolt的并行性?答案是,它没有任何意义。要理解为什么,你需要理解Storm流分组的概念。流分组定义了在一个拓扑中一个流的元组是如何分布在bolt的任务的。例如,在并行版本的字数统计拓扑,在拓扑的SplitSentenceBolt类被分配了四个任务。流分组决定哪一个任务将获得哪一个给定的元组。

Storm定义了7个内置流分组一个自定义流分组:

　　1）随机分组:随机分配整个目标bolt的任务,这样每个元组bolt接收同等数量的元组。

　　2）字段分组:该元组基于分组字段中指定的值路由bolt任务。例如,如果一个流组合“word”字段,“word”相同的元组值字段将总是被路由到相同的bolt的任务。

　　3）All分组:这复制bolt任务所有的元组,每个任务将获得元组的一个副本。

　　4）Global分组:这个把所有元组路由到一个任务中,选择最低的任务任务ID值。注意,设置bolt的并行性或任务的数量在使用全球分组是没有意义的,因为所有元组将被路由到相同的bolt的任务。

　　　 Global分组应谨慎使用,因为它将所有元组路由到一个JVM实例,可能造成在特定JVM/机器在一个集群中形成拥塞。

　　5）None分组:None分组的功能相当于随机分组。它被保留以供将来使用。

　　6）直接分组:直接分组,源决定哪个组件将接收一个给定的元组通过调用emitDirect()方法。它只能用于定义直接流。

　　7） Local or shuffle grouping: 本地或随机分组类似于随机分组,但把元组shuffle到bolt任务运行在相同的工作进程中,如果可以。否则,它将退回到随机分组的行为。根据拓扑结构的并行性,本地或随机分组可以通过限制网络提高拓扑传输性能。

　　8）部分关键字分组。

除了预定义的分组,您可以定义您自己的流分组通过实现CustomStreamGrouping接口:

public interface CustomStreamGrouping extends Serializable {

    void prepare(WorkerTopologyContext context, GlobalStreamId stream, List<Integer> targetTasks);

    List<Integer> chooseTasks(int taskId, List<Object> values);

}

　　prepare()方法在运行时被调用，它初始化分组信息分组的实现可以使用它来决定元组元组怎样被任务说接受。WorkerTopologyContext对象提供关于拓扑的上下文信息,和GlobalStreamId对象提供元数据流分组。最有用的参数是targetTasks,它是分组需要考虑所有任务标识符列表。你通常会将targetTasksparameter作为一个实例变量引用存储在chooseTasks()方法的实现中。chooseTasks()方法返回一个应发送的元组任务标识符列表的。它的参数是发出元组组件的任务标识符和元组的值。

　　为了说明流分组的重要性,让我们引入一个错误拓扑。先修改SentenceSpout 的nextTuple()方法,它只发出每个句子一次:

public void nextTuple() {

    if(index < sentences.length){

        this.collector.emit(new Values(sentences[index]));

        index++;

    }

    Utils.waitForMillis(1);

}

现在运行拓扑得到以下输出:

--- FINAL COUNTS ---

a : 2

ate : 2

beverages : 2

cold : 2

cow : 2

dog : 4

don't : 4

fleas : 4

has : 2

have : 2

homework : 2

i : 6

like : 4

man : 2

my : 4

the : 2

think : 2

--------------

现在修改CountBolt的field分组为参数随机分组并重新运行拓扑:

原来：

builder.setBolt(COUNT_BOLT_ID, countBolt, 4)

    .fieldsGrouping(SPLIT_BOLT_ID, newFields("word"))

改成：
builder.setBolt(COUNT_BOLT_ID, countBolt, 4)

    .shuffleGrouping(SPLIT_BOLT_ID);

输出应该类似于下面:

--- FINAL COUNTS ---

a : 1

ate : 2

beverages : 1

cold : 1

cow : 1

dog : 2

don't : 2

fleas : 1

has : 1

have : 1

homework : 1

i : 3

like : 1

man : 1

my : 1

the : 1

think : 1

--------------

　　我们计算不正确了,因为CountBolt参数是有状态:它保留一个计数为每个收到的单词的。在这种情况下,我们计算的准确性取决于当组件被并行化基于元组的内容分组的能力。引入的错误我们将只显示如果CountBolt参数大于1的并行性。这强调了测试拓扑与各种并行配置的重要性。

1、Tip

　　一般来说,你应该避免将状态信息存储在一个bolt因为任何时间worker或有其任务重新分配失败,该信息将丢失。一个解决方案是定期快照的持久性存储状态信息,比如数据库,所以它可以恢复是否重新分配一个任务。

2、消息处理保证

　　Storm提供一个API,允许您保证Spout发出的一个元组被完全处理。到目前为止,在我们的示例中,我们不担心失败。我们已经看到,Spout流可以分裂和可以生成任意数量的流拓扑结构,根据下bolt的行为。在发生故障时,会发生什么呢?作为一个例子,考虑一个bolt持久化元组数据信息基于数据库。我们该如何处理数据库更新失败的情况呢?

3、Spout的可靠性

　　在Storm中,保证消息处理从Spout开始。Spout支持保证处理需要一种方法来跟踪发出的元组,如果下游处理完元组则回发一个元组,或任何元组失败。子元组可以被认为是任何来自Spout元组的结果元组。看的另一种方法是考虑Spout流(作为一个元组树的树干(下图所示):

　　在前面的图中,实线代表原树干spoout发出的元组,虚线代表来自最初的元组的元组。结果图代表元组树。保证处理,树中的每个bolt可以确认(ack)或fail一个元组。如果所有bolt在树上ack元组来自主干tuple,spout的ack方法将调用表明消息处理完成。如果任何bolt在树上明确fail一个元组,或如果处理元组树超过了超时时间,spout的fail方法将被调用。

Storm的ISpout接口定义了涉及可靠性的三个方法API:nextTuple,ack,fail。

public interface ISpout extends Serializable {

    void open(Map conf, TopologyContext context, SpoutOutputCollector collector);

    void close();

    void nextTuple();

    void ack(Object msgId);

    void fail(Object msgId);

}

　　正如我们所见过的,当Storm要求spout发出一个元组,它调用nextTuple()方法。实现保证处理的第一步是保证元组分配一个惟一的ID并将该值传递给SpoutOutputCollector的emit()方法：

collector.emit(new Values("value1", "value2") ,msgId);

　　分配tuple消息ID告诉Storm,Spout想接收通知或元组树完成时如果不能在任何时候如果处理成功,Spout的ack()方法将被调用的消息ID分配给元组。如果处理失败或超时,Spout的失败方法将被调用。

4、bolt可靠性

　　实现一个bolt,保证消息处理涉及两个步骤:

　　　　 1。锚定发射传入的元组当发射新的元组时。

　　　　 2。确认或失败

　　锚定一个元组意味着我们创造一个传入的元组和派生的元组之间的联系,这样任何下游bolt预计参与的元组树确认tuple,或让元组失败,或让它超时。

你可以锚定一个元组(或元组的列表)通过调用OutputCollector重载方法之一emit:

collector.emit(tuple, new Values(word));

　　在这里,我们锚定传入的元组并发射一个新的元组,下游bolt应该确认或失败。另一种形式的emit方法将发出所属的元组:

collector.emit(new Values(word));

　　未锚定的元组不参与一个流的可靠性保证。如果一个非锚点元组下游失败,它不会导致原始根元组的重发。成功处理元组后选择发射新的或派生的元组,一个bolt处理可靠流应该确认输入的元组:

this.collector.ack(tuple);

　　如果元组处理失败，这种情况下，spout必须重发(再)元组,bolt应明确失败的元组:

this.collector.fail(tuple)

　　如果元组由于超时或通过一个显式的调用处理OutputCollector.fail()方法失败,Spout,最初的元组,发出通知,让它重发tuple,您在稍后就会看到。

5、可靠的word count（修改后的程序）

　　为了进一步说明可靠性,我们首先加强SentenceSpout类支持保证可靠。

　　它将需要跟踪所有发出的元组并分配每一个惟一的ID,我们将使用一个HashMap < UUID、Values>对象来存储未处理完的元组。对于我们发出的每个元组,我们会分配一个唯一的标识符,并将其存储在我们的未处理完map。当我们收到一个消息的确认,我们将从我们的等待名单删除元组。失败,我们将重复该元组:

public class SentenceSpout extends BaseRichSpout {

    private ConcurrentHashMap<UUID, Values> pending;

    private SpoutOutputCollector collector;

    private String[] sentences = {

            "my dog has fleas",

            "i like cold beverages",

            "the dog ate my homework",

            "don't have a cow man",

            "i don't think i like fleas"

    };

    private int index = 0;

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

        declarer.declare(new Fields("sentence"));

    }

    public void open(Map config, TopologyContext context,

                     SpoutOutputCollector collector) {

        this.collector = collector;

        this.pending = new ConcurrentHashMap<UUID, Values>();

    }

    public void nextTuple() {

        Values values = new Values(sentences[index]);

        UUID msgId = UUID.randomUUID();

        this.pending.put(msgId, values);

        this.collector.emit(values, msgId);

        index++;

        if (index >= sentences.length) {

            index = 0;

        }

        Utils.sleep(1);

    }

    public void ack(Object msgId) {

        this.pending.remove(msgId);

    }

public void fail(Object msgId) {

        this.collector.emit(this.pending.get(msgId), msgId);

    }

}

　　修改bolt提供保证处理简单涉及锚定出站元组的元组,然后确认收到的元组:

public class ReliableSplitSentenceBolt extends BaseRichBolt {

    private OutputCollector collector;

    public void prepare(Map config, TopologyContext

            context, OutputCollector collector) {

        this.collector = collector;

    }

    public void execute(Tuple tuple) {

        String sentence = tuple.getStringByField("sentence");

        String[] words = sentence.split(" ");

        for(String word : words){

            this.collector.emit(tuple, new Values(word));

        }

        this.collector.ack(tuple);

    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

        declarer.declare(new Fields("word"));

    }

}

参考：

https://blog.csdn.net/duyuanhai/article/details/51145858

storm并行的更多相关文章

storm的并发
1 storm并行的基本概念 storm集群中的一个机器可以运行一个或者多个worker,对应于一个或者多个topologies. 1个worker进程运行1个或多个excutor线程.每个worke ...
【Storm篇】--Storm并发机制
一.前述为了提高Storm的并行能力,通常需要设置并行. 二.具体原理 1. Storm并行分为几个方面: Worker – 进程一个Topology拓扑会包含一个或多个Worker(每个Worke ...
【原】理解Storm拓扑的并行
Storm入门教程 1. Storm基础 Storm Storm主要特点 Storm基本概念 Storm调度器 Storm配置 Guaranteeing Message Processing(消息处理 ...
Storm集群中执行的各种组件及其并行
一.Storm中执行的组件我们知道,Storm的强大之处就是能够非常easy地在集群中横向拓展它的计算能力,它会把整个运算过程切割成多个独立的tasks在集群中进行并行计算.在Storm中 ...
大数据处理框架之Strom: Storm拓扑的并行机制和通信机制
一.并行机制 Storm的并行度 ,通过提高并行度可以提高storm程序的计算能力. 1.组件关系:Supervisor node物理节点,可以运行1到多个worker,不能超过supervisor. ...
Storm介绍(一)
作者:Jack47 PS:如果喜欢我写的文章,欢迎关注我的微信公众账号程序员杰克,两边的文章会同步,也可以添加我的RSS订阅源. 内容简介本文是Storm系列之一,介绍了Storm的起源,Storm ...
Storm构建分布式实时处理应用初探
最近利用闲暇时间,又重新研读了一下Storm.认真对比了一下Hadoop,前者更擅长的是,实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算.对于Hadoop, ...
Storm介绍及与Spark Streaming对比
Storm介绍 Storm是由Twitter开源的分布式.高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求.Storm常用于在实时分析.在线机器学 ...
storm 入门原理介绍
1.hadoop有master与slave,Storm与之对应的节点是什么? 2.Storm控制节点上面运行一个后台程序被称之为什么? 3.Supervisor的作用是什么? 4.Topology与W ...

随机推荐

c#在sqlserver中使用EF框架
vs2017,sqlserver2017(localdb)调试通过.在sqlserver中创建数据库d1,表t1如下: 录入数据如下: 在vs新建任意项目,此处以控制台为例.添加数据模型Model1: ...
windows 10 配置Java 环境变量(5步骤)
前提:1.windows 10 系统(不是win8,也不是win7)2.安装JDK步骤 1. 打开环境变量窗口右键 This PC(此电脑) -> Properties(属性) -> A ...
docker基础应用
环境: centos 7 docker 19.03.0-beta3 192.168.10.10 关于如何安装docker请参考:https://www.cnblogs.com/caesar-id/ ...
架构师小跟班：推荐46个非常经典的Linux面试题
大家都知道,做后端开发,做着做着就变成全栈了.一般服务器维护应该是运维的事情,但很多很多公司都是后端工程师在做.所以,基本的Linux系统维护也是后端工程师的必修课.问题一: 绝对路径用什么符号表示? ...
攻防世界-web -高手进阶区-PHP2
题目首先发现源码泄露 /index.phps 查看源代码即: <?php if("admin"===$_GET[id]) { echo("<p>no ...
【学习笔记】PYTHON网络爬虫与信息提取(北理工嵩天)
学习目的:掌握定向网络数据爬取和网页解析的基本能力the Website is the API- 1 python ide 文本ide:IDLE,Sublime Text集成ide:Pychar ...
spark 修改默认log4j.properties 配置
spark-submit \ --files ${CONF_DIR}/log4j-driver.properties,${CONF_DIR}/log4j-executor.properties \ - ...
《linux就该这么学》课堂笔记13 网络会话、ssh、远程会话
1.常见的网卡绑定驱动有三种模式—mode0.mode1和mode6 mode0(平衡负载模式):平时两块网卡均工作,且自动备援,但需要在与服务器本地网卡相连的交换机设备上进行端口聚合来支持绑定技术. ...
MySQL服务的构成（二）
一.什么是实例这里的实例不是类产生的实例对象,而是Linux系统下的一种机制 1.MySQL的后台进程+线程+预分配的内存结构. 2.MySQL在启动的过程中会启动后台守护进程,并生成工作线程,预分 ...
JS在HTML文档引入位置
我们今天来聊一聊关于JavaScript文件的引入位置的问题:大家在平时的Web开发中有没有想过这样一个问题,那就是我应该在文档的头部(也就是<head>标签内部里面)引入所需要的Java ...

storm并行

storm并行的更多相关文章

随机推荐

热门专题