storm之8：并行度

（一）storm拓扑的并行度可以从以下4个维度进行设置：
1、node（服务器）：指一个storm集群中的supervisor服务器数量。
2、worker（jvm进程）：指整个拓扑中worker进程的总数量，这些数量会随机的平均分配到各个node。
3、executor（线程）：指某个spout或者bolt的总线程数量，这些线程会被随机平均的分配到各个worker。
4、task（spout/bolt实例）：task是spout和bolt的实例，它们的nextTuple()和execute()方法会被executors线程调用。除非明确指定，storm会给每个executor分配一个task。如果设置了多个task，即一个线程持有了多个spout/bolt实例.
注意：以上设置的都是总数量，这些数量会被平均分配到各自的宿主上，而不是设置每个宿主进行多少个进程/线程。详见下面的例子。

（二）并行度的设置方法
1、node：买机器吧，然后加入集群中……
2、worker：Config#setNumWorkers() 或者配置项 TOPOLOGY_WORKERS
3、executor：Topology.setSpout()/.setBolt()
4、task：ComponentConfigurationDeclarer#setNumWorker()

（三）例子：
       // 3、创建topology
       TopologyBuilder builder = new TopologyBuilder();
       builder.setSpout("kafka-reader", new KafkaSpout(spoutConf), 5);//设置executor数量为5
       builder.setBolt("filter-bolt", new FilterBolt(), 3).shuffleGrouping(
               "kafka-reader");//设置executor数量为3
       builder.setBolt("log-splitter", new LogSplitterBolt(), 3)
               .shuffleGrouping("filter-bolt");//设置executor数量为5
       builder.setBolt("hdfs-bolt", hdfsBolt, 2).shuffleGrouping(
               "log-splitter");//设置executor数量为2

// 4、启动topology
       Config conf = new Config();
       conf.put(Config.NIMBUS_HOST, nimbusHost);
       conf.setNumWorkers(3);      //设置worker数量
       StormSubmitter.submitTopologyWithProgressBar(topologyName, conf,
               builder.createTopology());

1、通过config.setNumWorkers(3)将worker进程数量设置为3，假设集群中有3个node，则每个node会运行一个worker。
2、executor的数量分别为：
spout:5
filter-bolt:3
log-splitter:3
hdfs-bolt:2
总共为13个executor，这13个executor会被随机分配到各个worker中去。
注：这段代码是从kafka中读取消息源的，而这个topic在kafka中的分区数量设置为5，因此这里spout的线程娄为5.
3、这个示例都没有单独设置task的数量，即使用每个executor一个task的默认配置。若需要设置，可以：
builder.setBolt("log-splitter", new LogSplitterBolt(), 3)
.shuffleGrouping("filter-bolt").setNumTasks(5);
来进行设置，这5个task会被分配到3个executor中。

（四）并行度的动态调整
对storm拓扑的并行度进行调整有2种方法：
1、kill topo—>修改代码—>编译—>提交拓扑
2、动态调整
第1种方法太不方便了，有时候topo不能说kill就kill，另外，如果加几台机器，难道要把所有topo kill掉还要修改代码？
因此storm提供了动态调整的方法,动态调整有2种方法：
1、ui方式：进入某个topo的页面，点击rebalance即可，此时可以看到topo的状态是rebalancing。但此方法只是把进程、线程在各个机器上重新分配，即适用于增加机器，或者减少机器的情形，不能调整worker数量、executor数量等
2、cli方式：storm rebalance
举个例子
storm rebalance toponame -n 7 -e filter-bolt=6 -e hdfs-bolt=8
将topo的worker数量设置为7，并将filter-bolt与hdfs-bolt的executor数量分别设置为6、8.
此时，查看topo的状态是rebalancing，调整完成后，可以看到3台机器中的worker数量分别为3、2、2

storm之8：并行度的更多相关文章

Storm拓扑的并行度（parallelism）介绍
Storm拓扑的并行度(parallelism)介绍 1.Storm分为3个主要实体,用于在Storm集群中运行拓扑工作进程:Worker Process,也称为Worker ...
理解 Storm 拓扑的并行度(parallelism)概念
组成:一个运行中的拓扑是由什么构成的:工作进程(worker processes),执行器(executors)和任务(tasks)! 在一个 Storm 集群中,Storm 主要通过以下三个部件来运 ...
Storm概念学习系列之并行度与如何提高storm的并行度
不多说,直接上干货! 对于storm来说,并行度的概念非常重要!大家一定要好好理解和消化. storm的并行度,可以简单的理解为多线程. 如何提高storm的并行度? storm程序主要由spout和 ...
storm教程
二.安装部署一.storm伪分布式安装 (一)环境准备1.OS:debian 72.JDK 7.0 (二)安装zookeeper1.下载zookeeper并解压 wget http://mirr ...
Storm基础知识
上一篇文章我们介绍一个简单的Storm起源,今天我去学习Storm一些主要的知识,他的基本使用基本的了解.幸运的是,,不是太困难,假设我们理解Hadoop的MapReduce模型的话.看这个也是很类似 ...
大数据处理框架之Strom: Storm拓扑的并行机制和通信机制
一.并行机制 Storm的并行度 ,通过提高并行度可以提高storm程序的计算能力. 1.组件关系:Supervisor node物理节点,可以运行1到多个worker,不能超过supervisor. ...
Storm 系列（一）基本概念
Storm 系列(一)基本概念 Apache Storm(http://storm.apache.org/)是由 Twitter 开源的分布式实时计算系统. Storm 可以非常容易并且可靠地处理无限 ...
storm原理介绍
目录 storm原理介绍一.原理介绍二.配置三.并行度 (一)storm拓扑的并行度可以从以下4个维度进行设置: (二)并行度的设置方法 (三)示例四.分组五.可靠性 (一)spout (二 ...
Storm实践(一)：基础知识
storm简介 Storm是一个分布式实时流式计算平台,支持水平扩展,通过追加机器就能提供并发数进而提高处理能力:同时具备自动容错机制,能自动处理进程.机器.网络等异常. 它可以很方便地对流式数据进行 ...

随机推荐

电源VCC、VSS、VDD、VEE、VPP、Vddf标号的区别
一.解释VCC:C=circuit表示电路的意思,即接入电路的电压: VDD:D=device表示器件的意思,即器件内部的工作电压:VEE:发射极电源电压,EmitterVoltage,一般用于ECL ...
ASP.NET 查询客户端请求IP地址
public class CheckIP { #region 获取浏览器版本号 /// <summary> /// 获 ...
Linux2.6内核--内存管理（1）--分页机制
在内核里分配内存可不像在其他地方分配内存那么容易.造成这种局面的因素很多.从根本上讲,是因为内核本身不能像用户空间那样奢侈的使用内存.内核与用户空间不同,它不具备这种能力,它不支持简单便捷 ...
软件发布版本区别介绍-Alpha,Beta,RC,Release
Alpha: Alpha是内部测试版,一般不向外部发布,会有很多Bug.除非你也是测试人员,否则不建议使用. 是希腊字母的第一位,表示最初级的版本 alpha就是α,beta就是β alpha版就是比 ...
-_-#微信内置JavaScript API WeixinJSBridge
微信相关的 js 操作:分享.网络.菜单微信内置JsAPI之WeixinJSBridge微信WeixinJSBridge API续
validator 对象
validate方法返回Validator对象,Validator对象有很多种有用的方法: Validator.form()验证表单是否有效,返回true/false Validator.elemen ...
OpenStack Networking
今天的数据中心网络比以往不论什么时候包括的设备都要多,比如server.网络设备.存储系统和安全设备等.这当中有非常多被近一步划分为多个虚拟机和虚拟网络.IP地址的数量.路由配置和安全规则能够迅速达到 ...
java环境下的数据库读写分离
方案很多:阿里的中间件cobar.aop注解方式.com.mysql.jdbc.ReplicationDriver读写分离驱动MySQL数据库的同步. MySQL是开源的关系型数据库系统.主从同步复制 ...
SlidingMenu导入编译用法--Eclipse和IDEA
非常多側滑的应用都用的是开源库SlidingMenu, 效果不错,下面是我用上的效果图,因为近期换成了IDEA(IntelliJ)编辑器,昨天上网找了全部的教程都是关于在Eclipse导入的方法,摸索 ...
开源消息中间件DotNetMQ
由于这个开源项目对我这种中间件菜鸟很有帮助,因此,我将官方的说明文档翻译如下: Introduction In this article, I will introduce a new and ind ...

storm之8：并行度

storm之8：并行度的更多相关文章

随机推荐

热门专题