storm学习笔记(一)


1、Nimbus
Nimbus创建时会创建以下三个节点:
a、/storm/workbeats/topology-id
b、/storm/storms/topology-id
c、/storm/assignments/topology-id
其中对于Nimbus只会创建目录不会设置数据(数据是worker设置的),b和c在创建的同时设置数据。a和b只有再提交新的topology的时候才会创建,并且b中的数据设置完后就不会再变化,
c是再第一次为该topology分配任务的时候创建,若任务分配计划有变,Nimbus就会更新它的内容
Nimbus从zk中获取数据时的路径,包括:
a、/storm/workbeats/topology-id
b、/storm/supervisor/topology-id
c、/storm/errors/topology-id
Nimbus需要从路径a中读取当前已被分配的Worker的运行状态。根据该信息可以得知Worker的状态以及Worker下面所有Executor的统计信息,这些信息会通过UI呈现给用户。
从路径b可以获取所有的Supervisor的状态,当有Supervisor不再活跃时会将它的任务分配到其它的空闲的Supervisor上去。
从路径c中获取所有的错误信息并通过UI呈现给用户
Storm集群中的机器数量时可以动态增减,当机器增减的时候会引起zookeeper中元数据的变化,Nimbus通过从zk中读取这些元数据不断地调整任务分配,所以Storm具有良好的可扩展性。
当Nimbus挂掉时,其他的节点时可以继续工作的,但是不能提交新的Topology,也不能重新进行任务的分配和负载调整,因此目前Nimbus存在单点的问题
2、Supervisor
supervisor除了zk'来创建和获取元数据外,还可以监控制定的本地文件来检测有它启动的所有的Worker的状态。
- 箭头3表示Supervisor在zk中创建的节点时/storm/supervisor/topology-id,当有新节点加入时会在该路径下创建一个节点。但是这个节点是临时的,当Supervisor和zk的链接稳定时,这个节点会一直存在,当和zk的连接断开时,该节点会被自动删除。所以该目录下都是当前活跃的机器,。这是Storm可以进行任务分配的基础,也是Storm具有容错性以及扩展性的基础
- 箭头4表示Supervisor需要获取元数据的路径是/storm/assignments/topology-id,它是Nimbus写入的对Topology任务分配的信息,Supervisor可以从该路径获取Nimbus分配给他的所有任务。Supervisor在本地保存着上次的分配信息,对比这两部分的信息可以得知分配信息是否有变化。若发生变化,则需要关闭被移除任务所对应的所有Worker,并启动新的Worker执行新的任务
- 箭头9表示Supervisor会从LocalState中获取由它启动的所有Worker的心跳信息。Supervisor会每隔一段时间检查一次这些心跳信息,当没有某个Worker的心跳信息时,这个Worker就是被kill掉,然后由Nimbus重新分配这个Worker的任务
3、Worker
- 箭头5表示Worker在zk中创建的路径是/storm/workbeats/topology-id/node-port,当Worker启动时将创建一个对应的节点。Nimbus在创建的时候只会创建/storm/workbeats/topology-id节点,但是不会设置里面的数据,里面的数据由Worker创建,这样做的目的时避免多个Worker同时创建路径冲突
- 箭头6表时Worker会从/storm/workbeats/topology-id节点中获取分配给它的任务并执行
- 箭头8表示Worker在Local State中保存心跳信息,这些心跳信息都保存在本地文件中,Worker用这些信息和Supervisor保持心跳,每隔几秒会更新一次心跳信息
4、Executor
Executor只会利用zk来记录错误信息
- 箭头7标志Executor在zk中创建的路径是/storm/errors/topology-id/componemt-id/sequential-id,
5、总结
- Nimnus和Supervisor之间通过/storm/supervisor/topology-id对应的数据进行心跳保持。Supervisor在创建这个路径时采用的时临时节点模式,只要Supervisor死掉这个节点就会被删除,Nimbus就会将分配给这个Supervisor的任务重新进行分配
- Worker和Supervisor之间/storm/workbeats/topology-id/node-port中的数据进行心跳的维持,NImbus会每隔一段时间获取该路径下的数据,同时Nimbus还会在它的内存中保存上一次的信息。如果发现某个Worker的心跳信息有一段时间没有更新就认为该worker已经死掉,就会将分配给该Worker的任务重新分配
- Worker和Supervisor之间维持心跳时通过本地文件(基于LocalState)
storm学习笔记(一)的更多相关文章
- Storm学习笔记 - 消息容错机制
Storm学习笔记 - 消息容错机制 文章来自「随笔」 http://jsynk.cn/blog/articles/153.html 1. Storm消息容错机制概念 一个提供了可靠的处理机制的spo ...
- Storm学习笔记 - Storm初识
Storm学习笔记 - Storm初识 1. Strom是什么? Storm是一个开源免费的分布式计算框架,可以实时处理大量的数据流. 2. Storm的特点 高性能,低延迟. 分布式:可解决数据量大 ...
- Twitter Storm学习笔记
官方英文文档:http://storm.apache.org/documentation/Documentation.html 本文是学习笔记,转载整合加翻译,主要是为了便于学习. 一.基本概念 参考 ...
- Storm学习笔记——高级篇
1. Storm程序的并发机制 1.1 概念 Workers (JVMs): 在一个物理节点上可以运行一个或多个独立的JVM 进程.一个Topology可以包含一个或多个worker(并行的跑在不同的 ...
- Storm学习笔记
1.如何让一个spout并行读取多个流? 方法:任何spout.bolts组件都可以访问TopologyContext.利用这个特性可以让Spouts的实例之间划分流. 示例:获取到storm集群sp ...
- Storm学习笔记六
1 Storm的通信机制 说明:1.worker与worker之间跨进程通信: 2.worker内部中各个executor间的通信,Task对象--->输入队列queue--->执行--- ...
- apache Storm 学习笔记
Storm流之FieldGrouping字段分组: https://blog.csdn.net/Simon_09010817/article/details/80092080
- Storm学习笔记1:Storm基本组件
Storm概念及组件 Nimbus:负责资源分配和任务调度. Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程. Worker:运行具体处理组件逻辑的进程 ...
- Storm学习笔记——安装配置
1.安装一个zookeeper集群 2.上传storm的安装包,解压 3.修改配置文件conf/storm.yaml #所使用的zookeeper集群主机storm.zookeeper.servers ...
随机推荐
- [随笔]_ELVE_git命令复习
mkdir: XX (创建一个空目录 XX指目录名) pwd: 显示当前目录的路径. git init 把当前的目录变成可以管理的git仓库,生成隐藏.git文件. git add XX 把xx文件添 ...
- Spring Security4实例(Java config版)——ajax登录,自定义验证
本文源码请看这里 相关文章: Spring Security4实例(Java config 版) -- Remember-Me 首先添加起步依赖(如果不是springboot项目,自行切换为Sprin ...
- 有关各个版本的Visual Studio(VS)和SQL Server安装的顺序总结
前几天从网上买了块三星的SSD,把原来的HDD放在了光驱位,然后重新安装了系统.想起来收集储存的好多源代码还是VS2008开发的,然后打算把之前用过的VS2008也装上,安装过程出了点问题.发现安装完 ...
- C#监控类属性的更改(大花猫动了哪些小玩具)
C#监控类属性的更改(大花猫动了哪些小玩具) 实体类创建后在方法中对哪些属性赋值了,传递到底层方法时在底层如何得知哪些属性被赋值过.如何监控属性的更改,请看脑洞大开之<大花猫动了哪些小玩具> ...
- Java栈与堆 (转)
1. 栈(stack)与堆(heap)都是Java用来在Ram中存放数据的地方.与C++不同,Java自动管理栈和堆,程序员不能直接地设置栈或堆. 2. 栈的优势是,存取速度比堆要快,仅次于直接位于C ...
- yii2 获取从前台传过来的post数据
第一次使用yii写接口的时候,直接用了$_POST获取post数据,发现会报400错误,根本无法获取到post数据,用$_GET却能获取get数据. 纠结了很久,然后查资料,发现原来yii中默认的开启 ...
- webIDE 第二篇博文
这是我做webIDE过程中的第二篇博文,之所以隔了这么长时间没更,因为确实是没有啥进度啊,没什么可写的,现在虽然依然没啥进度,但中途遇到很多坑,这些坑还是有记录下来的必要的. 因个人水平问题,可能有的 ...
- 移动端300ms点击事件的延迟
移动端click事件300ms延迟 移动端click事件300ms的延迟在目前看来,已经是老生常谈了. 以下内容,我会在参考资源的基础上谈谈我对移动端click事件300ms延迟的一些理解.本人愚昧, ...
- EXchange导出通讯录提取url纯文本
用outlook链接邮箱 文件-打开和导出--导出到文件--逗号分隔值--选择联系人--保存 保存为一个后缀为csv的文件 打开该文件 选中该列 用替换功能删掉()符号 用vba脚本删掉汉字 Sub ...
- 成为Java顶尖程序员 ,看这11本书就够了(转)
学习的最好途径就是看书",这是我自己学习并且小有了一定的积累之后的第一体会.个人认为看书有两点好处: 1.能出版出来的书一定是经过反复的思考.雕琢和审核的,因此从专业性的角度来说,一本好书的 ...