Storm 集群
Apache Storm
Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt,bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。
1、Storm组件:
在Storm集群中、有两类节点:主节点master node和工作节点worker nodes。
主节点运行Nimbus守护进程,这个守护进程负责在集群中分发代码,为工作节点分配任务,并监控故障。Supervisor守护进程作为拓扑的一部分运行在工作节点上。
一个Storm拓扑结构在不同的机器上运行着众多的工作节点。每个工作节点都是topology中一个子集的实现。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。
2、Zookeeper:
Zookeeper是完成Supervisor和Nimbus之间协调的服务。
而应用程序实现实时的逻辑则被封装进Storm中的“topology”。topology则是一组由Spouts(数据源)和Bolts(数据操作)通过Stream Groupings进行连接的图。
3、Spout:
Spout从来源处读取数据并放入topology。
Spout分成可靠和不可靠两种;当Storm接收失败时,可靠的Spout会对tuple(元组,数据项组成的列表)进行重发;而不可靠的Spout不会考虑接收成功与否只发射一次。而Spout中最主要的方法就是nextTuple(),该方法会发射一个新的tuple到topology,如果没有新tuple发射则会简单的返回。
4、Bolt:
Topology中所有的处理都由Bolt完成。Bolt从Spout中接收数据并进行处理,如果遇到复杂流的处理也可能将tuple发送给另一个Bolt进行处理。而Bolt中最重要的方法是execute(),以新的tuple作为参数接收。不管是Spout还是Bolt,如果将tuple发射成多个流,这些流都可以通过declareStream()来声明。
5、Stream Groupings
Stream Grouping定义了一个流在Bolt任务中如何被切分。
Shuffle grouping:
// 随机分发tuple到Bolt的任务,保证每个任务获得相等数量的tuple。
Fields grouping
// 根据指定字段分割数据流,并分组。例如,根据“user-id”字段,相同“user-id”的元组总是分发到同一个任务,不同“user-id”的元组可能分发到不同的任务。
Partial Key grouping
// 根据指定字段分割数据流,并分组。类似Fields grouping。
All grouping
// tuple被复制到bolt的所有任务。这种类型需要谨慎使用。
Global grouping
// 全部流都分配到bolt的同一个任务。明确地说,是分配给ID最小的那个task。
None grouping
// 无需关心流是如何分组。目前,无分组等效于随机分组。但最终,Storm将把无分组的Bolts放到Bolts或Spouts订阅它们的同一线程去执行(如果可能)。
Direct grouping
// 这是一个特别的分组类型。元组生产者决定tuple由哪个元组处理者任务接收。
Local or shuffle grouping
// 如果目标bolt有一个或多个任务在同一工作进程,tuples 会打乱这些进程内的任务。否则,这就像一个正常的 Shuffle grouping。
Apache-strom 必须要求Python 2.6以上
1、升级 Python 官方下载地址:
https://www.python.org/ftp/python/
wget http://www.python.org/ftp/python/2.7.6/Python-2.7.6.tgz
wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tgz
# tar -xf Python-3.6..tgz
# mv Python-3.6. /usr/local/python
# cd /usr/local/python
# ./configure --prefix=/usr/local/python
# make
# make install
# mv /usr/bin/python /usr/bin/python_old
# ln -s /usr/local/python/bin/python3. /usr/bin/python
# python -V
2、如发现yum 异常则, 查看编辑 /usr/bin/yum 文件
将文件头部的
#!/usr/bin/python
改为以下:(因为系统默认是2.6)
#!/usr/bin/python2.6
三、storm 安集群配置;(具体根据线上环境资源进行设置)
系统:Centos6.
内核:2.6.-.el6.x86_64
安装目录:/opt/storm
数据日志目录:/opt/storm/{data,logs}
用户组权限:deploy
机器 hostname 需要在 hosts 里面配置关系映射:
zks1 - 192.168.1.101
zks2 - 192.168.1.102
zks3 - 192.168.1.103
zoo1 - 192.168.1.101 - myid1
zoo2 - 192.168.1.102 - myid2
zoo3 - 192.168.1.103 - myid2
四、集群说明
主节点 (nimbus) zks1
任务节点 (supervisor) zks2 zks3 等
注:storm主节点、任务节点安装配置完全一致。
1、下载安装配置:官方下载地址:
http://mirrors.hust.edu.cn/apache/storm/
http://www-eu.apache.org/dist/storm/apache-storm-1.0.3/apache-storm-1.0.3.tar.gz
http://mirrors.hust.edu.cn/apache/storm/apache-storm-1.0.2/apache-storm-1.0.2.tar.gz
# tar -xf apache-storm-1.0..tar.gz
# cd apache-storm
# cat apache-storm-0.9./conf/storm.yaml |grep -v ^# |grep -v ^$
// ********** //
storm.zookeeper.servers:
- "192.168.1.101"
- "192.168.1.102"
- "192.168.1.103"
nimbus.host: "192.168.1.101"
storm.zookeeper.port:
ui.port:
storm.local.dir: "/opt/apache-storm-0.9.6/data"
supervisor.slots.ports:
-
-
-
-
-
worker.childopts: "-Xmx2g"
# worker.heap.memory.mb: 2048
# // 调整分配给每个 worker 的内存 //
logviewer.port:
topology.max.spout.pending:
topology.message.timeout.secs:
storm.messaging.netty.server_worker_threads: 10
// ********** //
2、主节点启动测验:
启动 nimbus
# nohup ./bin/storm nimbus >/dev/null 2>&1 &
启动 UI
# nohup ./bin/storm ui >/dev/null 2>&1 &
3、任务节点启动脚步
# cat supervisor_logviewer.sh
nohup ./bin/storm supervisor >/dev/null >& &
nohup ./bin/storm logviewer >/dev/null >& &
4、进程检测
# ps -ef|grep storm
# netstat -ano |grep 8090
Storm 集群的更多相关文章
- storm 集群配置
配置storm集群的过程中出现写问题,记录下来 1.storm是通过zookeeper管理的,先要安装zookeeper,从zk官网上下来,我这里下下来的的3.4.9,下载后移动到/usr/local ...
- storm集群部署和配置过程详解
先整体介绍一下搭建storm集群的步骤: 设置zookeeper集群 安装依赖到所有nimbus和worker节点 下载并解压storm发布版本到所有nimbus和worker节点 配置storm ...
- 在CentOS上搭建Storm集群
Here's a summary of the steps for setting up a Storm cluster: Set up a Zookeeper clusterInstall depe ...
- Storm系列(三):创建Maven项目打包提交wordcount到Storm集群
在上一篇博客中,我们通过Storm.Net.Adapter创建了一个使用Csharp编写的Storm Topology - wordcount.本文将介绍如何编写Java端的程序以及如何发布到测试的S ...
- Storm集群安装部署步骤【详细版】
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息 网址: http://www.cnblogs.com/panfeng412/archive/2012/11/30/how ...
- Storm集群的安装配置
Storm集群的安装分为以下几步: 1.首先保证Zookeeper集群服务的正常运行以及必要组件的正确安装 2.释放压缩包 3.修改storm.yaml添加集群配置信息 4.使用storm脚本启动相应 ...
- Storm集群部署
一. 说明 Storm是一个分布式实时计算系统,Storm对于实时计算的意义就相当于Hadoop对于批量计算的意义.对于实时性较高的系统Storm是不错的选择.Hadoop提供了map, reduce ...
- Storm集群的安装与测试
首先安装zookeeper集群,然后安装storm集群. 我使用的是centos 32bit的三台虚拟机. MachineName ip namenode 192.168.99.110 datanod ...
- Storm集群安装详解
storm有两种操作模式: 本地模式和远程模式. 本地模式:你可以在你的本地机器上开发测试你的topology, 一切都在你的本地机器上模拟出来; 远端模式:你提交的topology会在一个集群的机器 ...
- Storm入门教程 第三章Storm集群安装部署步骤、storm开发环境
一. Storm集群组件 Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work Node).其分别对应的角色如下: 主控节点(Master Node)上运行一个被称为N ...
随机推荐
- jmeter创建高级测试计划
如果应用程序使用重写地址而不是使用cookie存储信息,需要做一些额外的工作去测试程序 为了正确的响应重写地址,jmeter 需要解析 从服务器获取html 并且检索会话ID, 1 合理利用pre-p ...
- 洛谷 P4878 [USACO05DEC]layout布局
题面链接 sol:差分约束系统裸题,根据a+b<=c建个图跑个最短路就没了... #include <queue> #include <cstdio> #include ...
- Intel处理器缺货将会持续到2019年第二季度!
虽然Intel一再承诺加大投资.扩充产能,但一个不争的事实是,Intel处理器仍然都处于大面积紧张的缺货状态中,毕竟10nm迟迟无法规模量产,14nm上拥挤了太多产品线. 按照华硕CEO沈振来的最新说 ...
- python中字典和json的区别
python中,json和dict非常类似,都是key-value的形式,而且json.dict也可以非常方便的通过dumps.loads互转 定义 python中,json和dict非常类似,都是k ...
- BZOJ1803Spoj1487 Query on a tree III——主席树
题目大意 给一棵有点权的n个点的有根树,保证任意两点的点权不同,m次询问每次询问x的子树中权值第k大的点. 输入 先输入n,然后每个点点权,再输入n-1行每行两个数x,y代表x和y相连,再输入m,之后 ...
- LOJ #2540. 「PKUWC 2018」随机算法(概率dp)
题意 LOJ #2540. 「PKUWC 2018」随机算法 题解 朴素的就是 \(O(n3^n)\) dp 写了一下有 \(50pts\) ... 大概就是每个点有三个状态 , 考虑了但不在独立集中 ...
- 自学Zabbix之路15.2 Zabbix数据库表结构简单解析-Items表
点击返回:自学Zabbix之路 点击返回:自学Zabbix4.0之路 点击返回:自学zabbix集锦 自学Zabbix之路15.2 Zabbix数据库表结构简单解析-Items表 Items表记录了i ...
- 51单片机 | I/O口直接输入输出实例
51单片机P0/P1/P2/P3口的区别: P0口要作为低8位地址总线和8位数据总线用,这种情况下P0口不能用作I/O,要先作为地址总线对外传送低8位的地址,然后作为数据总线对外交换数据: P1口只能 ...
- hashlib模块(二十八)
# 1.什么叫hash:hash是一种算法(3.x里代替了md5模块和sha模块,主要提供 SHA1, SHA224, SHA256, SHA384, SHA512 ,MD5 算法),该算法接受传入的 ...
- 使用iostat来对linux硬盘IO性能进行检测
-x显示扩展统计数据 # 每隔1s显示6个统计数据 $ iostat -x 1 6 # 每隔1s显示磁盘sda的6个统计数据 $ iostat -x sda 1 6 # 每隔1s显示设备sda及其分区 ...