storm 介绍+八种grouping方法

Storm主要的应用场景就是流式数据处理，例如实时推荐系统，实时监控系统等。

storm中的相关概念

在storm中，分布式的计算结构指的是一个topology(拓扑)，一个topology由流式数据，spouts(流生产者)，以及bolts(具体操作者)组成。Storm的topologies和其他的批处理任务系统很类似，例如Hadoop，这类批处理任务都定义了清晰的开始和结束点，然而storm的topologies是永不停息的在运行的，除非杀死或者反部署这个topologies。

Topology：storm都是以topology为单位运行的，topology就相当于网络中的拓扑图一样。

Tuple:tuple是storm结构中的核心数据，一个tuple可以简单的理解为一系列的的键值对(key-value pairs)，是storm结构中最小的数据单元。如果你对CEP(complex event processing)熟悉的话，你可以认为tuples就是事件集。

Streams：streams是由无限的tuples组成。

Spouts：spouts代表一个storm topology的数据入口，spouts扮演者适配器的作用，连接着一个个的数据源，并将数据转换成tuples，同时以数据流的方式发送tuples。数据源的来源有如下几种：1、网络或者是移动应用；2、推特或者是微博等社交网络；3、传感器输出；4、应用日志事件。典型的spouts不会实现任何的特定业务逻辑，所以spouts可以经常被重复交叉的被多个topologies使用

Bolts：bolts可以想象成计算的操作者或者是一个函数，他们可以接收任意的数据流或者被处理过的数据，而且还可以随意的发送一个或多个tuples，bolts可以订阅spouts或者是其他bolts发送过来的数据流，bolts可以创造一个复杂的数据传输网络。bolts的典型作用如下：1、过滤tuples；2、连接或者是聚合；3、计算

一个简单的topology如下图所示：

cleanup()方法，该方法只有在本地模式下才起作用，在集群模式下，是不起作用的，由于我们是在本地测试，所以我们使用的是storm的本地模式，storm的本地模式对我们的开发，测试，调试有很大的帮助作用，在我们部署成集群模式之前，我们可以充分的发挥本地模式的功能，在本地模式下，kill和关闭topology的时候，会调用这个cleanup()方法，从而实现我们打印统计结果的需求。

1. Shuffle Grouping
随机分组，随机派发stream里面的tuple，保证每个bolt task接收到的tuple数目大致相同。
轮询，平均分配

2. Fields Grouping（相同fields去分发到同一个Bolt）
按字段分组，比如，按"user-id"这个字段来分组，那么具有同样"user-id"的 tuple 会被分到相同的Bolt里的一个task，而不同的"user-id"则可能会被分配到不同的task。

3. All Grouping
广播发送，对于每一个tuple，所有的bolts都会收到

4. Global Grouping
全局分组，把tuple分配给task id最低的task 。

5. None Grouping
不分组，这个分组的意思是说stream不关心到底怎样分组。目前这种分组和Shuffle grouping是一样的效果。有一点不同的是storm会把使用none grouping的这个bolt放到这个bolt的订阅者同一个线程里面去执行（未来Storm如果可能的话会这样设计）。

6. Direct Grouping
指向型分组，这是一种比较特别的分组方法，用这种分组意味着消息（tuple）的发送者指定由消息接收者的哪个task处理这个消息。只有被声明为 Direct Stream 的消息流可以声明这种分组方法。而且这种消息tuple必须使用 emitDirect 方法来发射。消息处理者可以通过 TopologyContext 来获取处理它的消息的task的id (OutputCollector.emit方法也会返回task的id)

7. Local or shuffle grouping
本地或随机分组。如果目标bolt有一个或者多个task与源bolt的task在同一个工作进程中，tuple将会被随机发送给这些同进程中的tasks。否则，和普通的Shuffle Grouping行为一致

8.customGrouping
自定义，相当于mapreduce那里自己去实现一个partition一样。

总结：前4种用的多些，后面4种用的少些。

1. Shuffle Grouping
随机分组，随机派发stream里面的tuple，保证每个bolt task接收到的tuple数目大致相同。
轮询，平均分配

3. All Grouping
广播发送，对于每一个tuple，所有的bolts都会收到

4. Global Grouping
全局分组，把tuple分配给task id最低的task 。

8.customGrouping
自定义，相当于mapreduce那里自己去实现一个partition一样。

总结：前4种用的多些，后面4种用的少些。

1. builder.setBolt("bolt", new MyBolt(), 2).allGrouping("spout");//两个spot并行所有都分发

2. builder.setBolt("bolt", new MyBolt(), 2).shuffleGrouping("spout")其实就是随机往下游去发,不自觉的做到了负载均衡

3.builder.setBolt("bolt", new MyBolt(), 2).fieldsGrouping("spout", new Fields("session_id")); // fieldsGrouping其实就是MapReduce里面理解的Shuffle,根据fields求hash来取模,相同的名称的fields分发到一个bolt里面。

4.builder.setBolt("bolt", new MyBolt(), 2).globalGrouping("spout"); // 只往一个里面发,往taskId小的那个里面去发送

为什么要用group？

栗子：

builder.setBolt(SPLIT_BOLT_ID, splitBolt).fieldsGrouping(SENTENCE_SPOUT_ID, new Fields("sentence"))
/*
* SplitSentenceBolt --> WordCountBolt
* 注意，此处需要使用fieldsGrouping来分组，要不然统计的数据会不准，例如一个Bolt中接收到{"word":"dog","count":"1"}
* 然后又来了一个{"word":"dog","count":"1"},但是又没有发送到同一个Bolt中，那么就会重新统计
*/

storm 介绍+八种grouping方法的更多相关文章

WordPress慢的八种解决方法（用排查法解决）
WordPress的打开速度慢会影响到用户体验和关键词的稳定排名,WordPress为什么加载慢呢?其实很简单的,就是WordPress水土不服,用WordPress的大家都知道,WordPress是 ...
springdata-jpa 八种查询方法
使用:maven+Spring+jpa+Junit4 查询方式:SQL,JPQL查询,Specification多条件复杂查询返回类型:list<POJO>,list<Stinrg ...
selenium—八种定位方法
find_element_by_id() find_element_by_name() find_element_by_class_name() find_element_by_tag_name() ...
Storm-6 Storm的并行度、Grouping策略以及消息可靠处理机制简介
概念: 配置并行度动态的改变并行度流分组策略----Stream Grouping 消息的可靠处理机制概念: Workers (JVMs): 在一个节点上可以运行一个或多个独立的JVM 进程.一 ...
mysql主从数据库不同步的2种解决方法（转）
今天发现Mysql的主从数据库没有同步先上Master库: mysql>show processlist; 查看下进程是否Sleep太多.发现很正常. show master status; ...
mysql主从数据库不同步的2种解决方法（转载）
今天发现Mysql的主从数据库没有同步先上Master库: mysql>show processlist; 查看下进程是否Sleep太多.发现很正常. show master status; ...
今天介绍一个渐变的方法，在shell里面自动生成注释简介
在编辑sh脚本时,我经常在shell中写一些注释.今天我介绍一种渐变方法,它可以在每次vim shell脚本时自动在shell中生成注释和其他信息. 让我们共享一个shell脚本模板文件,将其复制到用 ...
http 中定义的八种请求的介绍
在http1.1协议中,共定义了8种可以向服务器发起的请求(这些请求也叫做方法或动作),本文对这八种请求做出简要的介绍: 1.PUT:put的本义是推送这个请求的含义就是推送某个资源到服务器,相当于 ...
Linux 的shell 字符串截取很有用。有八种方法。
一 Linux 的字符串截取很有用.有八种方法. 假设有变量 var=http://www.linuxidc.com/123.htm 1 # 号截取,删除左边字符,保留右边字符. echo ${va ...

随机推荐

【C#】Winform 令人困擾的畫面閃爍問題解法
DoubleBuffered = true 如果 Control 沒有這個屬性,可以使用我下列擴充函式進行設定︰ public static void SetDoubleBuffered<T&g ...
项目中使用Redis的游标scan的一些小问题
最近项目中有一个需求就是在下拉中要筛选车辆列表,本来想着是在内存中全部用程序去遍历处理,但发现数据有点多,一个个去处理会有点慢.然后就找到了redis的游标感觉这个能满足我的需求,我可以把key存成 ...
python动态视频下载器
这里向大家分享一下python爬虫的一些应用,主要是用爬虫配合简单的GUI界面实现视频,音乐和小说的下载器.今天就先介绍如何实现一个动态视频下载器. 爬取电影天堂视频首先介绍的是python爬取电影 ...
Spring Cloud Gateway转发Spring WebSocket
Spring Cloud Gateway转发Spring WebSocket 源码:https://github.com/naah69/SpringCloud-Gateway-WebSocket-De ...
【开发笔记】- MySQL中limit查询超级慢，怎么办？
有如下解决方法: (1).通过判断id的范围来分页 limit ; 也得到了分页的数据,但是我们发现如果id不是顺序的,也就是如果有数据删除过的话,那么这样分页数据就会不正确,这个是有缺陷的. (2) ...
对于js中事件冒泡的理解分析
一. 事件事件的三个阶段:事件捕获 -> 事件目标 -> 事件冒泡捕获阶段:先由文档的根节点document往事件触发对象,从外向内捕获事件对象: 目标阶段:到达目标事件位置(事发地) ...
如何开发出成功的iOS应用（流程图）
转自:http://mobile.51cto.com/hot-307342.htm 近来,肥沃的应用开发土壤不断孕育出一个个振奋人心的故事,成千上万的人都觊觎从这个机遇无限的领域中分一杯羹.虽然现在的 ...
Go 语言基础语法-Go
Go 标记 Go 程序可以由多个标记组成,可以是关键字,标识符,常量,字符串,符号.如以下 GO 语句由 6 个标记组成: fmt.Println("Hello, World!") ...
彻底搞懂JVM类加载器：基本概念
本文阅读时间大约9分钟. 写在前面在Java面试中,在考察完项目经验.基础技术后,我会根据候选人的特点进行知识深度的考察,如果候选人简历上有写JVM(Java虚拟机)相关的东西,那么我常常会问一些J ...
定时任务突然中止,告警:Thread starvation or clock leap detected
1.背景定时任务告警信息如下: 02:38:24.112 [HikariPool-1 housekeeper] WARN com.zaxxer.hikari.pool.HikariPool - H ...

storm 介绍+八种grouping方法

storm 介绍+八种grouping方法的更多相关文章

随机推荐

热门专题