storm源代码分析---Transactional spouts

Transactionalspouts

Trident是以小批量（batch）的形式在处理tuple。而且每一批都会分配一个唯一的transaction id。不同spout的特性不同，一个transactionalspout会有例如以下这些特性：

1、有着相同txid的batch一定是一样的。

当重播一个txid相应的batch时，一定会重播和之前相应txid的batch中相同的tuples。

2、各个batch之间是没有交集的。每一个tuple仅仅能属于一个batch

3、每个tuple都属于一个batch，无一例外

这是一类很easy理解的spout。 tuple 流被划分为固定的batch而且永不改变。（trident-kafka 有一个 transactional spout 的实现。

）

你或许会问：为什么我们不总是使用transactional spout？这非常easy理解。

一个原因是并非全部的地方都须要容错的。举例来说。TransactionalTridentKafkaSpout 工作的方式是一个batch包括的tuple来自某个kafka topic中的全部partition。一旦这个batch被发出，在不论什么时候假设这个batch被又一次发出时，它必须包括原来全部的tuple以满足 transactional spout的语义。如今我们假定一个batch被TransactionalTridentKafkaSpout所发出，这个batch没有被成功处理，而且同一时候kafka的一个节点也down掉了。你就无法像之前一样重播一个全然一样的batch（由于kakfa的节点down掉，该topic的一部分partition可能会无法使用）。整个处理会被中断。

这也就是"opaque transactional" spouts（不透明事务spout）存在的原因 - 他们对于丢失源节点这样的情况是容错的，仍然可以帮你达到有且仅仅有一次处理的语义。后面会对这样的spout有所介绍。

在讨论"opaque transactional" spout之前，我们先来看看如何为transactional spout设计一个具有exactly-once语义的State实现。这个State的类型是"transactionalstate" 而且它利用了不论什么一个txid总是相应相同的tuple序列这个语义。

假如说你有一个用来计算单词出现次数的topology，你想要将单词的出现次数以key/value对的形式存储到数据库中。key就是单词。value就是这个这个单词出现的次数。你已经看到仅仅是存储一个数量是不足以知道你是否已经处理过一个batch的。你能够通过将value和txid一起存储到数据库中。

这种话，当更新这个count之前，你能够先去比較数据库中存储的txid和如今要存储的txid。假设一样。就跳过什么都不做。由于这个value之前已经被处理过了。假设不一样，就运行存储。这个逻辑能够工作的前提就是txid永不改变，而且Trident保证状态的更新是在batch之间严格顺序进行的。

考虑以下这个样例的执行逻辑。假定你在处理一个txid为3的包括以下tuple的batch：

["man"]

["dog"]

假定数据库中当前保存了以下这种key/value 对：

man => [count=3, txid=1]

dog => [count=4, txid=3]

apple => [count=10, txid=2]

单词“man”相应的txid是1. 由于当前的txid是3，你能够确定你还没有为这个batch中的tuple更新过这个单词的数量。所以你能够放心的给count加2并更新txid为3. 与此同一时候，单词“dog”的txid和当前的txid是同样的，因此你能够跳过这次更新。此时数据库中的数据例如以下：

man => [count=5, txid=3]

dog => [count=4, txid=3]

apple => [count=10, txid=2]

很多其它精彩内容请关注：http://bbs.superwu.cn

关注超人学院微信二维码：

关注超人学院java免费学习交流群：

storm源代码分析---Transactional spouts的更多相关文章

Twitter Storm源代码分析之ZooKeeper中的目录结构
徐明明博客:Twitter Storm源代码分析之ZooKeeper中的目录结构我们知道Twitter Storm的所有的状态信息都是保存在Zookeeper里面,nimbus通过在zookeepe ...
Twitter Storm源代码分析之Nimbus/Supervisor本地目录结构
storm集群里面工作机器分为两种一种是nimbus, 一种是supervisor, 他们通过zookeeper来进行交互,nimbus通过zookeeper来发布一些指令,supervisor去读z ...
Storm入门（十一）Twitter Storm源代码分析之CoordinatedBolt
作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/811/twitter-stor ...
Apache 流框架 Flink，Spark Streaming，Storm对比分析（二）
本文由网易云发布. 本文内容接上一篇Apache 流框架 Flink,Spark Streaming,Storm对比分析(一) 2.Spark Streaming架构及特性分析 2.1 基本架构 ...
Apache 流框架 Flink，Spark Streaming，Storm对比分析（2）
此文已由作者岳猛授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 2.Spark Streaming架构及特性分析 2.1 基本架构基于是spark core的spark s ...
android-plugmgr源代码分析
android-plugmgr是一个Android插件加载框架,它最大的特点就是对插件不需要进行任何约束.关于这个类库的介绍见作者博客,市面上也有一些插件加载框架,但是感觉没有这个好.在这篇文章中,我 ...
转：SDL2源代码分析
1:初始化(SDL_Init()) SDL简介有关SDL的简介在<最简单的视音频播放示例7:SDL2播放RGB/YUV>以及<最简单的视音频播放示例9:SDL2播放PCM>中 ...
转：RTMPDump源代码分析
0: 主要函数调用分析 rtmpdump 是一个用来处理 RTMP 流媒体的开源工具包,支持 rtmp://, rtmpt://, rtmpe://, rtmpte://, and rtmps://. ...
转：ffdshow 源代码分析
ffdshow神奇的功能:视频播放时显示运动矢量和QP FFDShow可以称得上是全能的解码.编码器.最初FFDShow只是mpeg视频解码器,不过现在他能做到的远不止于此.它能够解码的视频格式已经远 ...

随机推荐

fread()，fwrite() 读/写流
C 库函数 - fread() 描述 C 库函数 size_t fread(void *ptr, size_t size, size_t nmemb, FILE *stream) 从给定流 strea ...
c#中关于virtual，override和new的理解
using System; using System.Collections.Generic; using System.Linq; using System.Text; namespace Cons ...
.NET基础拾遗（4）委托和事件2
事件事件是对象发送的消息,以发信号通知操作的发生.操作可能是由用户交互(例如鼠标单击)引起的,也可能是由某些其他的程序逻辑触发的. 引发事件的对象称为事件发送方.捕获事件并对其作出响应的对象叫做事件 ...
ASP.NET网页抓取数据
我的数据通过一个TextBox输入,这些代码是写在一个button的点击事件里的. 网页数据抓取大概分为两步,第一步是获取网页源代码: 具体注释如下: var currentUrl = TextBox ...
post请求和get请求的区别
1:如果表单是以post方式发送,那么表单中的数据会放在请求报文体中,发送到服务端.但是如果是以get方式提交表单,那么表单中用户输入的数据都是以URL地址的方式发送到服务端. 2:在服务端接收数据时 ...
数据泵导出/导入Expdp/impdp
一下转自 http://blog.csdn.net/jionjionyoushen/article/details/6789686 数据泵导出/导入Expdp/impdp Oracle 10g引入了D ...
objective-C nil,Nil,NULL 和NSNull的小结
nil用来给对象赋值(Object-C的任何对象都属于id类型),NULL则给任何指针赋值,NULL和nil不能互换,nil用于类指针赋值(在Object-C中类是一个对象,是类的meta-class ...
jquery的uploadify上传jsp+servlet
1.准备材料:下载jquery.uploadify上传js 注意:这个上传在firefox下会出现问题如果你在项目中加了拦截器,因为session会丢失,所以你可以传参的时候带上你所需要的条件,在 ...
五种实用DOM方法总结
DOM:Document Object Model 文档对象模型对象的三种类型:用户定义类型.内建对象.宿主对象节点类型:元素节点.文本节点.属性节点 getElementById()方法: 将返 ...
HTML5画布（矩形）
canvas元素用于绘制图形. canvas元素是HTML5中新增的一个重要元素,元素本身是没有绘图能力,所有的绘制工作必须在javascript内部完成. 案例1: <!DOCTYPE htm ...

storm源代码分析---Transactional spouts

storm源代码分析---Transactional spouts的更多相关文章

随机推荐

热门专题