Storm常见模式—

Storm对流数据进行实时处理时，一种常见场景是批量一起处理一定数量的tuple元组，而不是每接收一个tuple就立刻处理一个tuple，这样可能是性能的考虑，或者是具体业务的需要。

例如，批量查询或者更新数据库，如果每一条tuple生成一条sql执行一次数据库操作，数据量大的时候，效率会比批量处理的低很多，影响系统吞吐量。

当然，如果要使用Storm的可靠数据处理机制的话，应该使用容器将这些tuple的引用缓存到内存中，直到批量处理的时候，ack这些tuple。

下面给出一个简单的代码示例：

现在，假设我们已经有了一个DBManager数据库操作接口类，它至少有两个接口：

（1）getConnection(): 返回一个java.sql.Connection对象；

（2）getSQL(Tuple tuple): 根据tuple元组生成数据库操作语句。

为了在Bolt中缓存一定数量的tuple，构造Bolt时传递int n参数赋给Bolt的成员变量int count，指定每个n条tuple批量处理一次。

同时，为了在内存中缓存缓存Tuple，使用java concurrent中的ConcurrentLinkedQueue来存储tuple，每当攒够count条tuple，就触发批量处理。

另外，考虑到数据量小（如很长时间内都没有攒够count条tuple）或者count条数设置过大时，因此，Bolt中加入了一个定时器，保证最多每个1秒钟进行一次批量处理tuple。

下面是Bolt的完整代码（仅供参考）：

import java.util.Map;

import java.util.Queue;

import java.util.concurrent.ConcurrentLinkedQueue;

import java.sql.Connection;

import java.sql.SQLException;

import java.sql.Statement;

import backtype.storm.task.OutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.IRichBolt;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.tuple.Tuple;

public class BatchingBolt implements IRichBolt {

    private static final long serialVersionUID = 1L;

    private OutputCollector collector;

    private Queue<Tuple> tupleQueue = new ConcurrentLinkedQueue<Tuple>();

    private int count;

    private long lastTime;

    private Connection conn;

    public BatchingBolt(int n) {

        count = n; //批量处理的Tuple记录条数

        conn = DBManger.getConnection(); //通过DBManager获取数据库连接

        lastTime = System.currentTimeMillis(); //上次批量处理的时间戳

    }

    @Override

    public void prepare(Map stormConf, TopologyContext context,

            OutputCollector collector) {

        this.collector = collector;

    }

    @Override

    public void execute(Tuple tuple) {

        tupleQueue.add(tuple);

        long currentTime = System.currentTimeMillis();

        // 每count条tuple批量提交一次，或者每个1秒钟提交一次

        if (tupleQueue.size() >= count || currentTime >= lastTime + 1000) {

            Statement stmt = conn.createStatement();

            conn.setAutoCommit(false);

            for (int i = 0; i < count; i++) {

                Tuple tup = (Tuple) tupleQueue.poll();

                String sql = DBManager.getSQL(tup); //生成sql语句

                stmt.addBatch(sql); //加入sql

                collector.ack(tup); //进行ack

            }

            stmt.executeBatch(); //批量提交sql

            conn.commit();

            conn.setAutoCommit(true);

            System.out.println("batch insert data into database, total records: " + count);

            lastTime = currentTime;

        }

    }

    @Override

    public void cleanup() {

    }

    @Override

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

    }

    @Override

    public Map<String, Object> getComponentConfiguration() {

        // TODO Auto-generated method stub

        return null;

    }

}

Storm常见模式——批处理的更多相关文章

Storm常见模式——分布式RPC
Storm常见模式——分布式RPC 本文翻译自:https://github.com/nathanmarz/storm/wiki/Distributed-RPC,作为学习Storm DRPC的资料,转 ...
Storm入门（九）Storm常见模式之流聚合
流聚合(stream join)是指将具有共同元组(tuple)字段的数据流(两个或者多个)聚合形成一个新的数据流的过程. 从定义上看,流聚合和SQL中表的聚合(table join)很像,但是二者有 ...
Storm常见模式——流聚合
转自:http://www.cnblogs.com/panfeng412/archive/2012/06/04/storm-common-patterns-of-stream-join.html 流聚 ...
Twitter Storm: storm的一些常见模式
这篇文章列举出了storm topology里面的一些常见模式: 流聚合(stream join) 批处理(Batching) BasicBolt 内存内缓存 + fields grouping 组合 ...
浅议NetMQ常见模式和消息加密机制
浅议NetMQ常见模式和消息加密机制概述在传统企业级开发中,消息队列机制已经成为一种非常常见的技术实现手段,而基于NetMQ则看起来有点像一朵"奇葩",看起来从名字似乎是一个消 ...
【原】Storm Local模式和生产环境中Topology运行配置
Storm入门教程 1. Storm基础 Storm Storm主要特点 Storm基本概念 Storm调度器 Storm配置 Guaranteeing Message Processing(消息处理 ...
【js基础】创建对象的几种常见模式（工厂模式，构造函数模式，原型模式，构造原型组合模式）
一.工厂模式缺点:没有解决对象识别的问题优点:解决了创建多个相似对象的问题 function createPerson(name,age,job){ var o = new Object(); o ...
RabbitMQ Queue一些常见模式
懒队列:lazy Queue,即用到的时候才会加载,3.6.0及之后新添加的.当新添加数据后,不会将其放入到内存中,而是将其放入到磁盘中. 普通队列:1).in-memory,数据直接放入到内存中. ...
Storm本地模式异常
来自:http://isuifengfei.iteye.com/blog/1998265 问题1 java.net.SocketException: Address family not supp ...

随机推荐

For循环输出一个表格
 <?php header("Content-type:text/html; ...
PRML 第一章mindmap
PRML读了很长时间了,但是一直没有完全搞明白,很多概念都是不太清楚,于是从第一章开始重读.读的过程中会将这个内容结构用mindmap的形式记录下来,一是通过这种方式帮助自己理清楚思路,二是在之后可以 ...
数据库索引的实现原理（笔记）详细http://www.linezing.com/blog/?p=798#nav-1
数据库索引,是数据库管理系统中一个排序的数据结构,以协助快速查询.更新数据库表中数据.索引的实现通常使用B树及其变种B+树. 在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某 ...
[6278009]使用Visual Stuido Code 编写Markdown
使用Visual Stuido Code 编写Markdown void main() { printf("Hello world!"); } void main() { Cons ...
CSS 效果汇总
只要决心够, 就能征服痛苦. 把一些常用的 CSS 效果记录下来 1. 利用 z-index :hover 显示层 github 效果地址>> 此效果主要利用 a:hover 来改变 sp ...
ora2pg数据迁移
1.安装strawberry-perl-5.242.安装ora2pg-17.4 #perl Makefile.PL #dmake && dmake install3.安装ora2pg相 ...
mac xcode 快捷键
shift + cmd + n 新建项目 cmd + n 新建文件视图 option + cmd + 回车打开助理编辑器 cmd + 回车显示 ...
HDU 5862 Counting Intersections(离散化+树状数组)
HDU 5862 Counting Intersections(离散化+树状数组) 题目链接http://acm.split.hdu.edu.cn/showproblem.php?pid=5862 D ...
easyDialog弹窗+zTree部门选择
写一个父页面方法,将name和id赋值 function show(name,id) { $("#deptnoID").val(name); $("#deptnoId&q ...
android studio的lib和jniLibs
在android studio 中添加jar和so时,将jar文件直接拷贝到项目目录\app\libs下即可,将so文件按照平台分类目录放到项目目录\app\src\main\jniLibs\平台 ...

Storm常见模式——批处理

Storm常见模式——批处理的更多相关文章

随机推荐

热门专题