1.概述

　　在《Kafka实战－Flume到Kafka》一文中给大家分享了Kafka的数据源生产，今天为大家介绍如何去实时消费Kafka中的数据。这里使用实时计算的模型——Storm。下面是今天分享的主要内容，如下所示：

数据消费
Storm计算
预览截图

　　接下来，我们开始分享今天的内容。

2.数据消费

　　Kafka的数据消费，是由Storm去消费，通过KafkaSpout将数据输送到Storm，然后让Storm安装业务需求对接受的数据做实时处理，下面给大家介绍数据消费的流程图，如下图所示：

　　从图可以看出，Storm通过KafkaSpout获取Kafka集群中的数据，在经过Storm处理后，结果会被持久化到DB库中。

3.Storm计算

　　接着，我们使用Storm去计算，这里需要体检搭建部署好Storm集群，若是未搭建部署集群，大家可以参考我写的《Kafka实战－Storm Cluster》。这里就不多做赘述搭建的过程了，下面给大家介绍实现这部分的代码，关于KafkaSpout的代码如下所示：

KafkaSpout类：

package cn.hadoop.hdfs.storm;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Properties;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import cn.hadoop.hdfs.conf.ConfigureAPI.KafkaProperties;

import kafka.consumer.Consumer;

import kafka.consumer.ConsumerConfig;

import kafka.consumer.ConsumerIterator;

import kafka.consumer.KafkaStream;

import kafka.javaapi.consumer.ConsumerConnector;

import backtype.storm.spout.SpoutOutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.IRichSpout;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Values;

/**

 * @Date Jun 10, 2015

 *

 * @Author dengjie

 *

 * @Note Data sources using KafkaSpout to consume Kafka

 */

public class KafkaSpout implements IRichSpout {

    /**

     *

     */

    private static final long serialVersionUID = -7107773519958260350L;

    private static final Logger LOGGER = LoggerFactory.getLogger(KafkaSpout.class);

    SpoutOutputCollector collector;

    private ConsumerConnector consumer;

    private String topic;

    private static ConsumerConfig createConsumerConfig() {

        Properties props = new Properties();

        props.put("zookeeper.connect", KafkaProperties.ZK);

        props.put("group.id", KafkaProperties.GROUP_ID);

        props.put("zookeeper.session.timeout.ms", "40000");

        props.put("zookeeper.sync.time.ms", "200");

        props.put("auto.commit.interval.ms", "1000");

        return new ConsumerConfig(props);

    }

    public KafkaSpout(String topic) {

        this.topic = topic;

    }

    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {

        this.collector = collector;

    }

    public void close() {

        // TODO Auto-generated method stub

    }

    public void activate() {

        this.consumer = Consumer.createJavaConsumerConnector(createConsumerConfig());

        Map<String, Integer> topickMap = new HashMap<String, Integer>();

        topickMap.put(topic, new Integer(1));

        Map<String, List<KafkaStream<byte[], byte[]>>> streamMap = consumer.createMessageStreams(topickMap);

        KafkaStream<byte[], byte[]> stream = streamMap.get(topic).get(0);

        ConsumerIterator<byte[], byte[]> it = stream.iterator();

        while (it.hasNext()) {

            String value = new String(it.next().message());

            LOGGER.info("(consumer)==>" + value);

            collector.emit(new Values(value), value);

        }

    }

    public void deactivate() {

        // TODO Auto-generated method stub

    }

    public void nextTuple() {

        // TODO Auto-generated method stub

    }

    public void ack(Object msgId) {

        // TODO Auto-generated method stub

    }

    public void fail(Object msgId) {

        // TODO Auto-generated method stub

    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

        declarer.declare(new Fields("KafkaSpout"));

    }

    public Map<String, Object> getComponentConfiguration() {

        // TODO Auto-generated method stub

        return null;

    }

}

KafkaTopology类：

package cn.hadoop.hdfs.storm.client;

import cn.hadoop.hdfs.storm.FileBlots;

import cn.hadoop.hdfs.storm.KafkaSpout;

import cn.hadoop.hdfs.storm.WordsCounterBlots;

import backtype.storm.Config;

import backtype.storm.LocalCluster;

import backtype.storm.StormSubmitter;

import backtype.storm.topology.TopologyBuilder;

import backtype.storm.tuple.Fields;

/**

 * @Date Jun 10, 2015

 *

 * @Author dengjie

 *

 * @Note KafkaTopology Task

 */

public class KafkaTopology {

    public static void main(String[] args) {

        TopologyBuilder builder = new TopologyBuilder();

        builder.setSpout("testGroup", new KafkaSpout("test"));

        builder.setBolt("file-blots", new FileBlots()).shuffleGrouping("testGroup");

        builder.setBolt("words-counter", new WordsCounterBlots(), 2).fieldsGrouping("file-blots", new Fields("words"));

        Config config = new Config();

        config.setDebug(true);

        if (args != null && args.length > 0) {

            // online commit Topology

            config.put(Config.NIMBUS_HOST, args[0]);

            config.setNumWorkers(3);

            try {

                StormSubmitter.submitTopologyWithProgressBar(KafkaTopology.class.getSimpleName(), config,

                        builder.createTopology());

            } catch (Exception e) {

                e.printStackTrace();

            }

        } else {

            // Local commit jar

            LocalCluster local = new LocalCluster();

            local.submitTopology("counter", config, builder.createTopology());

            try {

                Thread.sleep(60000);

            } catch (InterruptedException e) {

                e.printStackTrace();

            }

            local.shutdown();

        }

    }

}

4.预览截图

　　首先，我们启动Kafka集群，目前未生产任何消息，如下图所示：

　　接下来，我们启动Flume集群，开始收集日志信息，将数据输送到Kafka集群，如下图所示：

　　接下来，我们启动Storm UI来查看Storm提交的任务运行状况，如下图所示：

　　最后，将统计的结果持久化到Redis或者MySQL等DB中，结果如下图所示：

5.总结

　　这里给大家分享了数据的消费流程，并且给出了持久化的结果预览图，关于持久化的细节，后面有单独有一篇博客会详细的讲述，给大家分享其中的过程，这里大家熟悉下流程，预览结果即可。

6.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Kafka实战－Kafka到Storm的更多相关文章

Kafka实战－Storm Cluster
1.概述在<Kafka实战-实时日志统计流程>一文中,谈到了Storm的相关问题,在完成实时日志统计时,我们需要用到Storm去消费Kafka Cluster中的数据,所以,这里我单独给 ...
Kafka实战－Flume到Kafka
1.概述前面给大家介绍了整个Kafka项目的开发流程,今天给大家分享Kafka如何获取数据源,即Kafka生产数据.下面是今天要分享的目录: 数据来源 Flume到Kafka 数据源加载预览下面 ...
【转】Kafka实战－Flume到Kafka
Kafka实战-Flume到Kafka Kafka 2015-07-03 08:46:24 发布您的评价: 0.0 收藏 2收藏 1.概述前面给大家介绍了整个Kafka ...
Kafka实战分析（一）- 设计、部署规划及其调优
1. Kafka概要设计 kafka在设计之初就需要考虑以下4个方面的问题: 吞吐量/延时消息持久化负载均衡和故障转移伸缩性 1.1 吞吐量/延时对于任何一个消息引擎而言,吞吐量都是至关重要的 ...
《Apache Kafka 实战》读书笔记-认识Apache Kafka
<Apache Kafka 实战>读书笔记-认识Apache Kafka 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.kafka概要设计 kafka在设计初衷就是 ...
Kafka实战－数据持久化
1.概述经过前面Kafka实战系列的学习,我们通过学习<Kafka实战-入门>了解Kafka的应用场景和基本原理,<Kafka实战-Kafka Cluster>一文给大家分享 ...
Kafka实战－实时日志统计流程
1.概述在<Kafka实战-简单示例>一文中给大家介绍来Kafka的简单示例,演示了如何编写Kafka的代码去生产数据和消费数据,今天给大家介绍如何去整合一个完整的项目,本篇博客我打算为 ...
Kafka实战－Flume到Kafka （转）
原文链接:Kafka实战-Flume到Kafka 1.概述前面给大家介绍了整个Kafka项目的开发流程,今天给大家分享Kafka如何获取数据源,即Kafka生产数据.下面是今天要分享的目录: 数据来 ...
DataPipeline |《Apache Kafka实战》作者胡夕：Apache Kafka监控与调优
胡夕 <Apache Kafka实战>作者,北航计算机硕士毕业,现任某互金公司计算平台总监,曾就职于IBM.搜狗.微博等公司.国内活跃的Kafka代码贡献者. 前言虽然目前Apache ...

随机推荐

阮一峰大神的快排？刚才还在纠结sort()的我！真是个小傻瓜
看到这个标题之后我毫不犹豫的点进去了趁现在不忙我赶紧把代码写到了我的小本本上好好研究研究 (写的就不放进来了有点丑) 研究了下第一反应明明能用sort()解决的为什么非要写这么一大串但 ...
(百度)centos7上安装apache指南
https://jingyan.baidu.com/album/c843ea0bb5ff3977931e4a14.html?picindex=1 原文就不拷贝了.留个网址
分布式协议学习笔记(三) Raft 选举自编写代码练习
由于时间安排上的原因,这次的代码写的稍微有些简略,只能算是自己对RAFT协议的一个巩固. 实现定义2个节点,使用读取配置文件来获取IP和端口以及节点ID 网络使用boost同步流程一个线程收一个线 ...
django by example 第五章 No module named 'sorl-thumbnail'
描述:按照原书在settings的installed apps中加入sorl-thumbnail后同步数据库显示No module named 'sorl-thumbnail' 解决方案: 根据官方文 ...
主键生成策略sequence
http://blog.csdn.net/shanhuhau/article/details/24978253 表示:如果不写序列名,会走默认的序列若写,则seq_表名_属性名
JavaScript日历（es5版本）
近期在知乎上看到这么一个帖子,题主说自己JavaScript都学完了,结果老师留的作业还是不会写,就是写一个日历的插件,结果楼下一堆大牛出现了,百度的阿里的纷纷站出来发表自己的看法,有人认为简单,有人 ...
fly插件飞向购物车
首先载入jQuery库文件和jquery.fly.min.js插件. 插件官方: https://github.com/amibug/fly, 官方例子: http://codepen.io/hzxs ...
Codeforces Round #486 (Div. 3) E. Divisibility by 25
Codeforces Round #486 (Div. 3) E. Divisibility by 25 题目连接: http://codeforces.com/group/T0ITBvoeEx/co ...
04-jQuery的属性操作
jquery的属性操作模块分为四个部分:html属性操作,dom属性操作,类样式操作和值操作 html属性操作:是对html文档中的属性进行读取,设置和移除操作.比如attr().removeAttr ...
Alpha 冲刺(1)
Alpha 冲刺 (1/10) Part.1 开篇队名:彳艮彳亍团队组长博客:戳我进入作业博客:班级博客本次作业的链接 Part.2 成员汇报组员1(组长)柯奇豪过去两天完成了哪些任务 ...

Kafka实战－Kafka到Storm