本文系原创系列,转载请注明。

原帖地址:http://blog.csdn.net/xeseo

前言

在前面Storm系列之——基本概念一文中,提到过Storm的Spout应该是源源不断的取数据,不能间断。那么,很显然,消息队列系统、分布式内存系统或内存数据库是作为其数据源的很好的选择。本文就如何集成Kafka进行介绍。

Kafka的基本介绍:http://blog.csdn.net/xeseo/article/details/18311955

准备工作

KafkaSpout其实网上已经有人写了,在github上开源了,不用我们自己造轮子。只是要注意版本问题:

0.7版本的Kafka,对应KafkaSpout可以使用Storm-contrib下面的例子

源码:https://github.com/nathanmarz/storm-contrib/tree/master/storm-kafka

Maven依赖:https://clojars.org/storm/storm-kafka

0.8版本的Kafka在API上和底层Offset的处理方式上发生了重大变化,所以老的KafkaSpout不再适用,必须使用新的KafkaAPI

源码:https://github.com/wurstmeister/storm-kafka-0.8-plus

Maven依赖:https://clojars.org/net.wurstmeister.storm/storm-kafka-0.8-plus

这里因为0.8版本的Kafka必然是将来主流,所以我就不介绍0.7 的了,使用方式基本上是类似的。

PS:

是人写的,就会有bug,何况是别人分享出来的。所以,遇到bug,还请去github上提交一个issue告诉作者修正。

2014/7/29 更新:

wurstmeister/storm-kafka-0.8-plus 现在合并到Apache Storm了,在其external/storm-kakfa目录

Maven依赖直接更新成:

[plain] view plaincopyprint?

  1. <dependency>

  2. <groupId>org.apache.storm</groupId>

  3. <artifactId>storm-kafka</artifactId>

  4. <version>0.9.2-incubating</version>

  5. </dependency>

但是storm似乎没有直接把external的包加载到classpath,所以使用时,还得手动把该jar包从external/storm-kafka/下拷到storm的lib目录。

当然,也可以在maven中加上<scope>compile</scope>,直接把该jar打到你项目一起。

使用KafkaSpout

一个KafkaSpout只能去处理一个topic的内容,所以,它要求初始化时提供如下与topic相关信息:

  • Kafka集群中的Broker地址 (IP+Port)

有两种方法指定:

1. 使用静态地址,即直接给定Kafka集群中所有Broker信息

[java] view plaincopyprint?

  1. GlobalPartitionInformation info = new GlobalPartitionInformation();

  2. info.addPartition(0, new Broker("10.1.110.24",9092));

  3. info.addPartition(0, new Broker("10.1.110.21",9092));

  4. BrokerHosts brokerHosts = new StaticHosts(info);

2. 从Zookeeper动态读取

[java] view plaincopyprint?

  1. BrokerHosts brokerHosts = new ZkHosts("10.1.110.24:2181,10.1.110.22:2181");

推荐使用这种方法,因为Kafka的Broker可能会动态的增减

  • topic名字

  • 当前spout的唯一标识Id (以下代称$spout_id)

  • zookeeper上用于存储当前处理到哪个Offset了 (以下代称$zk_root)

  • 当前topic中数据如何解码

了解Kafka的应该知道,Kafka中当前处理到哪的Offset是由客户端自己管理的。所以,后面两个的目的,其实是在zookeeper上建立一个 $zk_root/$spout_id 的节点,其值是一个map,存放了当前Spout处理的Offset的信息。

在Topology中加入Spout的代码:

[java] view plaincopyprint?

  1. String topic = "test";

  2. String zkRoot = "kafkastorm";

  3. String spoutId = "myKafka";

  4. SpoutConfig spoutConfig = new SpoutConfig(brokerHosts, topic, zkRoot, spoutId);

  5. spoutConfig.scheme = new SchemeAsMultiScheme(new TestMessageScheme());

  6. TopologyBuilder builder = new TopologyBuilder();

  7. builder.setSpout("spout", new KafkaSpout(spoutConfig), spoutNum);

其中TestMessageScheme就是告诉KafkaSpout如何去解码数据,生成Storm内部传递数据

[java] view plaincopyprint?

  1. public class TestMessageScheme implements Scheme {

  2. private static final Logger LOGGER = LoggerFactory.getLogger(TestMessageScheme.class);

  3. @Override

  4. public List<Object> deserialize(byte[] bytes) {

  5. try {

  6. String msg = new String(bytes, "UTF-8");

  7. return new Values(msg);

  8. } catch (InvalidProtocolBufferException e) {

  9. LOGGER.error("Cannot parse the provided message!");

  10. }

  11. //TODO: what happend if returns null?

  12. return null;

  13. }

  14. @Override

  15. public Fields getOutputFields() {

  16. return new Fields("msg");

  17. }

  18. }

这个解码方式是与Producer端生成时塞入数据的编码方式配套的。这里我Producer端塞入的是String的byte,所以这里也还原成String,定义输出为一个名叫"msg"的field。

后面就可以自己添加Bolt处理tuple中该field的数据了。

使用TransactionalTridentKafkaSpout

TransactionalTridentKafkaSpout是为事务性的Trident而用的。用法与KafkaSpout有所不同。

[java] view plaincopyprint?

  1. TridentKafkaConfig kafkaConfig = new TridentKafkaConfig(brokerHosts, topic, spoutId);

  2. kafkaConfig.scheme = new SchemeAsMultiScheme(new TestMessageScheme());

  3. TransactionalTridentKafkaSpout kafkaSpout = new TransactionalTridentKafkaSpout(kafkaConfig);

  4. TridentTopology topology = new TridentTopology();

  5. topology.newStream("test_str", kafkaSpout).shuffle().each(new Fields("msg", new PrintFunction());

看到它并没有要求我们提供zkRoot,因为直接代码里面写死了…… -_-T

地址是 /transactional/<STREAM_NAME>/<Spout_Id>,在上面的例子中,就是  /transactional/test_str/myKafaka

常见问题

1. 本地模式无法保存Offset

KafkaSpout初始化时,会去取spoutConfig.zkServers 和 spoutConfig.zkPort 变量的值,而该值默认是没塞的,所以是空,那么它就会去取当前运行的Storm所配置的zookeeper地址和端口,而本地运行的Storm,是一个临时的zookeeper实例,并不会真正持久化。所以,每次关闭后,数据就没了。

本地模式,要显示的去配置

[java] view plaincopyprint?

  1. spoutConfig.zkServers = new ArrayList<String>(){{

  2. add("10.1.110.20");

  3. add("10.1.110.21");

  4. add("10.1.110.24");

  5. }};

  6. spoutConfig.zkPort = 2181;

2. 用Maven导入时,运行中SLF4J打印MutipleBinding 错误,导致无log输出。

原因是在这个KafkaSpout的pom.xml里依赖了kafka_2.9.2,而这货带了一个slf4j-simple的SLF4J绑定,修复这个问题

[html] view plaincopyprint?

  1. <del><dependency>

  2. <groupId>net.wurstmeister.storm</groupId>

  3. <artifactId>storm-kafka-0.8-plus</artifactId>

  4. <version>0.2.0</version>

  5. <exclusion>

  6. <groupId>org.slf4j</groupId>

  7. <artifactId>slf4j-simple</artifactId>

  8. </exclusion>

  9. </dependency></del>

3. 如果在topology第一次启动前,往kafka里面写数据,启动Storm后,这部分数据读不出来

原因是第一次启动topology时,在zookeeper上并未创建出保存Offset信息的节点,所以默认它会取当前partition最新的Offset(Kafka自己维护的单个partition上递增序号)。

理论上,如果找不到保存的Offset信息,应该从-1的Offset读起。

这个问题我给作者提出来了,但作者认为这样可以避免重复处理,我没有想通为何会有重复处理。但好在作者说会在后续版本加入参数来控制。

刚去看了下,似乎作者已经在提交 8b764cd fix掉了。有兴趣的可以去试下。我是自己本地改了他的代码。

以上问题已修复并合并。

Storm应用系列之——集成Kafka的更多相关文章

  1. Storm集成Kafka应用的开发

    我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果 ...

  2. storm集成kafka的应用,从kafka读取,写入kafka

    storm集成kafka的应用,从kafka读取,写入kafka by 小闪电 0前言 storm的主要作用是进行流式的实时计算,对于一直产生的数据流处理是非常迅速的,然而大部分数据并不是均匀的数据流 ...

  3. Storm集成Kafka的Trident实现

      原本打算将storm直接与flume直连,发现相应组件支持比较弱,topology任务对应的supervisor也不一定在哪个节点上,只能采用统一的分布式消息服务Kafka.   原本打算将结构设 ...

  4. spark streaming集成kafka

    Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Clouder ...

  5. Kafka系列1:Kafka概况

    Kafka系列1:Kafka概况 Kafka是当前分布式系统中最流行的消息中间件之一,凭借着其高吞吐量的设计,在日志收集系统和消息系统的应用场景中深得开发者喜爱.本篇就聊聊Kafka相关的一些知识点. ...

  6. SpringCloud学习之SpringCloudStream&集成kafka

    一.关于Spring-Cloud-Stream Spring Cloud Stream本质上就是整合了Spring Boot和Spring Integration,实现了一套轻量级的消息驱动的微服务框 ...

  7. springcloud 集成kafka问题记录,发消息报错:ERROR o.s.kafka.support.LoggingProducerListener - Exception thrown when sending a message with key='null' and payload='{-1,

    在springcloud集成kafka,发送消息时报错: 2018-08-15 16:01:34.159 [http-nio-8081-exec-1] INFO  org.apache.kafka.c ...

  8. asp.net core mcroservices 架构之 分布式日志(三):集成kafka

    一 kafka介绍 kafka是基于zookeeper的一个分布式流平台,既然是流,那么大家都能猜到它的存储结构基本上就是线性的了.硬盘大家都知道读写非常的慢,那是因为在随机情况下,线性下,硬盘的读写 ...

  9. Storm概念学习系列之Worker、Task、Executor三者之间的关系

    不多说,直接上干货! Worker.Task.Executor三者之间的关系 Storm集群中的一个物理节点启动一个或者多个Worker进程,集群的Topology都是通过这些Worker进程运行的. ...

随机推荐

  1. java中的Map集合

    Map接口 Map为一个接口.实现Map接口的类都有一个特点:有键值对,将键映射到值的对象. Map不能包含重复的键,每个键可以映射到最多一个值. Map常见的接口方法有: V  put(K key, ...

  2. 算法入门系列1:k-means

    k-means是一种无监督学习算法,用于聚类. 下图(来自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html)展示了k-m ...

  3. 判断ios当前的sdk版本的方法

    #if __IPHONE_OS_VERSION_MAX_ALLOWED < __IPHONE_6_0 // 当前支持的sdk版本是否低于6.0 //ios 6.0以下的处理 #else //io ...

  4. poj2104 划分树 区间K大 在线 无修改

    博主sbit....对于高级数据结构深感无力,然后这些东西在OI竟然烂大街了,不搞就整个人都不好了呢. 于是我勇猛的跳进了这个大坑 ——sbit 区间K大的裸题,在线,无修改. 可以用归并树(\(O( ...

  5. iis频繁奔溃,求大神帮忙分析dump

    直接上图了 上图三个错误最近频繁出现,出现一次iis就奔溃一次,抓取的dump分析后如下: Couldn't resolve error at 'ls' :> !analyze -v ***** ...

  6. 四十四 常用内建模块 struct

    准确地讲,Python没有专门处理字节的数据类型.但由于str既是字符串,又可以表示字节,所以,字节数组=str.而在C语言中,我们可以很方便地用struct.union来处理字节,以及字节和int, ...

  7. 【剑指offer】面试题 2. 实现 Singleton 模式

    面试题 2. 实现 Singleton 模式 题目:设计一个类,我们只能生成该类的一个实例. 单例模式:确保一个类只有一个实例,并提供了一个全局访问点. Java 实现 1.饿汉模式 //饿汉模式 p ...

  8. springBoot service层 事务控制

    springBoot使用事物比较简单,在Application启动类s上添加@EnableTransactionManagement注解,然后在service层的方法上添加@Transactional ...

  9. file '/grub/i386-pc/normal.mod' not found.解决方案

    前言: 因为之前装的Ubuntu出了点问题,本想直接清除Ubuntu数据重新装一下,结果蹦出这么个BUG来,揪心,弄了大半天终于弄好了. 废话不多说,直接按教程走吧. GRUB启动: 在grub启动界 ...

  10. [BZOJ3997][TJOI2015]组合数学(Dilworth定理+DP)

    题目名字是什么就不能往那方面想. 每个点拆成a[i][j]个,问题变为DAG最小路径覆盖,由Dilworth定理转成最长反链. 使用Dilworth定理的时候要注意那些点之间有边,这里任意一个点和其右 ...