上一篇中分析了Scala版的console producer代码,这篇文章为读者带来一篇console consumer工作原理分析的随笔。其实不论是哪个consumer,大部分的工作原理都是类似的。本文利用console consumer作为切入点,既容易理解又不失一般性。
 
本文使用的Kafka环境是0.8.2.1版本,这也是当前最新的版本。(注:Kafka 0.9版本据说会用Java重新设计并编写consumer代码,对此我们拭目以待) 由于主要目的是分析consumer原理,因此本文并不过多纠结于console consumer特定的使用方法。一条最简单的命令足以作为我们的开始:
bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test-topic
 
kafka-console-consumer.sh脚本内容简洁明了: exec $(dirname $0)/kafka-run-class.sh kafka.tools.ConsoleConsumer $@
 
很显然,该shell脚本调用了kafka.tools包下的ConsoleConsumer类,并将提供的命令行参数全部传给该类。由此可知,我们需要从这个类开始分析。不过在此之前,简单说一下console consumer整体的启动流程,如下图所示:

上图流程具体展开如下:
1. 加载并解析命令行参数,唯一的必要参数(Required)是zookeeper
2. 如果没有传入group.id,ConsoleConsumer将生成自己的group.id,即console-consumer-[10万以内的一个随机数]
3. 创建ConsumerConfig用于封装consumer的各种配置
4. 创建默认的消息格式化类,其定义的writeTo方法会默认将消息输出到控制台
5. 创建ZookeeperConsumerConnector。Kafka使用它来创建KafkaStream消费流
5.1 创建本地缓存, 保存topic下每个分区的信息,包括该分区底层的阻塞队列,已消费的位移、已获取到的最新位移以及获取大小等
5.2 创建本地缓存,保存每个topic分区当前在zookeeper中保存的位移值
5.3 创建本地缓存,保存topic的每个读取线程底层对应的阻塞队列,主要用于关闭Connector时可以批量关闭底层的阻塞队列
5.4 生成consumer id,规则为[group.id]_[主机名]_[时间戳]_[随机产生的一个UUID的前8位]。其中主机名就是运行ConsoleConsumer所在broker节点的主机名
5.5 创建获取线程管理器(ConsumerFetcherManager)
5.6 启动一个特定线程,用于定时地(默认是1分钟)向Zookeeper提交更改过的位移 
6. 增加JVM关闭钩子,确保JVM关闭后资源也能够被释放
7. 创建KafkaStream并通过迭代器不断遍历该stream, KafkaStream的迭代器的底层实现包含一个阻塞队列,如果没有新的消息到来,该迭代器会一直阻塞,除非你显式设置了consumer.timeout.ms参数(默认是-1表示consumer会一直等待新消息的带来)
8. 每接收到一条新的消息,默认的消息格式化类会将其输出到控制台上。然后再次等待迭代器传过来的下一条消息

本质上来说,console consumer启动时会创建一个KafkaStream(可以简单翻译成Kafak流),该stream会不停地等待可消费的新消息——具体做法就是通过LinkedBlockingQueue阻塞队列来实现,后续会有详细描述。针对上面启动的顺序列表,我们在ConsoleConsumer.scala中逐一进行代码走读:

1. 加载必要参数 zookeeper
ConsoleConsumer.scala类定义了main方法,说明这是个可执行的类。类的前100多行几乎都在处理命令行参数的解析。其中真正必要的参数只有zookeeper.connect一个,如下面代码所示:
 // REQUIRED表示这是一个必须要指定的参数
val zkConnectOpt = parser.accepts("zookeeper", "REQUIRED: The connection string for the zookeeper connection in the form host:port. " +
"Multiple URLS can be given to allow fail-over.").withRequiredArg.describedAs("urls").ofType(classOf[String])
2. 生成group.id
乍一看和官网上要求的配置不匹配,因为官网中说过consumer真正必要的参数实际上有两个:zookeeper.connect和group.id。由此可以推断console consumer应该会生成group.id的值,且它本质上也是一个consumer,必然属于一个消费组,因此也必然定义了consumer id。下面的代码中即展示了console consumer如何生成自己的group id: (consumer id是如何生成的后面再说)
 // 如果没有显式指定group.id,那么代码就自己合成一个
// 具体格式: console-consumer-[10万以内的一个随机数]
// 10万是一个很大的数,因此只有非常低的几率会碰到多个console consumer的group id相同的情况
if(!consumerProps.containsKey("group.id")) {
consumerProps.put("group.id","console-consumer-" + new Random().nextInt(100000))
groupIdPassed=false
}
3. 创建ConsumerConfig对象封装配置

确定了consumer的group.id之后console consumer需要把传入参数封装进ConsumerConfig类中并把后者传给Consumer的create方法以构造一个ConsumerConnector——即初始化consumer了,具体逻辑见下面的代码:

 val config = new ConsumerConfig(consumerProps) // 封装ConsumerConfig配置类
val skipMessageOnError = if (options.has(skipMessageOnErrorOpt)) true else false
4. 创建默认的消息格式化类,其定义的writeTo方法会默认将消息输出到控制台
 val messageFormatterClass = Class.forName(options.valueOf(messageFormatterOpt))  // 创建消息格式类,用于最后的输出显示
val formatterArgs = CommandLineUtils.parseKeyValueArgs(options.valuesOf(messageFormatterArgOpt))
val maxMessages = if(options.has(maxMessagesOpt)) options.valueOf(maxMessagesOpt).intValue else -1
5. 创建ZookeeperConsumerConnector
ZookeeperConsumerConnector非常重要,它实现了ConsumerConnector接口(该接口定义了创建KafkaStream和提交位移的操作,如createMessageStreams、commitOffsets等)。Kakfa官网把这个接口称为high level的consumer API。对于大多数consumer来说,这个high level的consumer API提供的功能已经足够了。不过很多用户可能需要对位移有更大的控制,这个时候Kafka推荐用户使用被称为low level的consumer API—— SimpleConsumer。大家参考这篇文章来深入学习high level API的用法。目前为止,我们只需要知道Kafka通过下面的语句构建了ConsumerConnector这个consumer的核心接口:
 val connector = Consumer.create(config) // 创建ConsumerConnector,Consumer核心接口

6. 构建JVM关闭钩子线程 
这部分非常简单,就是在线程中关闭上一步创建的connector,并根据传入的参数决定是否删除zookeeper下/consumers/[group.id]节点
7. 创建KafkaStream,通过迭代器等待消息到来
由于console consumer支持同时消费多个topic的消息,因此它提供了类似于过滤器这样的实现,这也是为什么connector调用createMessageStreamsByFilter来创建KafkaStream的原因,如下面的代码所示。
 val stream = connector.createMessageStreamsByFilter(filterSpec, 1, new DefaultDecoder(), new DefaultDecoder()).get(0)
val iter = if(maxMessages >= 0)
stream.slice(0, maxMessages)
else
stream
createMessageStreamsByFilter方法返回的是一组KafkaStream,但console consumer默认只是创建了1个stream,所以这里直接调用get(0)取到这个stream就可以了。
8. 通过迭代器以阻塞等待的方式消费消息
创建好KafkaStream之后,console consumer通过迭代器遍历KafkaStream。这里值得注意的是,该迭代器底层实现依赖一个阻塞队列。如果没有显式配置过consumer.timeout.ms参数(默认是-1表示consumer会一直等待新消息),那么迭代器会一直处于阻塞状态等待可供消费的消息——具体的实现细节参见下一篇。迭代器每收到一条消息后,它就会使用默认的消息格式化类DefaultMessageFormatter将消息输出到控制台,这也是console consumer名字的由来,如下面的代码所示:
 for(messageAndTopic <- iter) {
try {
formatter.writeTo(messageAndTopic.key, messageAndTopic.message, System.out) // 输出到控制台
numMessages += 1
} catch { ... }
...
}

好了,至此我们按照启动顺序概述了console consumer启动时的各个阶段。不过,ZookeeperConsumerConnector和创建和迭代器的实现我们并未详细展开,这部分内容将作为后面续篇的内容呈现给大家。敬请期待!

【原创】Kafka console consumer源代码分析(一)的更多相关文章

  1. 【原创】Kafka console consumer源代码分析(二)

    我们继续讨论console consumer的实现原理,本篇着重探讨ZookeeperConsumerConnector的使用,即后续所有的内容都由下面这条语句而起: val connector = ...

  2. 【原创】kafka consumer源代码分析

    顾名思义,就是kafka的consumer api包. 一.ConsumerConfig.scala Kafka consumer的配置类,除了一些默认值常量及验证参数的方法之外,就是consumer ...

  3. 【原创】Kakfa utils源代码分析(三)

    Kafka utils包最后一篇~~~ 十五.ShutdownableThread.scala 可关闭的线程抽象类! 继承自Thread同时还接收一个boolean变量isInterruptible表 ...

  4. 【原创】Kakfa utils源代码分析(二)

    我们继续研究kafka.utils包 八.KafkaScheduler.scala 首先该文件定义了一个trait:Scheduler——它就是运行任务的一个调度器.任务调度的方式支持重复执行的后台任 ...

  5. 【原创】Kakfa utils源代码分析(一)

    Kafka.utils,顾名思义,就是一个工具套件包,里面的类封装了很多常见的功能实现——说到这里,笔者有一个感触:当初为了阅读Kafka源代码而学习了Scala语言,本以为Kafka的实现会用到很多 ...

  6. Kafka 源代码分析之LogManager

    这里分析kafka 0.8.2的LogManager logmanager是kafka用来管理log文件的子系统.源代码文件在log目录下. 这里会逐步分析logmanager的源代码.首先看clas ...

  7. Kafka 0.10 SocketServer源代码分析

    1概要设计 Kafka SocketServer是基于Java NIO来开发的,采用了Reactor的模式,其中包含了1个Acceptor负责接受客户端请求,N个Processor负责读写数据,M个H ...

  8. Spark SQL 源代码分析之 In-Memory Columnar Storage 之 in-memory query

    /** Spark SQL源代码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的. 那么基于以上存储结构,我们查询cache ...

  9. Spark SQL Catalyst源代码分析之TreeNode Library

    /** Spark SQL源代码分析系列文章*/ 前几篇文章介绍了Spark SQL的Catalyst的核心执行流程.SqlParser,和Analyzer,本来打算直接写Optimizer的,可是发 ...

随机推荐

  1. 设置Android Studio启动时可选最近打开过的工程

    Android Studio启动时,默认会打开最近关闭的工程. 如果想Android Studio在启动时,打开欢迎界面(Welcome to Android Studio界面),则可以通过设置Set ...

  2. Windows Azure 服务总线和物联网

    机器到机器 (M2M) 计算正迅速成为一种技术,所有开发人员和架构师需要拥抱. 许多研究表明一个未来世界的数百亿美元的设备 (在地球上的每一个人的出现).MSDN杂志有2篇文章讨论Azure服务总线和 ...

  3. 如何在Visual Studio 工程之间共享静态内容 (js, css, img, etc.)

     第一步: 文件夹上点击右键 -> Add -> Existing Item,单击选中文件,不要点击“Add”按钮,而是在“Add”按钮右边有个向下的小箭头,点击这个箭头,再点击“Add ...

  4. 你必须知道的指针基础-1.预备篇:搭建GCC开发环境

    一.关于GCC编译器 GCC(GNU Compiler Collection)是一套功能强大.性能优越的编程语言编译器,它是GNU计划的代表作品之一.GCC是Linux平台下最常用的编译器,GCC原名 ...

  5. Azure PowerShell (12) 通过Azure PowerShell创建SSH登录的Linux VM

    <Windows Azure Platform 系列文章目录> 本章将介绍如何使用Azure PowerShell,创建SSH登录的Linux VM 前提要求: 1.安装Azure Pow ...

  6. 基础才是重中之重~Emit动态构建方法(参数和返回值)

    回到目录 对于Emit我们知道它的可以动态构建程序集,类型,方法,属性等,或者说只要手动使用C#创建的东西使用Emit也都可以动态创建它们,Emit由于它的特别之处,所以在很多领域得到了广泛的应用,像 ...

  7. vue实例属性(vm.$els)

    不需要表达式 参数: id(必需) 用法: 为 DOM 元素注册一个索引,方便通过所属实例的 $els 访问这个元素. 注意: 因为 HTML 不区分大小写,camelCase 名字比如 v-el:s ...

  8. 【原创】开源Math.NET基础数学类库使用(14)C#生成安全的随机数

                   本博客所有文章分类的总目录:[总目录]本博客博文总目录-实时更新  开源Math.NET基础数学类库使用总目录:[目录]开源Math.NET基础数学类库使用总目录 前言 ...

  9. Web APi之EntityFramework【CRUD】(三)

    前言 之前我们系统学习了EntityFramework,个人觉得有些东西不能学了就算完了,必须要学以致用,在Web API上也少不了增(C).删(D).改(U).查(R).鉴于此,我们通过EF来实现W ...

  10. javascript模拟继承

    javascript作为前端开发的标配技能,如果不掌握好它的三大特点:1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢?如果标配的技能都没有撑握好,怎么可以任性的玩耍呢?怎么验证自己 ...