Kafka详解六：Kafka如何通过源码实现监控

问题导读：

1.kafka的消费者组的消费偏移存储，kafka支持两个版本?
2.ConsumerOffsetChecker类的作用是什么？
3.Kafka如何通过源码实现监控？

一，基本思路介绍

Kafka作为一个好用的且应用很广泛的消息队列，在大数据处理系统中基本是必不可少的。当然，作为缓存消息的消息队列，我们对其进行流量监控及消费滞后告警就显得异常重要了。

读过前面的文章，<Kafka源码系列之源码解析SimpleConsumer的消费过程>和<Kafka源码系列之Consumer高级API性能分析>这两篇文章的兄弟姐妹应该看本篇文章会很简单。实际就是利用SimpleConsumer获取Partition最新的offset，用Zookeeper的工具获取消费者组的各个分区的消费偏移，两者做差就是lagSize。

但是实际kafka的消费者组的消费偏移存储，kafka支持两个版本的：

1，基于Zookeeper。OffsetFetchRequest.CurrentVersion为0。

2，基于kafka自身。OffsetFetchRequest.CurrentVersion为1(默认)。

那么要实现一个消费者消费滞后预警，就要兼容两种方式，那么我们就详细的来介绍这两种方式的实现。

二，重要工具类

1，ConsumerOffsetChecker

Kafka提供的检查消费者消费偏移，LogEndSize和lagsize的工具。我们实现自己的监控均可以模仿该类实现。本文也仅限于基于该类将实现过程。

2，ZkUtils

Kafka提供的操作Zookeeper的工具类。

3，SimpleConsumer

Kafka消费者实现类。Kafka的副本同步，低级消费者，高级消费者都是基于该类实现从kafka消费消息的。

4，OffsetRequest

消费者去获取分区数据偏移的请求类，对应的请求key是：RequestKeys.OffsetsKey。在kafka的服务端kafkaApis的处理函数是：handleOffsetRequest(request)

5，OffsetFetchRequest

这个是请求某个topic的某个消费组的消费偏移，对应的请求key:RequestKeys.OffsetFetchKey。在kafka的服务端kafkaApis的处理函数是：handleOffsetFetchRequest(request)

6，OffsetManager

偏移管理器。内部维护了一个Scheduler，会定时执行compact，进行偏移的合并。

三，源代码实现

1，首先是获得消费者的消费偏移

ConsumerOffsetChecker当main方法中首先是获得topic列表

[Bash shell] 纯文本查看复制代码

val topicList = topics match {

case Some(x) => x.split(",").view.toList

case None => ZkUtils.getChildren(zkClient, groupDirs.consumerGroupDir + "/owners").toList

}

接着是建立到Broker链接，然后从kafka获取消费者偏移

[Bash shell] 纯文本查看复制代码

val topicPartitions = topicPidMap.flatMap { case(topic, partitionSeq) => partitionSeq.map(TopicAndPartition(topic, _)) }.toSeq

val channel = ClientUtils.channelToOffsetManager(group, zkClient, channelSocketTimeoutMs, channelRetryBackoffMs)

debug("Sending offset fetch request to coordinator %s:%d.".format(channel.host, channel.port))

channel.send(OffsetFetchRequest(group, topicPartitions))

val offsetFetchResponse = OffsetFetchResponse.readFrom(channel.receive().buffer)

debug("Received offset fetch response %s.".format(offsetFetchResponse))

offsetFetchResponse.requestInfo.foreach { case (topicAndPartition, offsetAndMetadata) =>

if (offsetAndMetadata == OffsetMetadataAndError.NoOffset) {

val topicDirs = new ZKGroupTopicDirs(group, topicAndPartition.topic)

// this group may not have migrated off zookeeper for offsets storage (we don't expose the dual-commit option in this tool

// (meaning the lag may be off until all the consumers in the group have the same setting for offsets storage)

try {

val offset = ZkUtils.readData(zkClient, topicDirs.consumerOffsetDir + "/%d".format(topicAndPartition.partition))._1.toLong

offsetMap.put(topicAndPartition, offset)

} catch {

case z: ZkNoNodeException =>

if(ZkUtils.pathExists(zkClient,topicDirs.consumerOffsetDir))

offsetMap.put(topicAndPartition,-1)

else

throw z

}

else if (offsetAndMetadata.error == ErrorMapping.NoError)

offsetMap.put(topicAndPartition, offsetAndMetadata.offset)

else {

println("Could not fetch offset for %s due to %s.".format(topicAndPartition, ErrorMapping.exceptionFor(offsetAndMetadata.error)))

}

假如，获得的偏移信息为空，那么就从Zookeeper获取消费者偏移。
解决获取topic的分区的最大偏移，实际思路是构建simpleConsumer，然后由其去请求偏移，再跟获取的消费者偏移做差就得到消费者最大偏移。

[Bash shell] 纯文本查看复制代码

topicList.sorted.foreach {

topic => processTopic(zkClient, group, topic)

}

topicPidMap.get(topic) match {

case Some(pids) =>

pids.sorted.foreach {

pid => processPartition(zkClient, group, topic, pid)

}

case None => // ignore

}

在processPartition中

[Bash shell] 纯文本查看复制代码

val offsetOpt = offsetMap.get(topicPartition)

val groupDirs = new ZKGroupTopicDirs(group, topic)

val owner = ZkUtils.readDataMaybeNull(zkClient, groupDirs.consumerOwnerDir + "/%s".format(pid))._1

ZkUtils.getLeaderForPartition(zkClient, topic, pid) match {

case Some(bid) =>

val consumerOpt = consumerMap.getOrElseUpdate(bid, getConsumer(zkClient, bid))

consumerOpt match {

case Some(consumer) =>

val topicAndPartition = TopicAndPartition(topic, pid)

val request =

OffsetRequest(immutable.Map(topicAndPartition -> PartitionOffsetRequestInfo(OffsetRequest.LatestTime, 1)))

val logSize = consumer.getOffsetsBefore(request).partitionErrorAndOffsets(topicAndPartition).offsets.head

然后做差得到LagSize

[Bash shell] 纯文本查看复制代码

val lagString = offsetOpt.map(o => if (o == -1) "unknown" else (logSize - o).toString)

println("%-15s %-30s %-3s %-15s %-15s %-15s %s".format(group, topic, pid, offsetOpt.getOrElse("unknown"), logSize, lagString.getOrElse("unknown"),

owner match {case Some(ownerStr) => ownerStr case None => "none"}))

getConsumer方法中

[Bash shell] 纯文本查看复制代码

private def getConsumer(zkClient: ZkClient, bid: Int): Option[SimpleConsumer] = {

try {

ZkUtils.readDataMaybeNull(zkClient, ZkUtils.BrokerIdsPath + "/" + bid)._1 match {

case Some(brokerInfoString) =>

Json.parseFull(brokerInfoString) match {

case Some(m) =>

val brokerInfo = m.asInstanceOf[Map[String, Any]]

val host = brokerInfo.get("host").get.asInstanceOf[String]

val port = brokerInfo.get("port").get.asInstanceOf[Int]

Some(new SimpleConsumer(host, port, 10000, 100000, "ConsumerOffsetChecker"))

case None =>

throw new BrokerNotAvailableException("Broker id %d does not exist".format(bid))

}

case None =>

throw new BrokerNotAvailableException("Broker id %d does not exist".format(bid))

}

} catch {

case t: Throwable =>

println("Could not parse broker info due to " + t.getCause)

None

}

四，总结
该工具类的使用

[Bash shell] 纯文本查看复制代码

1	`bin/kafka-consumer-offset-checker.sh --group yourgroup -topic yourtopic --zookeeper localhost:2181`

输出结果

Offset是消费者消费到的偏移，logsize是kafka数据的最大偏移，Lag是二者的差。也即
LagSize = LogSize - Offset
得到我们消费组的滞后情况后，我们就可以根据需求(比如，设定滞后多少消息后给出告警)，给出相应的告警。

转自：http://www.aboutyun.com/forum.php?mod=viewthread&tid=22215&extra=page%3D1&page=1&

Kafka详解六：Kafka如何通过源码实现监控的更多相关文章

kafka详解(一)--kafka是什么及怎么用
kafka是什么在回答这个问题之前,我们需要先了解另一个东西--event streaming. 什么是event streaming 我觉得,event streaming 是一个动态的概念,它描 ...
kafka详解(二)--kafka为什么快
前言 Kafka 有多快呢?我们可以使用 OpenMessaging Benchmark Framework 测试框架方便地对 RocketMQ.Pulsar.Kafka.RabbitMQ 等消息系统 ...
Linux下通过源码编译安装程序
本文简单的记录了下,在linux下如何通过源码安装程序,以及相关的知识.(大神勿喷^_^) 一.程序的组成部分 Linux下程序大都是由以下几部分组成: 二进制文件:也就是可以运行的程序文件库文件: ...
通过源码了解ASP.NET MVC 几种Filter的执行过程
一.前言之前也阅读过MVC的源码,并了解过各个模块的运行原理和执行过程,但都没有形成文章(所以也忘得特别快),总感觉分析源码是大神的工作,而且很多人觉得平时根本不需要知道这些,会用就行了.其实阅读源 ...
大数据入门第七天——MapReduce详解（二）切片源码浅析与自定义patition
一.mapTask并行度的决定机制 1.概述一个job的map阶段并行度由客户端在提交job时决定而客户端对map阶段并行度的规划的基本逻辑为: 将待处理数据执行逻辑切片(即按照一个特定切片大小, ...
通过源码了解ASP.NET MVC 几种Filter的执行过程在Winform中菜单动态添加“最近使用文件”
通过源码了解ASP.NET MVC 几种Filter的执行过程一.前言之前也阅读过MVC的源码,并了解过各个模块的运行原理和执行过程,但都没有形成文章(所以也忘得特别快),总感觉分析源码是大神 ...
在centos6.7通过源码安装python3.6.7报错“zipimport.ZipImportError: can't decompress data; zlib not available”
在centos6.7通过源码安装python3.6.7报错: zipimport.ZipImportError: can't decompress data; zlib not available 从 ...
通过源码编译安装VIM
开发中使用的是Ubuntu 12.04 LTS,通过sudo apt-get install vim安装的版本较低,不支持YCM,所以,用源码编译并安装最新的Vim. 卸载旧版本的Vim: sudo ...
echarts 通过源码方法传入对应data数据获取分割步长值
通过源码方法获取这里的分割数字长度 /** * Quantity of a number. e.g. 0.1, 1, 10, 100 * * @param {number} val * @return ...

随机推荐

Android开发：《Gradle Recipes for Android》阅读笔记1.5
这节讲的是如何如何添加JAVA依赖库. 默认的android项目有两个build.gradle文件,分别位于顶级目录,和应用自己的目录下(通常放在一个叫app的目录下面). gradle支持多种方式列 ...
2016-06-19 NOIP模拟赛
2016-06-19 NOIP模拟赛 by coolyangzc 共3道题目,时间3小时题目名高级打字机不等数列经营与开发源文件 type.cpp/c/pas num.cpp/c ...
java内部类详细介绍
0.内部类与一般类有所不同,它是放在外部类的内部即可作为外部类的成员变量,也可放在方法内部作为局部变量,既然是变量,那么它可以用 private static 修饰符修饰,而外部类则不能,这也是内部类 ...
C#关于AutoResetEvent的使用介绍----修正
说明之前在博客园看到有位仁兄发表一篇关于AutoResetEvent介绍,看了下他写的代码,看上去没什么问题,但仔细看还是能发现问题.下图是这位仁兄代码截图. 仁兄博客地址:http://www.c ...
redo binlog
w https://dev.mysql.com/doc/refman/5.7/en/innodb-redo-log.html https://dev.mysql.com/doc/refman/5.7/ ...
Selenium IDE的使用
Selenium IDE 的作用 Selenium IDE 是Firefox 浏览器的一个插件, 它会记录你对Firefox的操作,并且可以回放它的操作. 在实际自动化测试中,不会用Selenium ...
我的Android进阶之旅------>Android使用9Patch图片作为不失真背景
做人要大度,海纳百川,做事要圆滑,左右逢源,这让我想到了编程也是如此,代码要扩展,界面也要考虑自适应. 这篇文章是android开发人员的必备知识,是我特别为大家整理和总结的,不求完美,但是有用. 1 ...
转：9个offer，12家公司，35场面试从微软到谷歌，应届计算机毕业生的2012求职之路 !!!
1,简介毕业答辩搞定,总算可以闲一段时间,把这段求职经历写出来,也作为之前三个半月的求职的回顾. 首先说说我拿到的offer情况: 微软,3面->终面,搞定百度,3面->终面,口头of ...
app开发团队人员构成怎么分配？国内著名的app开发团队有哪些
app开发团队人员构成:作为一个独立的app开发团队,人员架构必须包括产品经理,程序开发人员,测试专员,运营团队,UI 设计.这里是对专业的App开发公司而言,一般个人或团队可能一个人会身兼多职,所以 ...
Hexo+yilia博客首页不显示全文，显示more，截断文章。
个人主页:https://www.yuehan.online hexo new “xxx” 在md文档中插入即可. 现在博客:www.wangyurui.top

Kafka详解六：Kafka如何通过源码实现监控

Kafka详解六：Kafka如何通过源码实现监控的更多相关文章

随机推荐

热门专题