背景 由于项目上Flink在设置parallel多于1的情况下,job没法正确地获取watermark,所以周末来研究一下一部分,大概已经锁定了原因: 虽然我们的topic只设置了1的partition,但是Kafka的Comsumer还是起了好几个subtask去读索引是2.3的partition,然后这几个subtask的watermark一直不更新,导致我们job整体的watermark一直是Long.MIN_VALUE.现在需要去了解一下subtask获取partition的流程,等上班…
Replica 对于local replica, 需要记录highWatermarkValue,表示当前已经committed的数据对于remote replica,需要记录logEndOffsetValue以及更新的时间 package kafka.cluster class Replica(val brokerId: Int, val partition: Partition, time: Time = SystemTime, initialHighWatermarkValue: Long…
org.reflections 接口通过反射获取实现类源码研究 版本 org.reflections reflections 0.9.12 Reflections通过扫描classpath,索引元数据,并且允许在运行时查询这些元数据. 使用Reflections可以很轻松的获取以下元数据信息: 获取某个类型的所有子类:比如,有一个父类是Interface,可以获取到Interface的所有子类. 获取某个注解的所有类型/字段变量,支持注解参数匹配. 使用正则表达式获取所有匹配的资源文件 获取特定…
Kafka源码依赖于Scala环境,首先需要安装scala,这块请自行百度进行安装. 传送门 当然,我们要分析源码,需要下载源码,请自行从github上面下载. 说明:本文使用的kafka版本为0.10.0.1,这是目前公司使用的版本. 下面说明下kafka源码的工程结构: 下面主要对core目录模块进行说明,这块是kafka的核心. admin:管理员模块,操作和管理topic,paritions相关,包含create,delete topic,扩展patitions api:这块主要负责数据…
系列文章目录 https://zhuanlan.zhihu.com/p/367683572 目录 系列文章目录 一. 业务模型 1.1 概念梳理 1.2 文件分析 1.2.1 数据目录 1.2.2 .log文件 1.2.3 .index和.timeindex文件 1.3 顺序IO 1.4 端到端压缩 二. 源码结构 2.1 核心类 2.1.1 核心类之间的关系 2.1.1 数据传递对象 2.1.2 ReplicaManager 2.1.3 Partition 2.1.4 Replica 2.1.…
0. 关键概念 关键概念 Concepts Function Topic 用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上. Partition 是Kafka中横向扩展和一切并行化的基础,每个Topic都至少被切分为1个Partition. Offset 消息在Partition中的编号,编号顺序不跨Partition(在Partition内有序). Consumer 用于从Broker中取出/消费Message. Producer 用于往Broker中发送/生产Me…
Kakfa揭秘 Day3 Kafka源码概述 今天开始进入Kafka的源码,本次学习基于最新的0.10.0版本进行.由于之前在学习Spark过程中积累了很多的经验和思想,这些在kafka上是通用的. 总体 首先从总体方式进行一下分析,进入最关键的core. 从源码角度看,最关键的是标红的几个模块. admin是管理模块,主要管理Topic和Partition相关的东西. client客户端模块,给客户端(consumer.producer.broker等的总称)提供各种支持功能. cluster…
1.概述 在对Kafka使用层面掌握后,进一步提升分析其源码是极有必要的.纵观Kafka源码工程结构,不算太复杂,代码量也不算大.分析研究其实现细节难度不算太大.今天笔者给大家分析的是其核心处理模块,core模块. 2.内容 首先,我们需要对Kafka的工程结构有一个整体的认知度,Kafka 大家最为熟悉的就是其消费者与生产者.然其,底层的存储机制,选举机制,备份机制等实现细节,需要我们对其源码仔细阅读学习,思考与分析其设计之初的初衷.下面,我们首先来看看Kafka源码工程模块分布,截止当天日期…
1. Kafka.scala 在Kafka的main入口中startup KafkaServerStartable, 而KafkaServerStartable这是对KafkaServer的封装 1: val kafkaServerStartble = new KafkaServerStartable(serverConfig) 2: kafkaServerStartble.startup 1: package kafka.server 2: class KafkaServerStartable…
浪尖的kafka源码系列以kafka0.8.2.2源码为例给大家进行讲解的.纯属个人爱好,希望大家对不足之处批评指正. 一,zookeeper在分布式集群的作用 1,数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是讲发布者将数据发布到zk节点上,共订阅者动态获取数据,实现配置的集中式管理和动态更新.例如,全局的配置信息,服务服务框架的地址列表就非常适合使用. 2,负载均衡 即软件负载均衡.最典型的是消息中间件的生产.消费者负载均衡. 3,命名服务(Naming Serv…