Apache Kafka源码分析 – Replica and Partition

Replica 对于local replica, 需要记录highWatermarkValue,表示当前已经committed的数据对于remote replica,需要记录logEndOffsetValue以及更新的时间 package kafka.cluster class Replica(val brokerId: Int, val partition: Partition, time: Time = SystemTime, initialHighWatermarkValue: Long…

Apache Kafka源码分析 – Broker Server

1. Kafka.scala 在Kafka的main入口中startup KafkaServerStartable, 而KafkaServerStartable这是对KafkaServer的封装 1: val kafkaServerStartble = new KafkaServerStartable(serverConfig) 2: kafkaServerStartble.startup 1: package kafka.server 2: class KafkaServerStartable…

apache kafka源码分析-Producer分析---转载

原文地址:http://www.aboutyun.com/thread-9938-1-1.html 问题导读1.Kafka提供了Producer类作为java producer的api,此类有几种发送方式?2.总结调用producer.send方法包含哪些流程?3.Producer难以理解的在什么地方? producer的发送方式剖析Kafka提供了Producer类作为java producer的api,该类有sync和async两种发送方式.sync架构图 async架构图调用流程如下:…

Apache Kafka源码分析 – Controller

https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Controller+Internalshttps://cwiki.apache.org/confluence/display/KAFKA/kafka+Detailed+Replication+Design+V3 Controller是为了加入replica机制而创建的,0.7时broker之间没有很强的关联,而由于现在每个topic partition都需要考虑,将replicas放…

Apache Kafka源码分析 - kafka controller

前面已经分析过kafka server的启动过程,以及server所能处理的所有的request,即KafkaApis 剩下的,其实关键就是controller,以及partition和replica的状态机这里先看看controller在broker server的基础上,多做了哪些初始化和failover的工作最关键的一句, private val controllerElector = new ZookeeperLeaderElector(controllerContext, Zk…

Apache Kafka源码分析 - autoLeaderRebalanceEnable

在broker的配置中,auto.leader.rebalance.enable (false) 那么这个leader是如何进行rebalance的? 首先在controller启动的时候会打开一个scheduler, if (config.autoLeaderRebalanceEnable) { //如果打开outoLeaderRebalance,需要把partiton leader由于dead而发生迁徙的,重新迁徙回去 info("starting the partition rebalan…

Apache Kafka源码分析 - KafkaApis

kafka apis反映出kafka broker server可以提供哪些服务,broker server主要和producer,consumer,controller有交互,搞清这些api就清楚了broker server的所有行为 handleOffsetRequest 提供对offset的查询的需求,比如查询earliest,latest offset是什么,或before某个时间戳的offset是什么 try { // ensure leader exists // 确定是否是lead…

Apache Kafka源码分析 – Log Management

LogManager LogManager会管理broker上所有的logs(在一个log目录下),一个topic的一个partition对应于一个log(一个log子目录)首先loadLogs会加载每个partition所对应的log对象, 然后提供createLog,getLog,deleteLog之类的管理接口并且会创建些后台线程来进行,cleanup,flush,checkpoint生成之类的工作 /** * The entry point to the kafka log manage…

Apache Kafka源码分析 - ReplicaStateMachine

startup 在onControllerFailover中被调用, /** * Invoked on successful controller election. First registers a broker change listener since that triggers all * state transitions for replicas. Initializes the state of replicas for all partitions by reading fro…

Apache Kafka源码分析 - PartitionStateMachine

startup 在onControllerFailover中被调用, initializePartitionState private def initializePartitionState() { for((topicPartition, replicaAssignment) <- controllerContext.partitionReplicaAssignment) { // 取出所有的partitions // check if leader and isr path exists…

Apache Kafka源码分析 – ReplicaManager

如果说controller作为master,负责全局的事情,比如选取leader,reassignment等那么ReplicaManager就是worker,负责完成replica的管理工作主要工作包含, stopReplica getOrCreatePartition getLeaderReplicaIfLocal getReplica readMessageSets becomeLeaderOrFollower StopReplicaCommand 处理很简单,主要就是停止fetcher线…

Kafka源码分析(一) - 概述

系列文章目录 https://zhuanlan.zhihu.com/p/367683572 目录系列文章目录一. 实际问题二. 什么是Kafka, 如何解决这些问题的三. 基本原理 1. 基本框架 2. Topic 3. Partition 和 Consumer Group 4. Replica 5. Broker & KafkaController 五. 源码结构 1. 源码地址 2. 目录结构六. 总结一. 实际问题我们在业务开发的过程中,会涉及很多"事件驱动"…

Kafka源码分析(三) - Server端 - 消息存储

系列文章目录 https://zhuanlan.zhihu.com/p/367683572 目录系列文章目录一. 业务模型 1.1 概念梳理 1.2 文件分析 1.2.1 数据目录 1.2.2 .log文件 1.2.3 .index和.timeindex文件 1.3 顺序IO 1.4 端到端压缩二. 源码结构 2.1 核心类 2.1.1 核心类之间的关系 2.1.1 数据传递对象 2.1.2 ReplicaManager 2.1.3 Partition 2.1.4 Replica 2.1.…

Kafka源码分析系列-目录(收藏不迷路)

持续更新中,敬请关注! 目录 <Kafka源码分析>系列文章计划按"数据传递"的顺序写作,即:先分析生产者,其次分析Server端的数据处理,然后分析消费者,最后再补充部分事务和流式计算相关内容. 一. 概述介绍Kafka的背景.定位.基本思想及原理以及源码结构等内容. 二. 生产者 (Writing) 分析生产者的线程模型.压缩机制等方面内容. 三. Server端-消息存储 (待写作) 承接上一篇生产者文章,分析Producer发来的消息在Server端是如何存的.…

kafka源码分析之一server启动分析

0. 关键概念关键概念 Concepts Function Topic 用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上. Partition 是Kafka中横向扩展和一切并行化的基础,每个Topic都至少被切分为1个Partition. Offset 消息在Partition中的编号,编号顺序不跨Partition(在Partition内有序). Consumer 用于从Broker中取出/消费Message. Producer 用于往Broker中发送/生产Me…

Kafka源码分析及图解原理之Producer端

一.前言任何消息队列都是万变不离其宗都是3部分,消息生产者(Producer).消息消费者(Consumer)和服务载体(在Kafka中用Broker指代).那么本篇主要讲解Producer端,会有适当的图解帮助理解底层原理. 一.开发应用首先介绍一下开发应用,如何构建一个KafkaProducer及使用,还有一些重要参数的简介. 1.1 一个栗子 /** * Kafka Producer Demo实例类. * * @author GrimMjx */ public class Produc…

Kafka源码分析(二) - 生产者

系列文章目录 https://zhuanlan.zhihu.com/p/367683572 目录系列文章目录一. 使用方式 step 1: 设置必要参数 step 2: 创建KafkaProducer step 3:构造要发送的消息 step 4:发送消息二. 线程模型三. 源码分析 1. 主线程 1.1 KafkaProducer属性分析 1.2 ProducerInterceptors 1.3 元数据获取 1.4 Serialize 1.5 Partition选择 2. Record…

Kafka源码分析

本文主要针对于Kafka的源码进行分析,版本为kafka-0.8.2.1. 由于时间有限,可能更新比较慢... Kafka.scala // 读取配置文件 val props = Utils.loadProps(args(0)) val serverConfig = new KafkaConfig(props) KafkaMetricsReporter.startReporters(serverConfig.props) val kafkaServerStartable = new KafkaS…

Kafka源码分析－序列2 －Producer

在上一篇,我们从使用方式和策略上,对消息队列做了一个宏观描述.从本篇开始,我们将深入到源码内部,仔细分析Kafka到底是如何实现一个分布式消息队列.我们的分析将从Producer端开始. 从Kafka 0.8.2开始,发布了一套新的Java版的client api, KafkaProducer/KafkaConsumer,替代之前的scala版的api.本系列的分析将只针对这套Java版的api. 多线程异步发送模型下图是经过源码分析之后,整理出来的Producer端的架构图: 这里写图片描述…

Kafka源码研究--Comsumer获取partition下标

背景由于项目上Flink在设置parallel多于1的情况下,job没法正确地获取watermark,所以周末来研究一下一部分,大概已经锁定了原因: 虽然我们的topic只设置了1的partition,但是Kafka的Comsumer还是起了好几个subtask去读索引是2.3的partition,然后这几个subtask的watermark一直不更新,导致我们job整体的watermark一直是Long.MIN_VALUE.现在需要去了解一下subtask获取partition的流程,等上班…

Kafka源码分析及图解原理之Broker端

一.前言 https://www.cnblogs.com/GrimMjx/p/11354987.html 上一节说过,任何消息队列都是万变不离其宗都是3部分,消息生产者(Producer).消息消费者(Consumer)和服务载体(在Kafka中用Broker指代).上一节讲了kafka producer端的一些细节,那么这一节来讲broker端的一些设计与原理首先从kafka如何创建一个topic来开始: kafka-topics --create --zookeeper localhost…

Apache Kafka 源码剖析

Getting Start 下载 http://kafka.apache.org/ 优点和应用场景 Kafka消息驱动,符合发布-订阅模式,优点和应用范围都共通发布-订阅模式优点解耦合 : 两个应用不需要相互调用可扩展性 : 消费者的个数可实时扩展实时性 : 消费者能实时的获取生产者发布的事件高效 :减少由于多个消费者请求数据造成的数据计算带来的资源消耗异步通讯 :发布-订阅模式是天生的异步通讯 Kafka其他优点持久化 : 消息丢失的可控性极高高性能顺序性发布-订阅模式应用…

kafka源码分析（一）server启动分析

1 启动入口Kafka.scala Kafka的启动入口是Kafka.scala的main()函数: def main(args: Array[String]): Unit = { try { //通过args读取properties val serverProps = getPropsFromArgs(args) val kafkaServerStartable = KafkaServerStartable.fromProps(serverProps) // 增加shutdown方法 Runt…

kafka源码分析之二客户端分析

客户端由两种:生产者和消费者 1. 生产者先看一下生产者的构造方法: private KafkaProducer(ProducerConfig config, Serializer<K> keySerializer, Serializer<V> valueSerializer) { try { log.trace("Starting the Kafka producer"); Map<String, Object> userProvidedConf…

kafka源码分析（二）Metadata的数据结构与读取、更新策略

一.基本思路异步发送的基本思路就是:send的时候,KafkaProducer把消息放到本地的消息队列RecordAccumulator,然后一个后台线程Sender不断循环,把消息发给Kafka集群. 要实现这个,还得有一个前提条件:就是KafkaProducer/Sender都需要获取集群的配置信息Metadata.所谓Metadata,也就是在上一篇所讲的,Topic/Partion与broker的映射关系:每一个Topic的每一个Partion,得知道其对应的broker列表是什么,其…

Kafka#4：存储设计分布式设计源码分析

https://sites.google.com/a/mammatustech.com/mammatusmain/kafka-architecture/4-kafka-detailed-architecture.pdf?attredirects=2&d=1 https://news.ycombinator.com/item?id=7386652 https://www.quora.com/Why-does-Kafka-scale-better-than-other-messaging-syste…