关于Kafka broker IO的讨论

Apache Kafka是大量使用磁盘和页缓存(page cache)的,特别是对page cache的应用被视为是Kafka实现高吞吐量的重要因素之一.实际场景中用户调整page cache的手段并不太多,更多的还是通过管理好broker端的IO来间接影响page cache从而实现高吞吐量.我们今天就来讨论一下broker端的各种IO操作. 开始之前,还是简单介绍一下page cache:page cache是内核使用的最主要的磁盘缓存(disk cache)之一——实际上Linux中还有其…

Kafka设计解析（二十三）关于Kafka监控方案的讨论

转载自 huxihx,原文链接关于Kafka监控方案的讨论目前Kafka监控方案看似很多,然而并没有一个“大而全”的通用解决方案.各家框架也是各有千秋,以下是我了解到的一些内容: 一.Kafka manager Github地址: https://github.com/yahoo/kafka-manager. 这款监控框架的好处在于监控内容相对丰富,既能够实现broker级常见的JMX监控(比如出入站流量监控),也能对consumer消费进度进行监控(比如lag等).另外用户还能在页面上直接…

kafka broker 进入 conflicted ephemeral node 死循环

转载请注明原创地址 http://www.cnblogs.com/dongxiao-yang/p/5621303.html 最近发现kafka一台服务器producer客户端写入时一直报错,查看该broker服务日志发现日志一直输出下面的内容,看上去应该是broker尝试在zk上注册节点但是产生了session冲突之类的问题. [2016-06-27 17:05:56,608] INFO I wrote this conflicted ephemeral node [{"jmx_port&quo…

Kafka broker配置介绍（四）

这部分内容对了解系统和提高软件性能都有很大的帮助,kafka官网上也给出了比较详细的配置详单,但是我们还是直接从代码来看broker到底有哪些配置需要我们去了解的,配置都有英文注释,所以每一部分是干什么的就不翻译了,都能看懂: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48…

Kafka 单节点多Kafka Broker集群

Kafka 单节点多Kafka Broker集群接前一篇文章,今天搭建一下单节点多Kafka Broker集群环境. 配置与启动服务由于是在一个节点上启动多个 Kafka Broker实例,所以我们需要使用不同的端口来实现. $ cp config/server.properties config/server-1.properties $ cp config/server.properties config/server-2.properties 修改 config/server-1.pr…

Kafka 单节点单Kafka Broker集群

下载与安装从 http://www.apache.org/dist/kafka/ 下载最新版本的 kafka,这里使用的是 kafka_2.12-0.10.2.1.tgz $ tar zxvf kafka_2.12-0.10.2.1.tgz $ cd kafka_2.12-0.10.2.1 运行启动 zookeeper 服务 $ bin/zookeeper-server-start.sh config/zookeeper.properties 启动 kafka Broker 服务 $ bin…

spark streaming 接收kafka消息之三 -- kafka broker 如何处理 fetch 请求

首先看一下 KafkaServer 这个类的声明: Represents the lifecycle of a single Kafka broker. Handles all functionality required to start up and shutdown a single Kafka node. 代表了单个 broker 的生命周期,处理所有功能性的请求,以及startup 和shutdown 一个broker node. 在这个类的startup中,有一个线程池被实例化了:…

kafka broker Leader -1引起spark Streaming不能消费的故障解决方法

一.问题描述:Kafka生产集群中有一台机器cdh-003由于物理故障原因挂掉了,并且系统起不来了,使得线上的spark Streaming实时任务不能正常消费,重启实时任务都不行.查看kafka topic状态,发现broker Leader出现-1的情况,如下图二.问题分析Kafka Broker Leader 为-1,表示有partition在选举Leader的时候失败了,因此引起了消费该Topic的实时任务都出现了异常,经过排除发现挂掉的cdh-003机器正好是broker id为25…

Kafka Broker | 命令行选项和过程

1.目标在这个Apache Kafka教程中,我们将学习Kafka Broker.Kafka Broker管理主题中的消息存储.如果Apache Kafka有多个代理,那就是我们所说的Kafka集群.此外,在本Kafka Broker教程中,我们将学习如何启动Kafka Broker和Kafka命令行选项.那么,让我们开始Apache Kafka Broker. Kafka Broker | 命令行选项和过程 2.什么是Kafa经纪人? Kafka代理也称为Kafka服务器和Kafka节点.这…

关于Kafka high watermark的讨论2

之前写过一篇关于Kafka High watermark的文章,引起的讨论不少:有赞扬之声,但更多的是针对文中的内容被challenge,于是下定决心找个晚上熬夜再看了一遍,昨晚挑灯通读了一遍确实发现不少错误.鉴于此我决定再写一篇博客重新梳理一下最新版本中High watermark(下称HW)的工作原理,也算是纠正之前文章中的错误.这次我不打算说leader epoch,而只是专门讨论HW.log end offset(日志末端位移,下称LEO)的事情.希望我能把整个流程交代清楚.也许这篇文章…

关于Kafka Fetch Session的讨论

Kafka在1.1.0版本引入了fetch session的概念,旨在降低“无效”FETCH请求对集群带宽资源的占用.故事的背景是这样的: 众所周知,Kafka的broker和consumer都会定期地向leader broker发送FETCH请求去获取数据.对于分区数很多的topic而言,待发送的FETCH请求就会很大,从而整体上增加网络带宽占用.即使这些分区没有任何新的数据到来,follower和consumer构造的FETCH请求都需要显式地罗列出每个订阅分区的详细数据,这包括:分区号.该…

Java操作Kafka执行不成功的解决方法，Kafka Broker Advertised.Listeners属性的设置

创建Spring Boot项目继承Kafka,向Kafka发送消息始终不成功.具体项目配置如下: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sche…

Kafka Broker配置

Kafka发行包里自带的配置样本可以用来安装单机服务,但并不能满足大多数安装场景的要求.kafka有很多配置选项,Kafka有很多配置选项,涉及安装和调优的方方面面.不过大多数调优选项可以使用默认配置,除非你对调优有特别的要求. 常规配置和主题配置(服务端的配置文件) kafka安装包里自带的config目录下有一个名字叫做server.properties的配置文件,这里面的配置项对应的就是标题里说的常规配置和主题配置了.在我的试验环境下,这个文件的绝对路径是:/usr/local/kafka…

Kafka Broker源码：网络层设计

一.整体架构 1.1 核心逻辑 1个Acceptor线程+N个Processor线程(network.threads)+M个Request Handle线程(io threads) 多线程多Reactor模型,Acceptor独占一个selector,每个Processor有自己的selector 每个Processor都有一个名为newConnections的ConcurrentLinkedQueue[SocketChannel](),Acceptor会round-robin轮询Process…

Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)

这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接收数据主要有两种办法,一种是基于Kafka high-level API实现的基于Receivers的接收方式,另一种是从Spark 1.3版本之后新增的无Receivers的方式.这两种方式的代码编写,性能表现都不相同.本文后续部分对这两种方式逐一进行分析. 一.基于Receiver的模式这种模…

关于Kafka监控方案的讨论

之前在知乎上尝试过回答这个问题,后来问的人挺多,干脆在博客里面保存一下. 目前Kafka监控方案看似很多,然而并没有一个"大而全"的通用解决方案.各家框架也是各有千秋,以下是我了解到的一些内容: Kafka manager Github地址: https://github.com/yahoo/kafka-manager. 这款监控框架的好处在于监控内容相对丰富,既能够实现broker级常见的JMX监控(比如出入站流量监控),也能对consumer消费进度进行监控(比如lag等).另外用…

Structured Streaming + Kafka Integration Guide 结构化流+Kafka集成指南 (Kafka broker version 0.10.0 or higher)

用于Kafka 0.10的结构化流集成从Kafka读取数据并将数据写入到Kafka. 1. Linking 对于使用SBT/Maven项目定义的Scala/Java应用程序,用以下工件artifact连接你的应用程序: 对于Python应用程序,你需要在部署应用程序时添加上面的库及其依赖关系.查看Deploying子节点. 2. Reading Data from Kafka 从Kafka读取数据 2.1 Creating a Kafka Source for Streaming Queries…

2 Kafka Broker

Log的读写.删除流程---日志管理器(log manager)负责创建日志.获取日志.清理日志.所有的日志读写操作都交给具体的日志实例来完成. KafkaServer启动的时候,初始化三个类: LogManager SocketServer the request handlers - KafkaRequestHandlers 按照顺序组件有: KafkaScheduler LogManager SocketServer ReplicaManager KafkaController Group…

修改kafka broker.id

kafka.common.InconsistentBrokerIdException: Configured broker.id 1 doesn't match stored broker.id 0 in meta.properties. If you moved your data, make sure your configured broker.id matches. If you intend to create a new broker, you should remove all d…

kafka broker

在server.properties文件中配置: 1.broker.id kafka集群是由多个节点组成的,每个节点称为一个broker,中文翻译是代理.每个broker都有一个不同的brokerId,由broker.id指定,是一个不小于0的整数,各brokerId必须不同,但不必连续.如果我们想扩展kafka集群,只需引入新节点,分配一个不同的broker.id即可. 启动kafka集群时,每一个broker都会实例化并启动一个kafkaController,并将该broker的broker…

Kafka 0.10.0.1 consumer get earliest partition offset from Kafka broker cluster - scala code

Return: Map[TopicPartition, Long] Code: val props = new Properties() props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, kafkaPara("bootstrap.servers").toString) props.put(ConsumerConfig.GROUP_ID_CONFIG, kafkaPara("group.id").toString)…

关于Kafka配额的讨论(2)

继续前一篇的讨论.前文中提到了两大类配额管理:基于带宽的以及基于CPU线程使用时间的.本文着重探讨基于CPU线程时间的配额管理. 定义这类配额管理被称为请求配额(request quota),管理起来非常简单,能够调节的参数只有一个:request_percentage.该参数是一个百分比.假设设置为20,则表示20%,即Kafka broker线程处理客户端请求时不会超过20%的线程时间.根据官网描述,它严格的定义为:该配额指定了一个客户端在单个配额时间窗口(quota.window.siz…

Kafka水位(high watermark)与leader epoch的讨论

~~~这是一篇有点长的文章,希望不会令你昏昏欲睡~~~ 本文主要讨论0.11版本之前Kafka的副本备份机制的设计问题以及0.11是如何解决的.简单来说,0.11之前副本备份机制主要依赖水位(或水印)的概念,而0.11采用了leader epoch来标识备份进度.后面我们会详细讨论两种机制的差异.不过首先先做一些基本的名词含义解析. 水位或水印(watermark)一词,也可称为高水位(high watermark),通常被用在流式处理领域(比如Apache Flink.Apache Spark…

关于Kafka日志留存策略的讨论

关于Kafka日志留存(log retention)策略的介绍,网上已有很多文章.不过目前其策略已然发生了一些变化,故本文针对较新版本的Kafka做一次统一的讨论.如果没有显式说明,本文一律以Kafka 1.0.0作为分析对象. 所谓日志留存策略,就是Kafka保存topic数据的规则,我将按照以下几个方面分别介绍留存策略: 留存策略类型留存机制及其工作原理一.留存策略类型目前,与日志留存方式相关的策略类型主要有两种:delete和compact.这两种留存方式的机制完全不同.本文主要讨论…

【原创】大叔问题定位分享（3）Kafka集群broker进程逐个报错退出

kafka0.8.1 一问题现象生产环境kafka服务器134.135.136分别在10月11号.10月13号挂掉: 134日志 [2014-10-13 16:45:41,902] FATAL [KafkaApi-134] Halting due to unrecoverable I/O error while handling produce request: (kafka.server.KafkaApis) 135日志 [2014-10-11 11:02:35,754] FATAL […

关于Kafka区分请求处理优先级的讨论

所有的讨论都是基于KIP-291展开的.抱歉,这又是一篇没有图的文字. 目前Kafka broker对所有发过来的请求都是一视同仁的,不会区别对待.不管是用于生产消费的PRODUCE和FETCH请求,还是controller端发送的LeaderAndIsr/StopReplica/UpdateMetadata请求,亦或是其他类型的请求也是一样.通常我们这里把PRODUCE/FETCH请求称为数据类请求:把controller发送的那3种请求称为控制类请求或controller类请求——在源码中前…