Replication in Kafka

Replication简介

Kafka中的Replication功能是为了给每个partition提供备份，当某个Broker挂掉时可以迅速实现故障切换（failover)。
我们可以在创建或修改topic时指定replica factor，来设定备份数目。请阅读如下实例来准确理解该参数作用：
如果一个Topic A的replica factor为3，则该topic的每一个partition都是3备份，包括1个leader和2个follower。
外界在访问Topic A时，读写只能通过leader partition进行。
注意：Kafka中默认总是打开Replication机制（如果你想为你的topic关闭该功能，一个变通的办法是指定Topic的replica factor为1。）

Kafka ISR vs Majority Vote(Quorum) .
Kafka会在Zookeeper中为每个Partition维持一个ISR (In-Sync Replicas，这里面的Replica能能跟得上对应Leader的消息更新)。一个被写入Leader的message, 只有当其被ISR中所有的replica都复制成功时，才能被Customer消费。
这保证了一个Customer不会消费到一个只在leader中保存的message（当leader挂掉时，message就会丢失。）另一方面，对于Producer来说，他可以选择是否等待一个message被所有replica复制成功，这取决于他对latency（延迟）和durability（可靠性）的偏好，可通过request.required.acks设定。

写到这里不得不提一下多数选举机制(Majority Vote),尽管Kafka没有采用。假设有replica factor设为3（2n+1），则message写入leader后一旦有一个follower写入成功(n+1个replica写入成功)，则该message就被认为"committed", 从而能被消费者访问。
Majority Vote的优势是其延迟取决于最快的replica, 而不是像Kafka现在的策略一样，延迟取决于最慢的replica。但Majority Vote的缺点也很明显，为了容忍一个failure, 需要3备份，这对大型系统来说很浪费资源。所以他更适合于管理元数据的分布式系统（规模较小），例如Zookeeper。

Kafka通过基于Message Set的Block I/O优化和Zero Copy技术, 来补偿ISR中潜在的延迟问题。

Partition Leader选举

Kafka的replica机制，还有一个缺点。当一个Broker挂掉时，其未flush到硬盘的数据是无法找回的。也就是说，Kafka的设计理念不保证Down机时内存数据的及时写回。这一点Kafka官方做了两点解释：
      （1）如果物理硬盘故障，很可能也不能保证数据完整性；
      （2）即使物理硬盘在故障时能保证完整性，每次写都做fsync将会对性能产生很大影响。
        因而Kafka允许Replica重新加入ISR的条件是：这个Replica必须和相应的leader保持一致（完成resync)才能重新加入ISR,尽管他丢掉了故障时未写入硬盘的数据。
最坏的情况下，如果一个partition所有的replica都发生故障（相关的Broker均掉线），目前Kafka的策略是第一个重新恢复的replica默认为leader, 尽管有可能不属于原来的ISR.

未来Kafka希望能通过配置满足使用场景对于down机和dataloss的不同关切程度。也就是说，如果使用方需要保证数据不丢失，可以选择等待原有ISR中的replica复活作为Leader。代价是down机时间可能更长。

Replication in Kafka的更多相关文章

Apache Kafka Replication Design – High level
参考,https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Replication Kafka Replication High-level ...
Kafka设计解析（一）- Kafka背景及架构介绍
本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅 ...
Kafka随笔一
一.KafKa所涉及到的名词概念: 1. Topic:用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上. 2. Partition:是Kafka中横向扩展和一切 ...
Kafka深度解析
本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅 ...
Kafka深度解析，众人推荐，精彩好文！
作者: Jason Guo 背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统.主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,并保证即使对TB级以上数据 ...
kafka设计原理介绍
背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统.主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐 ...
Kafka 技术文档
Kafka 技术文档目录 1 Kafka创建背景 2 Kafka简介 3 Kafka好处 3.1 解耦 3.2 冗余 3.3 扩展性 3.4 灵活性 & 峰值处理能力 3.5 可恢复性 ...
kafka基本原理学习
下载安装地址:http://kafka.apache.org/downloads.html 原文链接:http://www.jasongj.com/2015/01/02/Kafka深度解析 Kafk ...
【转载】Kafka High Availability
http://www.haokoo.com/internet/2877400.html Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则 ...

随机推荐

PHPStorm+PHP5.6+WIN7+IIS7
文件下载以下为参考网址,如无法打开或变动,请自行搜索,获取最新版本文件请行搜索 PHP Manager:http://www.iis.net/downloads/community/2010/09/ ...
(转)c语言随机数srandom( )
转自:http://zhidao.baidu.com/question/334364810.html调用随机数函数 rand()() 的时候, 实际得到的这个随机数并不是绝对随机的,它是以一个初始值, ...
UBUNTU 14.04 + CUDA 7.5 + CAFFE
这个也是困扰我很久的问题,之前用 http://www.cnblogs.com/platero/p/3993877.html 的安装方法,装了五六七八九十次,总是出问题. 后来找到了一种新的方法,一个 ...
不容错过的iOS 8的导航交互
你曾注意过Safari移动客户端里美轮美奂的导航栏缩放效果么,以及那些tab bar是如何消失的吗? 在iOS 8中,苹果让这种类型的交互变得非常容易,虽然在WWDC上演示了缩放导航栏效果,不过后来他 ...
React组件生命周期-正确执行初始化阶段的函数
一. 二.代码 <!DOCTYPE html> <html lang="zh-cn"> <head> <meta charset=&quo ...
Minifilter微过滤框架：框架介绍以及驱动层和应用层的通讯
minifilter是sfilter后微软推出的过滤驱动框架.相比于sfilter,他更容易使用,需要程序员做的编码更简洁. 系统为minifilter专门制作了一个过滤管理器,这个管理器本身其实是一 ...
SQL Server 使用日志传送
参考文献: http://msdn.microsoft.com/en-us/library/ms187103.aspx 概述 SQL Server 使用日志传送,您可以自动将“主服务器”实例上“主数据 ...
HighCharts开发说明及属性详解
一.HighCharts开发说明: HighCharts 开发实际上配置HighCharts每个部分,比如配置标题(title),副标题(subtitle)等,其中每个部分又有更细的参数配置,比如标题 ...
ADB调试桥安装（方式二）
想使用ADB工具可以通过安装安卓SDK套件,然后通过SDK里面的adb工具连接手机进行调试, 然而这种方式安装起来多多少少还是有点麻烦,ADB调试桥安装(方式一). 另一种方式来的就更为舒服一些了,即 ...
利用Apriori算法对交通路况的研究
首先简单描述一下Apriori算法:Apriori算法分为频繁项集的产生和规则的产生. Apriori算法频繁项集的产生: 令ck为候选k-项集的集合,而Fk为频繁k-项集的集合. 1.首先通过单遍扫 ...

Replication in Kafka

Replication in Kafka的更多相关文章

随机推荐

热门专题