1.概述

　　在 Kafka 集群中，我们可以对每个 Topic 进行一个或是多个分区，并为该 Topic 指定备份数。这部分元数据信息都是存放在 Zookeeper 上，我们可以使用 zkCli 客户端，通过 ls 和 get 命令来查看元数据信息。通过 log.dirs 属性控制消息存放路径，每个分区对应一个文件夹，文件夹命名方式为：TopicName-PartitionIndex，该文件夹下存放这该分区的所有消息和索引文件，如下图所示：

2.内容

　　Kafka 集群在生产消息入库的时候，通过 Key 来进行分区存储，按照相应的算法，生产分区规则，让所生产的消息按照该规则分布到不同的分区中，以达到水平扩展和负载均衡。而我们在消费这些消息的时候，可以使用多线程来消费该 Topic 下的所有分区中的消息。

　　分区规则的制定，通过实现 kafka.producer.Partitioner 接口，该接口我们可以进行重写，按照自己的方式去实现分区规则。如下，我们按照 Key 的 Hash 值，然后取模得到分区索引，代码如下所示：

package cn.hadoop.hdfs.kafka.partition;

import kafka.producer.Partitioner;

import kafka.utils.VerifiableProperties;

/**

 * @Date Nov 3, 2016

 *

 * @Author dengjie

 *

 * @Note 先 Hash 再取模，得到分区索引

 */

public class CustomerPartitioner implements Partitioner {

    public CustomerPartitioner(VerifiableProperties props) {

    }

    public int partition(Object key, int numPartitions) {

        int partition = 0;

        String k = (String) key;

        partition = Math.abs(k.hashCode()) % numPartitions;

        return partition;

    }

}

　　在创建 Topic 的时候，若按照上述规则创建分区，分区数最后为 Brokers 的整数倍，这样才能发挥其负载均衡的作用，比如：当前我们集群节点由 3 个 Broker 组成，如下图所示：

2.1 创建分区

　　我们在创建分区的时候，可以通过 Kafka 提供的客户端命令进行创建，如下，我们创建一个6分区，3备份的一个 Topic，命令如下所示：

./kafka-topics.sh --create --zookeeper k1:,k2:,k3: --replication-factor  --partitions  --topic ke_test

　　这里需要注意的是，指定备份数的时候，备份数要小于等于 Brokers 数。否则创建失败。在创建分区的时候，假设，我们只创建 2 个分区，而我们上述图中， Brokers 有 3 个，会造成有一个 Broker 上没有该 Topic 的分区，以致分布不均。

2.2 分区入库

　　一般，我们在入库消息的时候，都有使用 Kafka 的 API，如下，我们使用生产 API ，按照上述的 Hash 取模规则，进行分区入库，代码如下所示：

package cn.hadoop.hdfs.kafka.partition;

import java.util.List;

import java.util.Properties;

import cn.hadoop.hdfs.kafka.partition.data.FileRead;

import kafka.javaapi.producer.Producer;

import kafka.producer.KeyedMessage;

import kafka.producer.ProducerConfig;

/**

 * @Date Nov 3, 2016

 *

 * @Author dengjie

 *

 * @Note 按照先 Hash 再取模的规则，进行分区入库

 */

public class PartitionerProducer {

    public static void main(String[] args) {

        producerData();

    }

    private static void producerData() {

        Properties props = new Properties();

        props.put("serializer.class", "kafka.serializer.StringEncoder");

        props.put("metadata.broker.list", "k1:9092,k2:9092,k3:9092");

        props.put("partitioner.class", "cn.hadoop.hdfs.kafka.partition.CustomerPartitioner");

        Producer<String, String> producer = new Producer<String, String>(new ProducerConfig(props));

        String topic = "ke_test";

        List<String> list = FileRead.readData();

        for (int i = 0; i < list.size(); i++) {

            String k = "key" + i;

            String v = new String(list.get(i));

            producer.send(new KeyedMessage<String, String>(topic, k, v));

            if (i == (list.size() - 1)) {

                return;

            }

        }

        producer.close();

    }

}

　　这里，我们分析发现，生产者在生产消息入库时，会按照 CustomerPartitioner 的规则，进行分区入库，在入库时，将 Key 先做 Hash，然后分区数取模（这里分区数是 6）.我们计算可以得到一下信息：

hashCode("key0") %  =

hashCode("key1") %  =

hashCode("key2") %  =

hashCode("key3") %  =

hashCode("key4") %  =

hashCode("key5") %  =

// ... 以此循环

　　按照该表述规则进行分区入库。

2.3 分区入库验证

　　接下里，我们通过 Kafka 的消费者 API 来验证，在消费时，消费 Topic 各分区的详情，代码如下所示：

package cn.hadoop.hdfs.kafka.partition;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Properties;

import kafka.consumer.Consumer;

import kafka.consumer.ConsumerConfig;

import kafka.consumer.ConsumerIterator;

import kafka.consumer.KafkaStream;

import kafka.javaapi.consumer.ConsumerConnector;

import kafka.message.MessageAndMetadata;

/**

 * @Date Nov 3, 2016

 *

 * @Author dengjie

 *

 * @Note 通过 Kafka 的消费者 API 验证分区入库的消息

 */

public class PartitionerConsumer {

    public static void main(String[] args) {

        String topic = "ke_test";

        ConsumerConnector consumer = Consumer.createJavaConsumerConnector(createConsumerConfig());

        Map<String, Integer> topicCountMap = new HashMap<String, Integer>();

        topicCountMap.put(topic, new Integer());

        Map<String, List<KafkaStream<byte[], byte[]>>> consumerMap = consumer.createMessageStreams(topicCountMap);

        KafkaStream<byte[], byte[]> stream = consumerMap.get(topic).get();

        ConsumerIterator<byte[], byte[]> it = stream.iterator();

        while (it.hasNext()) {

            MessageAndMetadata<byte[], byte[]> mam = it.next();

            System.out.println("consume: Partition [" + mam.partition() + "] Message: [" + new String(mam.message())

                    + "] ..");

        }

    }

    private static ConsumerConfig createConsumerConfig() {

        Properties props = new Properties();

        props.put("group.id", "group1");

        props.put("zookeeper.connect", "zk1:2181,zk2:2181,zk3:2181");

        props.put("zookeeper.session.timeout.ms", "");

        props.put("zookeeper.sync.time.ms", "");

        props.put("auto.commit.interval.ms", "");

        props.put("auto.offset.reset", "smallest");

        return new ConsumerConfig(props);

    }

}

　　这里笔者只是验证消费数据，若在实际生产线上，需将上述单线程消费改造成多线程消费，来提升处理消息的能力。

2.4 验证结果

　　这里，我们线运行生产者，让其生产消息，并分区入库；然后，在启动消费者，消费消息验证其结果，如下图所示：

3.总结

　　需要注意的是，分区数建议为 Brokers 的整数倍，让其达到均匀分布；备份数必须小于等于 Brokers。以及，多线程消费的控制，其线程数建议和分区数相等。

4.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Kafka 分区备份实战的更多相关文章

[转帖]Kafka 原理和实战
Kafka 原理和实战 https://segmentfault.com/a/1190000020120043 两个小时读完... 实在是看不完... 1.2k 次阅读 · 读完需要 101 分钟 ...
Zookeeper+Kafka完全分布式实战部署
Zookeeper+Kafka完全分布式实战部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 其实我之前部署过kafak和zookeeper的完全分布式,集群是可以正常使用没错, ...
图解 Kafka 水印备份机制
高可用是很多分布式系统中必备的特征之一,Kafka 日志的高可用是通过基于 leader-follower 的多副本同步实现的,每个分区下有多个副本,其中只有一个是 leader 副本,提供发送和消费 ...
详细解析kafka之kafka分区和副本
本篇主要介绍kafka的分区和副本,因为这两者是有些关联的,所以就放在一起来讲了,后面顺便会给出一些对应的配置以及具体的实现代码,以供参考~ 1.kafka分区机制分区机制是kafka实现高吞吐的秘 ...
Kafka之 API实战
Kafka之 API实战一.环境准备 1)启动zk和kafka集群,在kafka集群中打开一个消费者 [hadoop1 kafka]$ bin/kafka-console-consumer.sh \ ...
SQL Server 批量主分区备份（Multiple Jobs）
一.本文所涉及的内容(Contents) 本文所涉及的内容(Contents) 背景(Contexts) 案例分析(Case) 方案一(Solution One) 方案二(Solution Two) ...
SQL Server 批量主分区备份（One Job）
一.本文所涉及的内容(Contents) 本文所涉及的内容(Contents) 背景(Contexts) 案例分析(Case) 实现代码(SQL Codes) 主分区完整.差异还原(Primary B ...
kafka分区及副本在broker的分配
kafka分区及副本在broker的分配部分内容參考自:http://blog.csdn.net/lizhitao/article/details/41778193 以下以一个Kafka集群中4个B ...
kafka分区选主机制
Kafka Partition Leader选主机制 https://blog.csdn.net/qq_27384769/article/details/80115392 kafka leader选举 ...

随机推荐

Hibernate关联关系配置(一对多、一对一和多对多)
第一种关联关系:一对多(多对一) "一对多"是最普遍的映射关系,简单来讲就如消费者与订单的关系. 一对多:从消费者角的度来说一个消费者可以有多个订单,即为一对多. 多对一:从订单的 ...
单片机上的发光二极管(LED灯)
LED(light-emitting diode),即发光二极管,俗称 LED 小灯,它的种类很多,参数也不尽相同,我们板子上用的是普通的贴片发光二极管.这种二极管通常的正向导通电压是 1.8V到 2 ...
C++11 并发指南六( <atomic> 类型详解二 std::atomic )
C++11 并发指南六(atomic 类型详解一 atomic_flag 介绍) 一文介绍了 C++11 中最简单的原子类型 std::atomic_flag,但是 std::atomic_flag ...
Android相关sdk使用
SimpleDateFormat使用详解 Android_AlertDialog 两分钟彻底让你明白Android Activity生命周期(图文)! Android布局控件之LinearLayo ...
Objective-C与C style语言的简单类比
1. 关于Objc中函数调用类比 [_lblHelloWorld setHidden:![_lblHelloWorld isHidden]]; 类比为: _lblHelloWorld.setHidde ...
有助于提高你的 Web 开发技能的7个模式库
正如语言风格指南一样,模式库有两个主要用途.首先,是它们提供了一组编码或设计标准,Web 开发团队可以在整个网站中应用,有助于保持一致的编码实践和外观:其次,对于要学习网页设计最佳实践来说是宝贵的财富 ...
Atitit.识别损坏的图像
Atitit.识别损坏的图像判断jpg图像损坏原理.读取gray line perc ent Png图片送货原理,直接回报EOFException /atiplat_cms/src/com/atti ...
Leetcode 21 Merge Two Sorted Lists 链表
合并两个已排序的链表,考到烂得不能再烂的经典题,但是很多人写这段代码会有这样或那样的问题这里我给出了我的C++算法实现 /** * Definition for singly-linked list ...
python None与Null
一.Python对象要理解这个,首先要理解Python对象: python对象具有三个特性:身份.类型.值. 三特性在对象创建时被赋值.只有值可以改变,其他只读. 类型本身也是对象. 二.Null与 ...
几种网络加载的过渡（更新MaterialProgressBar）
自定义圆形ProgressBar 1.在drawable文件夹下新建:progressbar_circle_1.xml,如下: <?xml version="1.0" enc ...

Kafka 分区备份实战