单线程消费

以之前生产者中的代码为例，事先准备好了一个 Topic:data-push，3个分区。

先往里边发送 100 条消息，没有自定义路由策略，所以消息会均匀的发往三个分区。

先来谈谈最简单的单线程消费，如下图所示：

由于数据散列在三个不同分区，所以单个线程需要遍历三个分区将数据拉取下来。

单线程消费的示例代码：

这段代码大家在官网也可以找到：将数据取出放到一个内存缓冲中最后写入数据库的过程。

先不讨论其中的 offset 的提交方式。

通过消费日志可以看出：

取出的 100 条数据确实是分别遍历了三个分区。

单线程消费虽然简单，但存在以下几个问题：

效率低下。如果分区数几十上百个，单线程无法高效的取出数据。
可用性很低。一旦消费线程阻塞，甚至是进程挂掉，那么整个消费程序都将出现问题。

多线程消费

既然单线程有诸多问题，那是否可以用多线程来提高效率呢？

在多线程之前不得不将消费模式分为两种进行探讨：消费组、独立消费者。

这两种消费模式对应的处理方式有着很大的不同，所以很有必要单独来讲。

独立消费者模式

先从独立消费者模式谈起，这种模式相对于消费组来说用的相对小众一些。

看一个简单示例即可知道它的用法：

值得注意的是：独立消费者可以不设置 group.id 属性。

也是发送100条消息，消费结果如下：

通过 API 可以看出：我们可以手动指定需要消费哪些分区。

比如 data-push Topic 有三个分区，我可以手动只消费其中的 1 2 分区，第三个可以视情况来消费。

同时它也支持多线程的方式，每个线程消费指定分区进行消费。

为了直观，只发送了 10 条数据。

根据消费结果可以看出：

c1 线程只取 0 分区；c2 只取 1 分区；c3 只取 2 分区的数据。

甚至我们可以将消费者多进程部署，这样的消费方式如下：

假设 Topic:data-push 的分区数为 4 个，那我们就可以按照图中的方式创建两个进程。

每个进程内有两个线程，每个线程再去消费对应的分区。

这样当我们性能不够新增 Topic 的分区数时，消费者这边只需要这样水平扩展即可，非常的灵活。

这种自定义分区消费的方式在某些场景下还是适用的，比如生产者每次都将某一类的数据只发往一个分区。这样我们就可以只针对这一个分区消费。

但这种方式有一个问题：可用性不高，当其中一个进程挂掉之后；该进程负责的分区数据没法转移给其他进程处理。

消费组模式

消费组模式应当是使用最多的一种消费方式。

我们可以创建 N 个消费者实例（new KafkaConsumer()）,当这些实例都用同一个 group.id 来创建时，他们就属于同一个消费组。

在同一个消费组中的消费实例可以收到消息，但一个分区的消息只会发往一个消费实例。

还是借助官方的示例图来更好的理解它。

某个 Topic 有四个分区 p0 p1 p2 p3，同时创建了两个消费组 groupA，groupB。

A 消费组中有两个消费实例 C1、C2。
B 消费组中有四个消费实例 C3、C4、C5、C6。

这样消息是如何划分到每个消费实例的呢？

通过图中可以得知：

A 组中的 C1 消费了 P0 和 P3 分区；C2 消费 P1、P2 分区。
B 组有四个实例，所以每个实例消费一个分区；也就是消费实例和分区是一一对应的。

需要注意的是：

这里的消费实例简单的可以理解为 new KafkaConsumer，它和进程没有关系。

比如说某个 Topic 有三个分区，但是我启动了两个进程来消费它。

其中每个进程有两个消费实例，那其实就相当于有四个实例了。

这时可能就会问 4 个实例怎么消费 3 个分区呢？

消费组自平衡

这个 Kafka 已经帮我做好了，它会来做消费组里的 Rebalance。

比如上面的情况，3 个分区却有 4 个消费实例；最终肯定只有三个实例能取到消息。但至于是哪三个呢，这点 Kakfa 会自动帮我们分配好。

看个例子，还在之前的 data-push 这个 Topic，其中有三个分区。

当其中一个进程（其中有三个线程，每个线程对应一个消费实例）时，消费结果如下：

里边的 20 条数据都被这个进程的三个实例消费掉。

这时我新启动了一个进程，程序和上面那个一模一样；这样就相当于有两个进程，同时就是 6 个实例。

我再发送 10 条消息会发现：

进程1 只取到了分区 1 里的两条数据（之前是所有数据都是进程1里的线程获取的）。

同时进程2则消费了剩下的 8 条消息，分别是分区 0、2 的数据（总的还是只有三个实例取到了数据，只是分别在不同的进程里）。

当我关掉进程2，再发送10条数据时会发现所有数据又被进程1里的三个线程消费了。

通过这些测试相信大家已经可以看到消费组的优势了。

我们可以在一个消费组中创建多个消费实例来达到高可用、高容错的特性，不会出现单线程以及独立消费者挂掉之后数据不能消费的情况。同时基于多线程的方式也极大的提高了消费效率。

而当新增消费实例或者是消费实例挂掉时 Kakfa 会为我们重新分配消费实例与分区的关系就被称为消费组 Rebalance。

发生这个的前提条件一般有以下几个：

消费组中新增消费实例。
消费组中消费实例 down 掉。
订阅的 Topic 分区数发生变化。
如果是正则订阅 Topic 时，匹配的 Topic 数发生变化也会导致 Rebalance。

所以推荐使用这样的方式消费数据，同时扩展性也非常好。当性能不足新增分区时只需要启动新的消费实例加入到消费组中即可。

kafka消费数据策略的更多相关文章

分享一些 Kafka 消费数据的小经验
前言之前写过一篇<从源码分析如何优雅的使用 Kafka 生产者> ,有生产者自然也就有消费者. 建议对 Kakfa 还比较陌生的朋友可以先看看. 就我的使用经验来说,大部分情况都是处于数 ...
Kafka消费时报错：Producer connection to xxx:9092 unsuccessful
使用kafka消费数据时报Producer错误,具体错误如下: kafka.producer.SyncProducer:103 Producer connection to xxx:9092 unsu ...
Flume简介与使用（三）——Kafka Sink消费数据之Kafka安装
前面已经介绍了如何利用Thrift Source生产数据,今天介绍如何用Kafka Sink消费数据. 其实之前已经在Flume配置文件里设置了用Kafka Sink消费数据 agent1.sinks ...
关于kafka重新消费数据问题
我们在使用consumer消费数据时,有些情况下我们需要对已经消费过的数据进行重新消费,这里介绍kafka中两种重新消费数据的方法. 1. 修改offset 我们在使用consumer消费的时候,每个 ...
kafka丢失和重复消费数据
Kafka作为当下流行的高并发消息中间件,大量用于数据采集,实时处理等场景,我们在享受他的高并发,高可靠时,还是不得不面对可能存在的问题,最常见的就是丢包,重发问题. 1.丢包问题:消息推送服务,每天 ...
python+kafka，从指定位置消费数据
# @staticmethoddef get_kafka_reviews(self): # print type(self.bootstrap_servers) consumer = kafka.Ka ...
kafka无法消费数据
遇到一个问题,使用Python kafka客户端和kafka命令行都无法消费数据,但是在kafka命令行后面添加--partition 0后就可以消费数据. bin/kafka-console-con ...
kafka查看消费数据
一.如何查看在老版本中,使用kafka-run-class.sh 脚本进行查看.但是对于最新版本,kafka-run-class.sh 已经不能使用,必须使用另外一个脚本才行,它就是kafka-co ...
Kafka消费不到数据的特殊情况
我大约是把kafka消费不到数据的特殊情况都经历了一遍了吧= =. kafka消费不到数据的原因,首先检查配置之类的,如是否设置了group.id,对应的topic是否正确等等,这些不多说. 下面是我 ...

随机推荐

wamp memcache 的安装与扩展（Windows 64）
一.windows操作系统下的memcache安装 1.此处提供32位的安装包链接,如果需要64位的应该可惜查得到.将下载的压缩包解压到自己确定的安装目录,我的参考如下: 2.为了安装顺利,所以需要以 ...
关于C#报空Object is null 错误的看法
昨天项目的一个问题 :在切换场景页面的时候,报空指针的错,总显示没有找到对象.由于代码是之前就早写好的了,只是根据最上层领导的意见修改下个别显示UI,所以也就一定是后来的那些代码问题.果不其然,加的新 ...
react-native学习资源
转载链接: http://www.ncloud.hk/%E6%8A%80%E6%9C%AF%E5%88%86%E4%BA%AB/react-native-learning-resources/ 这是 ...
IBM Thread and Monitor Dump Analyzer for Java解决生产环境中的性能问题
这个工具的使用和 HeapAnalyzer 一样,非常容易,同样提供了详细的 readme 文档,这里也简单举例如下: #/usr/java50/bin/java -Xmx1000m -jar jca ...
Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko
Trident (又称为MSHTML),是微软的窗口操作系统(Windows)搭载的网页浏览器—Internet Explorer的排版引擎的名称. 它的第一个版本随着1997年10月Internet ...
ASP.NET Web API中通过URI显示实体中的部分字段
有时候我们可能不想显示某个实体中的所有字段.比如客户端发出如下请求: locaohost:43321/api/groups/1/items?fields=idlocaohost:43321/api/g ...
Knockout.Js官网学习（selectedOptions绑定、uniqueName 绑定）
selectedOptions绑定 selectedOptions绑定用于控制multi-select列表已经被选择的元素,用在使用options绑定的<select>元素上. 当用户在m ...
ThinkPhp 更改 BIT 类型的问题
在使用ThinkPhp更改字段为BIT 类型的注意了,您将会遇到以下错误信息: 这是因为ThinkPhp在使用setField或Save方法时,将你的值更改成了字符串类型而TINYINT 类型是不 ...
Nginx软件优化
1.1 Nginx优化分类安全优化(提升网站安全性配置) 性能优化(提升用户访问网站效率) 1.2 Nginx安全优化 1.2.1 隐藏nginx版本信息优化官方配置参数说明:http://ngi ...
toml
其目标是成为一个小规模的易于使用的语义化配置文件格式.TOML被设计为可以无二义性的转换为一个哈希表(Hash table). # 这是一个TOML文件 title = "TOML Exam ...

kafka消费数据策略