• Consumer是非线程安全的
  • Kafka只保证消息不漏,即at lease once,而不保证消息不重。关键点:假如consumer挂了重启,那它将从committed offset位置(告诉server的消费的位置点)开始重新消费,而不是consume offset位置(真正的消费位置点)。这也就意味着有可能重复消费(自己消费到了某个位置,而后在告诉服务器这个位置时,发送失败)
  • kafka可以重置commit吗?给服务器指定任意值为最后消费位置,下次消费从这个指定的位置开始消费。可以,使用commit函数,下文有讲。但是需要注意:修改偏移量不会改变当前会话,在新连接里生效
  • subscribe表示订阅topic,从kafka记录的offset开始消费。assign表示从指定的offset开始消费。subscribe只指定topic和group,具体消费那个分区,由group coordinator决定,会受rebalance影响;assign必须指定要消费的分区信息,格式是TopicPartitions,不会受rebalance影响。 这两种方法只能使用一个。
  • kafka自动会从上次没有消费的地方开始消费
  • 使用kafak自带的脚本查看偏移量:./kafka-consumer-groups.sh --bootstrap-server localhost:9092 --describe --group test --offsets
  • 使用了subscribe,就不能使用assign
  • 提交:更新分区的当前位置称为提交,当前版本(0.10.1.1)用topic ___consumer_offsets 保存提交的偏移量

  • 偏移量:消费者在Kafka追踪到消息在分区里的位置
  • 消费者在崩溃或者有新的消费者加入群组,就会触发再均衡。这时需要读取最后一次偏移量,然后从偏移量指定的地方继续处理。提交的偏移量小于真实的偏移量,消息会被重复处理。大于真实的偏移量,消息会丢失。
from kafka.structs import TopicPartition,OffsetAndMetadata
configs = {
'bootstrap_servers': '10.57.19.60',
'enable_auto_commit': False,
'group_id': 'test',
'api_version': (, , ),
'ssl_check_hostname': False,
'consumer_timeout_ms': , # 若不指定 consumer_timeout_ms,默认一直循环等待接收,若指定,则超时返回,不再等待
# 'ssl_certfile': ssl_certfile,
# 'security_protocol': 'SSL',
# 'ssl_cafile': ssl_cafile
}
topics=('test', )
# 注意指定分区将会失去故障转移/负载均衡的支持,当然也没有了自动分配分区的功能(因为已经人为指定了嘛)
topic_partition = TopicPartition(topic='test',partition=)
#
consumer = KafkaConsumer(**configs)
# 参数必须是列表,表示订阅的topic/partition列表
consumer.assign([topic_partition])
# 获取分给当前用户的topic/partition信息
consumer.assignment()
# 提交偏移量:可以告知服务器当前偏移量,也可以设置偏移量
consumer.commit({TopicPartition(topic='test', partition=): OffsetAndMetadata(offset=, metadata='')})
# 异步提交
consumer.commit_async()
# 获取服务器的最后确认的偏移量,即最新数据开始读取的地方
consumer.committed(TopicPartition(topic='test', partition=))
# 获取服务器当前最新的偏移量,读到这个偏移量后,所有数据都读取完了
consumer.highwater(TopicPartition(topic='test', partition=))
# 获取消费的性能
consumer.metrics()
# 获取某个topic的partition信息
consumer.partitions_for_topic(topic)
# 获取下一条数据开始读取的偏移量,即从这个便宜量开始继续读取数据
consumer.position(TopicPartition(topic='test', partition=))
# 从指定偏移量位置开始读取数据
consumer.seek(TopicPartition(topic='test', partition=), )
# 从头开始读取数据
consumer.seek_to_beginning()
# 从最后开始读取数据
consumer.seek_to_end()
# 订阅topic,可以订阅多个,可以使用正则表达式匹配多个
consumer.subscribe()
# 获取订阅的信息,无法获取使用assign分配的topic/partition信息
consumer.subscription()
# 获取当前用户授权的topic信息
consumer.topics()
# 取消消息的订阅
consumer.unsubscribe()
# 一起消费多条消息,最多等待时间timeout_ms,最多消费max_records
consumer.poll(self, timeout_ms=0, max_records=None) # 获取指定分区第一个偏移量
consumer.beginning_offsets([topic_partition])
# 获取指定分区最后一个偏移量,最新的偏移量
consumer.end_offsets([topic_partition])
# 关闭连接
consumer.close()
#
#consumer.seek(topic_partition,)
for message in consumer:
print(message)

重复消费是如何产生的?

消费者设置为自动提交偏移量时,需要同时设置自动提交偏移量的时间间隔。如果消费完若干消息后,还没有到自动提交偏移量的时间时,应用挂了,则系统记录的偏移量还是之前的值,那么刚才消费的若干消息,会在应用重连之后重新消费

如何保证不会重复消费?

消费段记录下发送给服务器的偏移量,获取最新数据时再判断这个偏移量是否正确

生产的消息队列长度,会堆积吗?

消费的信息队列长度,会堆积吗?

生产者速度大于消费者速度怎么处理?

kafka 认证与授权机制

Kafka 目前支持SSL、SASL/Kerberos、SASL/PLAIN三种认证机制。目前支持以下安全措施:

  • clients 与 brokers 认证
  • brokers 与 zookeeper认证
  • 数据传输加密  between  brokers and clients, between brokers, or between brokers and tools using SSL
  • 授权clients read/write

kafka偏移量的相关配置

enable.auto.commit

true(默认):自动提交偏移量,可以通过配置 auto.commit.interval.ms属性来控制提交偏移量的频率。(基于时间间隔)

false:手动控制偏移量。可以在程序逻辑必要的时候提交偏移量,而不是基于时间隔。此时可以进行同步,异步,同步异步组合(参考相应api)。

auto.offset.reset

无法读取偏移量时候读取消息的设置

latest(默认):从最新记录读取数据。

earliest:从起始位置读取数据

参考:

1、https://zhuanlan.zhihu.com/p/33238750

2、https://help.aliyun.com/document_detail/68331.html

3、https://blog.csdn.net/xiaoguozi0218/article/details/80513849

4、https://zhuanlan.zhihu.com/p/38330574

5、https://blog.csdn.net/ZhongGuoZhiChuang/article/details/79550570

6、https://help.aliyun.com/document_detail/67233.html

kafak-python函数使用详解的更多相关文章

  1. Python函数参数详解

    Python函数参数详解 形参与实参 什么是形参 在定义函数阶段定义的参数称之为形式参数,简称形参,相当于变量名. 什么是实参 在调用函数阶段传入的值称为实际参数,简称实参.相当于"变量值& ...

  2. Python学习教程(learning Python)--2.3.2 Python函数实参详解

    本节主要讨论函数调用时参数的实参问题. 1. 实参赋值顺序和型参定义顺序一一对应 Python在调用哪个子函数时,如果型参为多个,一般实参的排布顺序和型参顺序保持一致,即一一对应.我们以下面的代码为例 ...

  3. Python学习入门教程,字符串函数扩充详解

    因有用户反映,在基础文章对字符串函数的讲解太过少,故写一篇文章详细讲解一下常用字符串函数.本文章是对:程序员带你十天快速入门Python,玩转电脑软件开发(三)中字符串函数的详解与扩充. 如果您想学习 ...

  4. 【Python】Python内置函数dir详解

    1.命令介绍 最近学习并使用了一个python的内置函数dir,首先help一下: 复制代码代码如下: >>> help(dir)Help on built-in function ...

  5. 关于Python正则表达式findall函数问题详解

    关于Python正则表达式 findall函数问题详解 在写正则表达式的时候总会遇到不少的问题, 特别是在表达式有多个元组的时候.下面看下re模块下的findall()函数和多个表达式元组相遇的时候会 ...

  6. Python 字符串方法详解

    Python 字符串方法详解 本文最初发表于赖勇浩(恋花蝶)的博客(http://blog.csdn.net/lanphaday),如蒙转载,敬请保留全文完整,切勿去除本声明和作者信息.        ...

  7. python time模块详解

    python time模块详解 转自:http://blog.csdn.net/kiki113/article/details/4033017 python 的内嵌time模板翻译及说明  一.简介 ...

  8. Python中dict详解

    from:http://www.cnblogs.com/yangyongzhi/archive/2012/09/17/2688326.html Python中dict详解 python3.0以上,pr ...

  9. 【python进阶】详解元类及其应用2

    前言 在上一篇文章[python进阶]详解元类及其应用1中,我们提到了关于元类的一些前置知识,介绍了类对象,动态创建类,使用type创建类,这一节我们将继续接着上文来讲~~~ 5.使⽤type创建带有 ...

  10. Python开发技术详解PDF

    Python开发技术详解(高清版)PDF 百度网盘 链接:https://pan.baidu.com/s/1F5J9mFfHKgwhkC5KuPd0Pw 提取码:xxy3 复制这段内容后打开百度网盘手 ...

随机推荐

  1. LoadRuner常见错误

    LoadRuner常见错误 一.Step download timeout (120 seconds) 这是一个经常会遇到的问题,解决得办法走以下步骤: 1. 修改run time setting中的 ...

  2. MemSQL Start[c]UP 2.0 - Round 1 F - Permutation 思维+线段树维护hash值

    F - Permutation 思路:对于当前的值x, 只需要知道x + k, x - k这两个值是否出现在其左右两侧,又因为每个值只有一个, 所以可以转换成,x+k, x-k在到x所在位置的时候是否 ...

  3. 002 Jupyter-NoteBook工具介绍(网页版编辑器)

    1.Jupyter-NoteBook位置 在安装完anaconda后,这个工具已经被安装完成. 2.打开 3.功能讲解 目录:C:\Users\dell,这个可以看上面控制台上的信息. 4.其余的功能 ...

  4. ionic启动App时不使用淡入淡出效果

    找到我们项目下面 res下面的config.xml,然后加入下面两句就可以解决. <preference name="FadeSplashScreen" value=&quo ...

  5. CPU线程 和 Java线程

    一 cpu个数.核数.线程数的关系 cpu个数:是指物理上,也及硬件上的核心数: 核数:是逻辑上的,简单理解为逻辑上模拟出的核心数:一个CPU核心数模拟出2线程的CPU 线程数:是同一时刻设备能并行执 ...

  6. c#程序员机试题

    一.题目: 有一数组: int[] arr = new int[] { 48,1,3,55,15,29,12,33,26,41,56,32}; 1.求出最大值 2.按每个数字的10位数分组(说明:0~ ...

  7. scrapy爬虫,爬取图片

    一.scrapy的安装: 本文基于Anacoda3, Anacoda2和3如何同时安装? 将Anacoda3安装在C:\ProgramData\Anaconda2\envs文件夹中即可. 如何用con ...

  8. wpf企业应用之带选项框的TreeView

    wpf里面实现层次绑定主要使用HierarchicalDataTemplate,这里主要谈一谈带checkbox的treeview,具体效果见 wpf企业级开发中的几种常见业务场景. 先来看一下我的控 ...

  9. BZOJ 3572: [Hnoi2014]世界树 虚树 树形dp

    https://www.lydsy.com/JudgeOnline/problem.php?id=3572 http://hzwer.com/6804.html 写的时候参考了hzwer的代码,不会写 ...

  10. [POI2015]Trzy wieże

    [POI2015]Trzy wieże 题目大意: 给定一个长度为\(n(n\le10^6)\)的仅包含'B'.'C'.'S'三种字符的字符串,请找到最长的一段连续子串,使得在这一段内出现过的所有字符 ...