Python 使用python-kafka类库开发kafka生产者&消费者&客户端
使用python-kafka类库开发kafka生产者&消费者&客户端
By: 授客 QQ:1033553122
1.测试环境
python 3.4
zookeeper-3.4.13.tar.gz
下载地址1:
http://zookeeper.apache.org/releases.html#download
https://www.apache.org/dyn/closer.cgi/zookeeper/
https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/
下载地址2:
https://pan.baidu.com/s/1dnBgHvySE9pVRZXJVmezyQ
kafka_2.12-2.1.0.tgz
下载地址1:
http://kafka.apache.org/downloads.html
下载地址2:
https://pan.baidu.com/s/1VnHkJgy4iQ73j5rLbEL0jw
pip-18.1.tar.gz
下载地址:https://pan.baidu.com/s/1VpYk8JvMuztzbvEF8mQoRw
说明:实践中发现,pip版本比较旧的话,没法安装whl文件
kafka_python-1.4.4-py2.py3-none-any.whl
下载地址1:
https://pypi.org/project/kafka-python/#files
下载地址2:
https://pan.baidu.com/s/10XtLXESp64NtwA73RbryVg
python_snappy-0.5.3-cp34-cp34m-win_amd64.whl
下载地址1:
https://www.lfd.uci.edu/~gohlke/pythonlibs/
下载地址2:
https://pan.baidu.com/s/10XtLXESp64NtwA73RbryVg
说明:
kafka-python支持gzip压缩/解压缩。如果要消费lz4方式压缩的消息,则需要安装python-lz4,如果要支持snappy方式压缩/解压缩则需要安装,否则可能会报错:kafka.errors.UnsupportedCodecError: UnsupportedCodecError: Libraries for snappy compression codec not found.
构建生产者对象时,可通过compression_type 参数指定由对应生产者生产的消息数据的压缩方式,或者在producer.properties配置中配置compression.type参数。
参考链接:
https://pypi.org/project/kafka-python/#description
https://kafka-python.readthedocs.io/en/master/install.html#optional-snappy-install
2.代码实践
生产者
#-*- encoding:utf-8 -*-
__author__ = 'shouke'
from kafka import KafkaProducer
import json
producer = KafkaProducer(bootstrap_servers=['127.0.0.1:9092'])
for i in range(0, 100):
producer.send('MY_TOPIC1', value=b'lai zi shouke de msg', key=None, headers=None, partition=None, timestamp_ms=None)
# Block直到单条消息发送完或者超时
future = producer.send('MY_TOPIC1', value=b'another msg',key=b'othermsg')
result = future.get(timeout=60)
print(result)
# Block直到所有阻塞的消息发送到网络
# 注意: 该操作不保证传输或者消息发送成功,仅在配置了linger_ms的情况下有用。(It is really only useful if you configure internal batching using linger_ms
# 序列化json数据
producer = KafkaProducer(bootstrap_servers='127.0.0.1:9092', value_serializer=lambda v: json.dumps(v).encode('utf-8'))
producer.send('MY_TOPIC1', {'shouke':'kafka'})
# 序列化字符串key
producer = KafkaProducer(bootstrap_servers='127.0.0.1:9092', key_serializer=str.encode)
producer.send('MY_TOPIC1', b'shouke', key='strKey')
producer = KafkaProducer(bootstrap_servers='127.0.0.1:9092',compression_type='gzip')
for i in range(2):
producer.send('MY_TOPIC1', ('msg %d' % i).encode('utf-8'))
# 消息记录携带header
producer.send('MY_TOPIC1', value=b'c29tZSB2YWx1ZQ==', headers=[('content-encoding', b'base64'),])
# 获取性能数据(注意,实践发现分区较多的情况下,该操作比较耗时
metrics = producer.metrics()
print(metrics)
producer.flush()
实践中遇到错误: kafka.errors.NoBrokersAvailable: NoBrokersAvailable,解决方案如下:
进入到配置目录(config),编辑server.properties文件,
查找并设置listener,配置监听端口,格式:listeners = listener_name://host_name:port,供kafka客户端连接用的ip和端口,例中配置如下:
listeners=PLAINTEXT://127.0.0.1:9092
API及常用参数说明:
class kafka.KafkaProducer(**configs)
bootstrap_servers –'host[:port]'字符串,或者由'host[:port]'组成的字符串,形如['10.202.24.5:9096', '10.202.24.6:9096', '10.202.24.7:9096']),其中,host为broker(Broker:缓存代理,Kafka集群中的单台服务器)地址,默认值为 localhost, port默认值为9092,这里可以不用填写所有broker的host和port,但必须保证至少有一个broker)
key_serializer (可调用对象) –用于转换用户提供的key值为字节,必须返回字节数据。 如果为None,则等同调用f(key)。 默认值: None.
value_serializer(可调用对象) – 用于转换用户提供的value消息值为字节,必须返回字节数据。 如果为None,则等同调用f(value)。 默认值: None.
send(topic, value=None, key=None, headers=None, partition=None, timestamp_ms=None)
topic(str) – 设置消息将要发布到的主题,即消息所属主题
value(可选) – 消息内容,必须为字节数据,或者通过value_serializer序列化后的字节数据。如果为None,则key必填,消息等同于“删除”。( If value is None, key is required and message acts as a ‘delete’)
partition (int, 可选) – 指定分区。如果未设置,则使用配置的partitioner
key (可选) – 和消息对应的key,可用于决定消息发送到哪个分区。如果平partition为None,则相同key的消息会被发布到相同分区(但是如果key为None,则随机选取分区)(If partition is None (and producer’s partitioner config is left as default), then messages with the same key will be delivered to the same partition (but if key is None, partition is chosen randomly)). 必须为字节数据或者通过配置的key_serializer序列化后的字节数据.
headers (可选) – 设置消息header,header-value键值对表示的list。list项为元组:格式 (str_header,bytes_value)
timestamp_ms (int, 可选) –毫秒数 (从1970 1月1日 UTC算起) ,作为消息时间戳。默认为当前时间
函数返回FutureRecordMetadata类型的RecordMetadata数据
flush(timeout=None)
发送所有可以立即获取的缓冲消息(即时linger_ms大于0),线程block直到这些记录发送完成。当一个线程等待flush调用完成而block时,其它线程可以继续发送消息。
注意:flush调用不保证记录发送成功
metrics(raw=False)
获取生产者性能指标。
参考API:https://kafka-python.readthedocs.io/en/master/apidoc/KafkaProducer.html
注:生产者代码是线程安全的,支持多线程,而消费者则不然
消费者
#-*- encoding:utf-8 -*-
__author__ = 'shouke'
from kafka import KafkaConsumer
from kafka import TopicPartition
import json
consumer = KafkaConsumer('MY_TOPIC1',
bootstrap_servers=['127.0.0.1:9092'],
#auto_offset_reset='',
auto_offset_reset='latest',# 消费kafka中最近的数据,如果设置为earliest则消费最早的数据,不管这些数据是否消费
enable_auto_commit=True, # 自动提交消费者的offset
auto_commit_interval_ms=3000, ## 自动提交消费者offset的时间间隔
group_id='MY_GROUP1',
consumer_timeout_ms= 10000, # 如果10秒内kafka中没有可供消费的数据,自动退出
client_id='consumer-python3'
)
for msg in consumer:
print (msg)
print('topic: ', msg.topic)
print('partition: ', msg.partition)
print('key: ', msg.key, 'value: ', msg.value)
print('offset:', msg.offset)
print('headers:', msg.headers)
# Get consumer metrics
metrics = consumer.metrics()
print(metrics)
运行效果
通过assign、subscribe两者之一为消费者设置消费的主题
consumer = KafkaConsumer(bootstrap_servers=['127.0.0.1:9092'],
auto_offset_reset='latest',
enable_auto_commit=True, # 自动提交消费数据的offset
consumer_timeout_ms= 10000, # 如果1秒内kafka中没有可供消费的数据,自动退出
value_deserializer=lambda m: json.loads(m.decode('ascii')), #消费json 格式的消息
client_id='consumer-python3'
)
# consumer.assign([TopicPartition('MY_TOPIC1', 0)])
# msg = next(consumer)
# print(msg)
consumer.subscribe('MY_TOPIC1')
for msg in consumer:
print (msg)
API及常用参数说明:
class kafka.KafkaConsumer(*topics, **configs)
*topics (str) – 可选,设置需要订阅的topic,如果未设置,需要在消费记录前调用subscribe或者assign。
client_id (str) – 客户端名称,默认值: ‘kafka-python-{version}’
group_id (str or None) – 消费组名称。如果为None,则通过group coordinator auto-partition分区分配,offset提交被禁用。默认为None
auto_offset_reset (str) – 重置offset策略: 'earliest'将移动到最老的可用消息, 'latest'将移动到最近消息。 设置为其它任何值将抛出异常。默认值:'latest'。
enable_auto_commit (bool) – 如果为True,将自动定时提交消费者offset。默认为True。
auto_commit_interval_ms (int) – 自动提交offset之间的间隔毫秒数。如果enable_auto_commit 为true,默认值为: 5000。
value_deserializer(可调用对象) - 携带原始消息value并返回反序列化后的value
subscribe(topics=(), pattern=None, listener=None)
订阅需要的主题
topics (list) – 需要订阅的主题列表
pattern (str) – 用于匹配可用主题的模式,即正则表达式。注意:必须提供topics、pattern两者参数之一,但不能同时提供两者。
metrics(raw=False)
获取消费者性能指标。
参考API:https://kafka-python.readthedocs.io/en/master/apidoc/KafkaConsumer.html
客户端
#-*- encoding:utf-8 -*-
__author__ = 'shouke'
from kafka.client import KafkaClient
client = KafkaClient(bootstrap_servers=['127.0.0.1:9092'], request_timeout_ms=3000)
# 获取所有broker
brokers = client.cluster.brokers()
for broker in brokers:
print('broker: ', broker)
print('broker nodeId: ', broker.nodeId)
# 获取主题的所有分区
topic = 'MY_TOPIC1'
partitions = client.cluster.available_partitions_for_topic(topic)
print(partitions)
partition_dict = {}
partition_dict[topic] = [partition for partition in partitions]
print(partition_dict)
运行结果:
broker: BrokerMetadata(nodeId=0, host='127.0.0.1', port=9092, rack=None)
broker nodeId: 0
{0}
{'MY_TOPIC1': [0]}
API及常用参数说明:
class kafka.client.KafkaClient(**configs)
bootstrap_servers –'host[:port]'字符串,或者由'host[:port]'组成的字符串,形如['10.202.24.5:9096', '10.202.24.6:9096', '10.202.24.7:9096']),其中,host为broker(Broker:缓存代理,Kafka集群中的单台服务器)地址,默认值为 localhost, port默认值为9092,这里可以不用填写所有broker的host和port,但必须保证至少有一个broker)
client_id (str) – 客户端名称,默认值: ‘kafka-python-{version}’
request_timeout_ms (int) – 客户端请求超时时间,单位毫秒。默认值: 30000.
参考API: https://kafka-python.readthedocs.io/en/master/apidoc/KafkaClient.html
brokers()
获取所有broker元数据
available_partitions_for_topic(topic)
返回主题的所有分区
参考API: https://kafka-python.readthedocs.io/en/master/apidoc/ClusterMetadata.html
Python 使用python-kafka类库开发kafka生产者&消费者&客户端的更多相关文章
- 【python】-- 队列(Queue)、生产者消费者模型
队列(Queue) 在多个线程之间安全的交换数据信息,队列在多线程编程中特别有用 队列的好处: 提高双方的效率,你只需要把数据放到队列中,中间去干别的事情. 完成了程序的解耦性,两者关系依赖性没有不大 ...
- python进阶:Python进程、线程、队列、生产者/消费者模式、协程
一.进程和线程的基本理解 1.进程 程序是由指令和数据组成的,编译为二进制格式后在硬盘存储,程序启动的过程是将二进制数据加载进内存,这个启动了的程序就称作进程(可简单理解为进行中的程序).例如打开一个 ...
- python并发编程-进程间通信-Queue队列使用-生产者消费者模型-线程理论-创建及对象属性方法-线程互斥锁-守护线程-02
目录 进程补充 进程通信前言 Queue队列的基本使用 通过Queue队列实现进程间通信(IPC机制) 生产者消费者模型 以做包子买包子为例实现当包子卖完了停止消费行为 线程 什么是线程 为什么要有线 ...
- python多进程之IPC机制以及生产者消费者模型
1.进程间通信(IPC机制) 第一种:管道 import subprocessres=subprocess.Popen('dir',shell=True, stdout=subprocess.PIPE ...
- Python 第九篇:队列Queue、生产者消费者模型、(IO/异步IP/Select/Poll/Epool)、Mysql操作
Mysql操作: grant select,insert,update,delete on *.* to root@"%" Identified by "123456&q ...
- Python 再次改进版通过队列实现一个生产者消费者模型
import time from multiprocessing import Process,Queue #生产者 def producer(q): for i in range(10): time ...
- FusionInsight大数据开发---Kafka应用开发
Kafka应用开发 了解Kafka应用开发适用场景 熟悉Kafka应用开发流程 熟悉并使用Kafka常用API 进行Kafka应用开发 Kafka的定义Kafka是一个高吞吐.分布式.基于发布订阅的消 ...
- python多线程编程-queue模块和生产者-消费者问题
摘录python核心编程 本例中演示生产者-消费者模型:商品或服务的生产者生产商品,然后将其放到类似队列的数据结构中.生产商品中的时间是不确定的,同样消费者消费商品的时间也是不确定的. 使用queue ...
- kafka-python开发kafka生产者和消费者
1.安装kafka-python 执行命令 pip install kafka-python kafka-python 1.4.6 2.编写python kafka 生产者消费者代码 # ...
随机推荐
- Winform/WPF中内嵌BeetleX的HTTP服务
在新版本的BeetleX.FastHttpApi加入了对netstandard2.0支持,如果程序基于.NetFramework4.6.1来构建WinForm或WPF桌面程序的情况下可以直接把Beet ...
- FreeSql 与 SqlSugar 性能测试(增EFCore测试结果)
这篇文章受大家邀请,与 SqlSugar 做一次简单的性能测试对比.主要针对插入.批量插入.批量更新.读取性能的测试: 测试环境 .net core 2.2 FreeSql 0.3.17 sqlSug ...
- 从0开始构建你的api网关--Spring Cloud Gateway网关实战及原理解析
API 网关 API 网关出现的原因是微服务架构的出现,不同的微服务一般会有不同的网络地址,而外部客户端可能需要调用多个服务的接口才能完成一个业务需求,如果让客户端直接与各个微服务通信,会有以下的问题 ...
- C# 填充Excel图表、图例背景色
填充背景色,一般可以选择多种不同样式来填充背景,包括填充为纯色背景.渐变背景.图片背景或者纹理背景等.下面的内容将分别介绍通过C#来设置Excel中图表背景色.以及图表中的图例背景色的方法. 使用工具 ...
- vue 中使用sass实现主体换肤
有如下代码要实现换肤功能 <template> <div class="app-root" :class="themeClass"> & ...
- Dynamics 365 CE命令栏按钮点击后刷新表单页面方法
微软动态CRM专家罗勇 ,回复326或者20190428可方便获取本文,同时可以在第一间得到我发布的最新博文信息,follow me! Dynamics 365 Customer Engagement ...
- WeihanLi.Redis自定义序列化及压缩方式
WeihanLi.Redis自定义序列化及压缩方式 Intro WeihanLi.Redis 是基于 StackExchange.Redis 的扩展,提供了一些常用的业务组件和对泛型的更好支持,默认使 ...
- psql 关于主键自增的问题
在psql中往往我们需要设置一个自增的主键id字段,psql中不像SQL Server那样点选 打钩傻瓜式就能设置好的,是需要创建序列的:CREATE SEQUENCE,关键字SEQUENCE. 我们 ...
- 理解Device Tree Usage
英语原文地址: htttp://devicetree.org/Device_Tree_Usage 本文介绍如何为新的机器或板卡编写设备树(Device Tree), 它旨在概要性的介绍设备树概念,以及 ...
- 数据库 【redis】 命令大全
以下纯属搬砖,我用Python抓取的redis命令列表页内容 如果想看命令的具体使用可查去官网查看,以下整理为个人查找方便而已 地理位置GEOADD 将指定的地理空间位置(纬度.经度.名称)添加到指定 ...