python操作kafka

一、什么是kafka

kafka特性：

(1) 通过磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能.

(2) 高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息.

(3) 支持通过Kafka服务器和消费机集群来分区消息.

(4) 支持Hadoop并行数据加载.

术语：

Broker: Kafka集群包含一个或多个服务器，这种服务器被称为broker

Topic: 每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处）

Partition: Partition是物理上的概念，每个Topic包含一个或多个Partition.

Producer: 负责发布消息到Kafka broker

Consumer: 消息消费者，向Kafka broker读取消息的客户端。

Consumer Group: 每个Consumer属于一个特定的Consumer Group（可为每个Consumer指定group name，若不指定group name则属于默认的group）

二、安装

在pypi.python.org有很多关于操作kafka的组件，我们选择weight最高的kafka 1.3.5

有internet网的情况下执行如下命令安装:

pip install kafka

easy_install kafka

三、按照官网的样例，先跑一个应用

1、生产者:

from kafka import KafkaProducer

producer = KafkaProducer(bootstrap_servers=['xxx.xx.xx.xxx:9092']) #此处ip可以是多个['0.0.0.1:9092','0.0.0.2:9092','0.0.0.3:9092' ]

for i in range(3):

    msg = "msg%d" % i

    producer.send('test', msg)

    producer.close()

2、消费者(简单demo):

from kafka import KafkaConsumer

consumer = KafkaConsumer('test',

bootstrap_servers=['xxx.xx.xx.xx:9092'])

for message in consumer:

    print ("%s:%d:%d: key=%s value=%s" % (message.topic, message.partition,

    message.offset, message.key,

    message.value))

启动后生产者、消费者可以正常消费。

3、消费者(消费群组)

from kafka import KafkaConsumer

consumer = KafkaConsumer('test',

group_id='my-group',

bootstrap_servers=['xxx.xx.xx.xx:9092'])

for message in consumer:

    print ("%s:%d:%d: key=%s value=%s" % (message.topic, message.partition,

    message.offset, message.key,

    message.value))

启动多个消费者，只有其中可以可以消费到，满足要求，消费组可以横向扩展提高处理能力

4、消费者(读取目前最早可读的消息)

from kafka import KafkaConsumer

consumer = KafkaConsumer('test',

auto_offset_reset='earliest',

bootstrap_servers=['xxx.xx.xx.xxx:9092'])

for message in consumer:

    print ("%s:%d:%d: key=%s value=%s" % (message.topic, message.partition,

    message.offset, message.key,

    message.value))

auto_offset_reset:重置偏移量，earliest移到最早的可用消息，latest最新的消息，默认为latest

源码定义:{'smallest': 'earliest', 'largest': 'latest'}

5、消费者(手动设置偏移量)

from kafka import KafkaConsumer

from kafka.structs import TopicPartition

consumer = KafkaConsumer('test',

bootstrap_servers=['xxx.xx.xx.xxx:9092'])

print consumer.partitions_for_topic("test") #获取test主题的分区信息

print consumer.topics() #获取主题列表

print consumer.subscription() #获取当前消费者订阅的主题

print consumer.assignment() #获取当前消费者topic、分区信息

print consumer.beginning_offsets(consumer.assignment()) #获取当前消费者可消费的偏移量

consumer.seek(TopicPartition(topic=u'test', partition=0), 5) #重置偏移量，从第5个偏移量消费

for message in consumer:

    print ("%s:%d:%d: key=%s value=%s" % (message.topic, message.partition,

    message.offset, message.key,

    message.value))

6、消费者(订阅多个主题)

from kafka import KafkaConsumer

from kafka.structs import TopicPartition

consumer = KafkaConsumer(bootstrap_servers=['xxx.xx.xx.xxx:9092'])

consumer.subscribe(topics=('test','test0')) #订阅要消费的主题

print consumer.topics()

print consumer.position(TopicPartition(topic=u'test', partition=0)) #获取当前主题的最新偏移量

for message in consumer:

    print ("%s:%d:%d: key=%s value=%s" % (message.topic, message.partition,

    message.offset, message.key,

    message.value))

7、消费者(手动拉取消息)

from kafka import KafkaConsumer

import time

consumer = KafkaConsumer(bootstrap_servers=['xxx.xx.xx.xxx:9092'])

consumer.subscribe(topics=('test','test0'))

while True:

    msg = consumer.poll(timeout_ms=5) #从kafka获取消息

    print msg

    time.sleep(1)

8、消费者(消息挂起与恢复)

from kafka import KafkaConsumer

from kafka.structs import TopicPartition

import time

consumer = KafkaConsumer(bootstrap_servers=['xxx.xx.xx.xxx:9092'])

consumer.subscribe(topics=('test'))

consumer.topics()

consumer.pause(TopicPartition(topic=u'test', partition=0))

num = 0

while True:

    print num

    print consumer.paused() #获取当前挂起的消费者

    msg = consumer.poll(timeout_ms=5)

    print msg

    time.sleep(2)

    num = num + 1

    if num == 10:

        print "resume..."

        consumer.resume(TopicPartition(topic=u'test', partition=0))

        print "resume......"

pause执行后，consumer不能读取，直到调用resume后恢复。

python操作kafka的更多相关文章

kfka学习笔记一：使用Python操作Kafka
1.准备工作使用python操作kafka目前比较常用的库是kafka-python库,但是在安装这个库的时候需要依赖setuptools库和six库,下面就要分别来下载这几个库 https://p ...
使用python操作kafka
使用python操作kafka目前比较常用的库是kafka-python库安装kafka-python pip3 install kafka-python 生产者 producer_test.py ...
kafka实战教程(python操作kafka)，kafka配置文件详解
kafka实战教程(python操作kafka),kafka配置文件详解应用往Kafka写数据的原因有很多:用户行为分析.日志存储.异步通信等.多样化的使用场景带来了多样化的需求:消息是否能丢失?是 ...
python操作kafka实践
1.先看最简单的场景,生产者生产消息,消费者接收消息,下面是生产者的简单代码. ------------------------------------------------------------ ...
python操作kafka（confluent_kafka 生产）
#!/usr/bin/python # -*- coding:utf-8 -*- from confluent_kafka import Producer import json import tim ...
kafka--通过python操作topic
修改 topic 的分区数 shiyanlou:bin/ $ ./kafka-topics.sh --zookeeper localhost:2181 --alter --topic mySendTo ...
Python（九） Python 操作 MySQL 之 pysql 与 SQLAchemy
本文针对 Python 操作 MySQL 主要使用的两种方式讲解: 原生模块 pymsql ORM框架 SQLAchemy 本章内容: pymsql 执行 sql 增\删\改\查语句 pymsql ...
Python 【第六章】：Python操作 RabbitMQ、Redis、Memcache、SQLAlchemy
Memcached Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速度 ...
练习：python 操作Mysql 实现登录验证用户权限管理
python 操作Mysql 实现登录验证用户权限管理

随机推荐

1028 List Sorting
Excel can sort records according to any column. Now you are supposed to imitate this function. Input ...
从UWP项目移植到WinUI桌面版你需要做哪些事情
就像文章标题说的我是打算写一篇从UWP移植到WinUI的帖子,本来打算是想写一篇WinUI的学习帖子,可是觉得市面上UWP的教程WPF的教程都是很多了,所以干脆就直接硬怼项目吧,先声明我不是来挖UWP ...
【并发编程】Java中的锁有哪些？
0.死锁两个或者两个以上的线程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞现象,若无外力作用,他们都将无法让程序进行下去: 死锁条件: 不可剥夺条件: T1持有的资源无法被T2剥夺请 ...
DVWA之SQL注入考点小结
SQL Injection SQL Injection,即SQL注入,是指攻击者通过注入恶意的SQL命令,破坏SQL查询语句的结构,从而达到执行恶意SQL语句的目的.SQL注入漏洞的危害是巨大的,常常 ...
wordpress如何隐藏后台位置？
2017-02-08 20:43:20 言曌阅读数 3585更多分类专栏: WordPress 转载版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本 ...
【python】Leetcode每日一题-删除排序链表中的重复元素2
[python]Leetcode每日一题-删除排序链表中的重复元素2 [题目描述] 存在一个按升序排列的链表,给你这个链表的头节点 head ,请你删除链表中所有存在数字重复情况的节点,只保留原始链表 ...
【TensorFlow】使用Object Detection API 训练自己的数据集报错
错误1: 训练正常开始后,能正常看到日志输出,但中途报错 ResourceExhaustedError (see above for traceback): OOM when allocating ...
【SpringMVC】数据校验时，抛出javax.validation.UnexpectedTypeException: HV000030: No validator could be found for type: java.util.Date.
老魏原创,转载请留言. 原因:给Javabean中的字段注解多余或者错误导致. @NotEmpty @Past @DateTimeFormat(pattern="yyyy-MM-dd&quo ...
JVM垃圾回收的三种方式
* 垃圾回收有三种方式 * 一.清除:将需要回收对象的内存空间存放在内存列表中,当需要为新对象分配内存的时候,就会从内存列表中拿取空间分配.不过这种分配方式有两个缺点 * 第一个缺点是内存空间碎片化, ...
docker学习之使用 DockerFile 构建镜像并搭建 swarm+compose 集群
题目要求 (1)将springboot应用程序打成jar包:Hot.jar (2)利用dockerfile将Hot.jar构建成镜像 (3)构建 Swarm 集群 (4)在 Swarm 集群中使用 c ...

python操作kafka

python操作kafka

一、什么是kafka

术语：

二、安装

三、按照官网的样例，先跑一个应用

1、生产者:

2、消费者(简单demo):

3、消费者(消费群组)

4、消费者(读取目前最早可读的消息)

5、消费者(手动设置偏移量)

6、消费者(订阅多个主题)

7、消费者(手动拉取消息)

8、消费者(消息挂起与恢复)

python操作kafka的更多相关文章

随机推荐

热门专题