使用Kafka Connect创建测试数据生成器
在最近的一些项目中,我使用Apache Kafka开发了一些数据管道。在性能测试方面,数据生成总是会在整个活动中引入一些样板代码,例如创建客户端实例,编写控制流以发送数据,根据业务逻辑随机化有效负载等等。
在测试设置期间,拥有一个处理所有繁重工作的框架会很好,因此只需要回答两个基本和基本的问题:
- 数据应该是什么样的?(架构)
- 要生成多少数据?(体积)
有了Kafka Connect,事实证明实现自定义源连接器能够实现这一目标。以下是用于生成测试数据的示例属性列表的快速概述。
- topic.name = generated.events
poll.size = 10
poll.interval.ms = 5000
message.template = {“status”:“foo”,“direction”:“up”}
random.fields = status:foo | bar |巴兹,方向:向上|向下|向左|向右
这些属性是不言自明的。为了回答上述两个基本问题:message.template
和random.fields
控制模式,而poll.size
和poll.interval.ms
控制音量。
基于这些属性,我创建了一个名为“kafka-connect-datagen”(或简称“datagen”)的自定义源连接器,可在GitHub上获得。
在下一节中,我将简要介绍一些实现细节。
实现自定义连接器
Kafka Connect源连接器将数据从数据存储复制到Kafka,而接收器连接则相反。虽然是源连接器,但datagen不会链接到任何数据存储; 它从内部生成数据。其实施的其余部分根据是标准卡夫卡连接开发指南:它延伸SourceConnector
和SourceTask
,并实现了一些生命周期方法的钩。以下片段缩写自datagen。
如代码所示,Connector
定义Task
要运行的类型和要为其设置的配置Task
,同时Task
是执行自定义逻辑的工作单元。两者Connector
和Task
实例都在一个Worker
进程中运行。该汇合的文档详细介绍了这些概念。
除了实现这两个类之外,还有一个步骤在运行演示之前:ConfigDef
为用户定义配置列表()。之后,这些类可以打包为Connector插件。在全面实施可以在GitHub上找到。
在下一节中,我将演示如何将插件与dockerized本地群集设置一起使用。
快速入门演示
在本快速入门示例中,我们使用docker-compose
管理所有必需的服务,如ZooKeeper,Kafka和Kafka Connect。要显示所有这些服务,请运行docker-compose up -d
,然后运行docker-compose ps
以打印状态信息,如下所示。
- Name State Ports
----------------------------------------------- --------------------
quickstart_broker_1 Up 0.0.0.0:9092->9092/tcp
quickstart_connect_1 Up 0.0.0.0:8083->8083/tcp,t ...
quickstart_kafka- connect-ui_1 Up 0.0.0.0:8001->8000/tcp
quickstart_kafka-rest-proxy_1 Up 0.0.0.0:8082->8082/tcp
quickstart_kafka-topics-ui_1 Up 0.0.0.0:8000->8000/tcp
quickstart_zookeeper_1 Up 0.0。 0.0:2181-> 2181 / tcp,...
Kafka和Kafka Connect将需要更长的时间才能开始。感谢Landoop Ltd,我们有这些不错的UI工具:打开http:// localhost:8000查看Kafka主题UI,http:// localhost:8001查看Kafka Connect UI。您也可以运行docker-compose logs -f
以查看日志。
由于通常Kafka Connect服务是最后一个完成启动的服务,我们可以通过运行docker-compose logs -f connect
来查看其日志,以查看如下的正常运行指标。
- INFO使用config offset -1(org.apache.kafka.connect.runtime.distributed.DistributedHerder)
启动连接器和任务INFO完成启动连接器和任务(org.apache.kafka.connect.runtime.distributed.DistributedHerder)
当所有服务完全启动时,是时候创建“datagen”连接器实例了。以下是用于此演示的配置示例。它基本上设置“datagen”任务,每5秒生成10条消息。每条消息都使用定义的JSON消息模板和一些随机字段。运行以下命令以实例化Connector和Task。
- curl -X POST http:// localhost:8083 / connectors \
-H'Content-Type:application / json'\
-H'Eccept:application / json'\
-d @ connect.source.datagen.json
现在,在Kafka主题UI中,我们能够看到以generated.events
定义的速率发布到主题的随机JSON消息。

kafka-connect-datagen发布消息
要停止生成,我们可以转到Kafka Connect UI并暂停或删除连接器。同样,我们可以使用如下所示的REST API来实现相同的结果。查看此Confluent文档以获取更多操作。
- #pause连接器(如果成功则为空响应)
curl -X PUT http:// localhost:8083 / connectors / connect.source.datagen / pause
- #delete连接器(如果成功则为空响应)
curl -X DELETE http:// localhost:8083 / connectors / connect.source.datagen
总之,我们能够利用Kafka Connect,这是一种现成的工具,可以很好地与Kafka集成,以最少的样板代码实现随机数据生成。自定义连接器插件 - kafka-connect-datagen - 具有高度可移植性,可以进一步扩展以支持集成测试和不同消息格式等功能。
使用Kafka Connect创建测试数据生成器的更多相关文章
- SQL Server CDC配合Kafka Connect监听数据变化
写在前面 好久没更新Blog了,从CRUD Boy转型大数据开发,拉宽了不少的知识面,从今年年初开始筹备.组建.招兵买马,到现在稳定开搞中,期间踏过无数的火坑,也许除了这篇还很写上三四篇. 进入主题, ...
- Kafka connect快速构建数据ETL通道
摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 业余时间调研了一下Kafka connect的配置和使用,记录一些自己的理解和心得,欢迎 ...
- 使用kafka connect,将数据批量写到hdfs完整过程
版权声明:本文为博主原创文章,未经博主允许不得转载 本文是基于hadoop 2.7.1,以及kafka 0.11.0.0.kafka-connect是以单节点模式运行,即standalone. 首先, ...
- kafka connect 使用说明
KAFKA CONNECT 使用说明 一.概述 kafka connect 是一个可扩展的.可靠的在kafka和其他系统之间流传输的数据工具.简而言之就是他可以通过Connector(连接器)简单.快 ...
- kafka connect rest api
1. 获取 Connect Worker 信息curl -s http://127.0.0.1:8083/ | jq lenmom@M1701:~/workspace/software/kafka_2 ...
- Kafka: Connect
转自:http://www.cnblogs.com/f1194361820/p/6108025.html Kafka Connect 简介 Kafka Connect 是一个可以在Kafka与其他系统 ...
- kafka connect简介以及部署
https://blog.csdn.net/u011687037/article/details/57411790 1.什么是kafka connect? 根据官方介绍,Kafka Connect是一 ...
- 1.3 Quick Start中 Step 7: Use Kafka Connect to import/export data官网剖析(博主推荐)
不多说,直接上干货! 一切来源于官网 http://kafka.apache.org/documentation/ Step 7: Use Kafka Connect to import/export ...
- 替代Flume——Kafka Connect简介
我们知道过去对于Kafka的定义是分布式,分区化的,带备份机制的日志提交服务.也就是一个分布式的消息队列,这也是他最常见的用法.但是Kafka不止于此,打开最新的官网. 我们看到Kafka最新的定义是 ...
随机推荐
- ES6 Class(类)(九)
一.Class类1.构造函数 constructor(){} 说明:a.如果没有重新定义带参数的构造函数,类会默认为我们提供一个不带参数的隐式构造函数b.在创建类的实例时会自动调用类中的构造函数 2. ...
- 如何提高你的移动开发中AS3/AIR性能
Shawn Blais 让我了解到如何在移动平台上对AS3代码进行优化.他的博客(http://esdot.ca/site/category/blog)只有十来篇文章,但都是些很意思的信息,尤其适合我 ...
- 英语AmbraGrisea龙涎香
龙涎香AmbraGrisea是抹香鲸科动物抹香鲸的肠内分泌物的干燥品.取自宰杀的抹香鲸肠内分泌物(即鲸鱼的粪便,它是抹香鲸吞食墨鱼后,胃肠道分泌出来的灰黑色的蜡状排泄物).其味甘.气腥.性涩,具有行气 ...
- MySQL 错误代码:2003 idea错误:ERROR DruidDataSource:1846 - create connection error
idea项目一启动就报错: 20:01:13,047 ERROR DruidDataSource:1846 - create connection error com.mysql.jdbc.excep ...
- Ubuntu18.04安装cudnn7.6.1
注:如果使用anaconda,貌似不需要安装cuda和cudnn,安装tensorflow时会自动安装 1.进入nvidia官网https://developer.nvidia.com/cudnn下载 ...
- elastic date时区问题解决办法
之前介绍filter date插件时就谈到时区问题,但是没有说明白.最近在使用range查询时间范围内的数据时出现了数据量不一致的情况.特地了解了下ELK Stack中关于时区的问题. 问题: 使用k ...
- seq2seq模型详解及对比(CNN,RNN,Transformer)
一,概述 在自然语言生成的任务中,大部分是基于seq2seq模型实现的(除此之外,还有语言模型,GAN等也能做文本生成),例如生成式对话,机器翻译,文本摘要等等,seq2seq模型是由encoder, ...
- 任务型对话(二)—— DST(对话状态追踪)
1,概述 关于任务型对话的简介看任务型对话(一)—— NLU(意识识别和槽值填充). 首先我们来看下对话状态和DST的定义. 对话状态:在$t$时刻,结合当前的对话历史和当前的用户输入来给出当前每个s ...
- 第11节-BLE协议HCI层的硬件接口
本篇博客由韦东山视频整理所得 如何控制链路层让其发出广播包.数据包?通过HCI层向它发出命令,也可以通过ATT层.L2CAP层向LL层发出数据. 学习资料: 蓝牙协议core_v5.0.pdf < ...
- JMeter3.0及JMeter5.1开发WebService接口脚本(soap取样器 & http取样器)
由于5.1没有soap取样器了,所以用3.0演示. WebService接口信息 WebService接口地址:http://www.webxml.com.cn/WebServices/Weather ...