kafka学习(六)

　　　　　　　　　　　　用kafka构建数据管道

把kafka看着是一个数据的端点，怎么把kafka数据移到mysql,elasticSearchs 这里面介绍kafka connect API怎么样帮忙我们把数据移到我们想要的位置。

构建数据管道时需要考虑的问题

1.及时性，kafka作为一个基于流的数据平台，提供了可靠的伸缩性，多集群高可用的方案。这一点可以保证及时性。如果因为网络延迟，那么数据也不会丢失。

2.可靠性，我们要避免单点故障，和根据自己的业务情况来设置生产者和消费者的一些必要的参数。如生产者的提交方法，不完全选举，等等

3.高吞吐量和动态吞吐量。kafka使用多线程来拆分任务，最大限度利用了cpu，还支持压缩数据传输数据。

数据格式

本身支持apache Avro 序列化数据，可以是json格式自定义序列化方式。

或者转成Parquet 写入HDFS，或转成CSV写入S3

转换，

kafka在这方面只支持类型转换，这方面还是其他etl 解决方案支持比较好

安全性

kafka支持加密传输和认证授权，所以不用担心安全问题、

故障处理能力

kafka会把数据持久化在磁盘上，一般保存7天，所以不要担心数据丢失问题。

如何在connect API和客户端API之间做出选择

如果是消息生产的话那么选择客户端，来源数据一般来源用户，connect只能连接一个数据端点，但不可能是用户数据收集的入口。

如果用于传输数据，如mysql 到elasticsearch 这样选用connect API 是个不错的选择

运行connect

connect 不需要安装，本身和kafka一起安装了，所以我们只需要配置我们需要的参数即可，启动和kafka类似

bin/connect-distributed.sh config/connect-distibuted.properties

connect进程有几个重要的配置参数

bootstrap.servers 可以集群模式或者单点

group.id 具有相同group.id的worker属于同一个集群。

key.converter 和value.converter connect可以处理存储在kafka里的不用格式的数据。

有些key.converter.schema.enable 设置成true或者false来指定JSON消息是否包含schema

对应的key.converter.schema.registry.url 指定schema registry的位置 value同样。

启动之后如果需要使用mysql 那么下载jdbc和mysql 驱动包即可使用。elasticsearch也是同样。

都是操作api。

深入理解connect

连接器插件实现了connector API 负责3件事情

1.决定需要运行多少个任务

2，按照任务来拆分数据复制

3.从worker进程获取任务配置并将其传递下去。

任务

负责将数据移入或移除kafka。

worker进程

负责处理http请求，还负责保存连接器的配置，启动连接器和连接器任务，并把配置消息传递给任务。如果一个worker崩溃了，集群其他worker进程会感知到，并将原本属于这个worker的任务分配给其他进程。

connect之外的选择

Hadoop的flume elasticsearch fluentd

kafka学习(六)的更多相关文章

Kafka学习之（六）搭建kafka集群
想要搭建kafka集群,必须具备zookeeper集群,关于zookeeper集群的搭建,在Kafka学习之(五)搭建kafka集群之Zookeeper集群搭建博客有说明.需要具备两台以上装有zook ...
大数据 -- kafka学习笔记：知识点整理（部分转载）
一为什么需要消息系统 1.解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险.许多 ...
kafka学习笔记：知识点整理
一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险. ...
Hbase深入学习(六) Java操作HBase
Hbase深入学习(六) ―― Java操作HBase 本文讲述如何用hbase shell命令和hbase java api对hbase服务器进行操作. 先看以下读取一行记录hbase是如何进行工作 ...
TweenMax动画库学习(六)
目录 TweenMax动画库学习(一) TweenMax动画库学习(二) TweenMax动画库学习(三) Tw ...
Kafka学习-简介
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cloudera.Apache Storm.S ...
Kafka学习-入门
在上一篇kafka简介的基础之上,本篇主要介绍如何快速的运行kafka. 在进行如下配置前,首先要启动Zookeeper. 配置单机kafka 1.进入kafka解压目录 2.启动kafka bin\ ...
Kafka学习之路
一直在思考写一些什么东西作为2017年开篇博客.突然看到一篇<Kafka学习之路>的博文,觉得十分应景,于是决定搬来这“他山之石”.虽然对于Kafka博客我一向坚持原创,不过这篇来自Con ...
kafka学习2：kafka集群安装与配置
在前一篇:kafka学习1:kafka安装中,我们安装了单机版的Kafka,而在实际应用中,不可能是单机版的应用,必定是以集群的方式出现.本篇介绍Kafka集群的安装过程: 一.准备工作 1.开通Z ...

随机推荐

Python之网路编程之-互斥锁与进程间的通信（IPC）及生产者消费者模型
一.互斥锁进程之间数据隔离,但是共享一套文件系统,因而可以通过文件来实现进程直接的通信,但问题是必须自己加锁处理. 注意:加锁的目的是为了保证多个进程修改同一块数据时,同一时间只能有一个修改,即串行 ...
Python之网路编程之socket简单介绍
一.网络协议客户端/服务器架构 1.硬件C/S架构(打印机) 2.软件C/S架构(互联网中处处是C/S架构):B/S架构也是C/S架构的一种,B/S是浏览器/服务器 C/S架构与socket的关系: ...
shell之文本过滤（awk）
shell之文本过滤(awk) 分类: linux shell脚本学习2012-09-19 15:53 1241人阅读评论(0) 收藏举报 shell正则表达式脚本任务语言如果要格式化报文或从一 ...
阅读之spring框架
资源表示:Resource Spring框架内部使用org.springframework.core.io.Resouce接口作为所有资源的抽象和访问接口. 它继承了 org.springframew ...
非root用户随开机而启动mysql服务
非root用户随开机而启动mysql服务今天验证了一下,非root用户随开机而启动msyql服务的脚本执行效果,特此简要记录如下: 环境: 192.168.142.130 mysql 5.6.41 ...
Python 字典(Dictionary)Ⅱ
删除字典元素能删单一的元素也能清空字典,清空只需一项操作. 显示删除一个字典用del命令,如下实例: 但这会引发一个异常,因http://www.xuanhe.net/为用del后字典不再存在: 注 ...
Comet OJ - Contest #14题解
Contest14的本质:区间覆盖+Tarjan( A 把距离公式两边平方即可注意要long long code #include <algorithm> #include <io ...
C++STL中的unique函数
头文件:#include<iostream> 函数原型:iterator unique(iterator it_1,iterator it_2); 作用:元素去重,即”删除”序列中所有相邻 ...
NOIP2016考前做题（口胡）记录
NOIP以前可能会持续更新写在前面 NOIP好像马上就要到了,感觉在校内训练里面经常被虐有一种要滚粗的感觉(雾.不管是普及组还是提高组,我都参加了好几年了,结果一个省一都没有,今年如果还没有的话感觉 ...
QT信号槽中的对象野指针
例: connect(&objec1,&class::slot_func1,&object2,&class::slot_func2) 如果 &objec 传 ...

kafka学习(六)

用kafka构建数据管道

构建数据管道时需要考虑的问题

数据格式

转换，

安全性

如何在connect API和客户端API之间做出选择

运行connect

深入理解connect

任务

connect之外的选择

kafka学习(六)的更多相关文章

随机推荐

热门专题

　　　　　　　　　　　　用kafka构建数据管道