Kafka Connect简介

http://colobu.com/2016/02/24/kafka-connect/#more

Kafka 0.9+增加了一个新的特性Kafka Connect,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型,通过connectors可以将大数据从其它系统导入到Kafka中,也可以从Kafka中导出到其它系统。Kafka Connect可以将完整的数据库注入到Kafka的Topic中,或者将服务器的系统监控指标注入到Kafka,然后像正常的Kafka流处理机制一样进行数据流处理。而导出工作则是将数据从Kafka Topic中导出到其它数据存储系统、查询系统或者离线分析系统等,比如数据库、Elastic SearchApache Ignite等。

Kafka Connect特性包括:

  • Kafka connector通用框架,提供统一的集成API
  • 同时支持分布式模式和单机模式
  • REST 接口,用来查看和管理Kafka connectors
  • 自动化的offset管理,开发人员不必担心错误处理的影响
  • 分布式、可扩展
  • 流/批处理集成

流数据平台

基于Kafka, LinkedIn等一些大公司已经建立起架构类似的、可扩展的流数据平台。它包含两个功能,数据集成和流处理。
Kafka Connect则是为数据集成而生。

多年来,Kafka已经成为处理大数据流的平台标准,成千上万的公司在使用它。程序员在构建它们的平台的时候也遇到一些问题:

  • Schema管理
  • 容错
  • 并行化
  • 数据延迟
  • 分发担保
  • 运营与监控

这些棘手的问题都要程序员去处理,如果有一个统一的框架去完成这些事情,将可以大大减少程序员的工作量,因此Kafka 0.9中提供了这一特性,负责处理这些问题。

Kafka背后的公司confluent鼓励社区创建更多的开源的connector,将Kafka生态圈壮大起来,促进Kafka Connnect的应用。

Kafka Connnect有两个核心概念:Source和Sink。 Source负责导入数据到Kafka,Sink负责从Kafka导出数据,它们都被称为Connector。

当前Kafka Connect支持两种分发担保:at least once (至少一次) 和 at most once(至多一次),exactly once将在未来支持。

当前已有的Connectors包括:

Connector Name Owner Status
 HDFS confluent-platform@googlegroups.com Confluent supported
JDBC confluent-platform@googlegroups.com Confluent supported
Debezium - CDC Sources debezium@gmail.com Community project  
 MongoDB Source  a.patelli@reply.de
 a.topchyan@reply.de
In progress 
 MQTT Source tomasz.pietrzak@evok.ly Community project 
 MySQL Binlog Source wushujames@gmail.com In progress 
Twitter Source  rollulus@xs4all.nl In progress  
 Cassandra Sink  Cassandra Sink  Community project 
Elastic Search Sink ksenji@gmail.com Community project
Elastic Search Sink hannes.stockner@gmail.com In progress
Elastic Search Sink a.patelli@reply.de
 a.topchyan@reply.de
In progress 
Apache Ignite Sink Apache Ignite Project

Community project

(Planned for Apache Ignite 1.6 Release)

Connectors的发布和开发可以参照官方文档。如果以前你通过producer API/consumer API写了一些导入导出的功能,不妨尝试一下换成Kafka Connect,看看是否简化了你的代码,提高了应用可扩展和容错的能力。

参考文档

      1. http://www.confluent.io/blog/announcing-kafka-connect-building-large-scale-low-latency-data-pipelines
      2. http://www.confluent.io/developers/connectors
      3. http://kafka.apache.org/documentation.html#connect
      4. Kafka Producer处理逻辑

        摘要:http://1028826685.iteye.com/blog/2354541 Kafka Producer产生数据发送给Kafka Server,具体的分发逻辑及负载均衡逻辑,全部由producer维护。 Kafka结构图 Kafka Producer默认调用逻辑 默认Partition逻辑 1 阅读全文
        posted @ 2017-06-26 16:23 邹天得 阅读 (529) | 评论 (0)编辑
         
        Kafka Producer写入消息的几种方式

        摘要:直接发送 下面是一种最简单的发送数据的方式 1 Producer接收是ProducerRecord对象,因此最开始的时候需要创建ProducerRecord的对象。ProducerRecord有好几种构造方法,稍后我们会讲到。上面例子中需要填写接收消息的topic(以啊不能都是字符串类型),想要发送 阅读全文
        posted @ 2017-06-26 16:08 邹天得 阅读 (4481) | 评论 (0)编辑
         
        Kafka吞吐量测试

        摘要:kafka节点信息: num.network.threads=3 log.dirs=/data2/zdh/kafka/data,/data3/zdh/kafka/data,/data4/zdh/kafka/data,/data5/zdh/kafka/data,/data6/zdh/kafka/dat 阅读全文
        posted @ 2017-03-28 10:26 邹天得 阅读 (2844) | 评论 (0)编辑
         
        Kafka学习之监控

        摘要:2015-01-04 16:20 http://blog.csdn.net/damacheng/article/details/42393895 参考文档:https://kafka.apache.org/documentation.html#monitoring Kafka使用Yammer Met 阅读全文
        posted @ 2017-03-28 10:06 邹天得 阅读 (121) | 评论 (0)编辑
         
        Zookeeper常见错误笔记

        摘要:http://www.bubuko.com/infodetail-615044.html 时间:2015-02-03 16:40:33 阅读:859 评论:0 收藏:0 [点我收藏+] 标签:class style 代码 com log 使用 java 文件 http Zookeeper开发过程中一 阅读全文
        posted @ 2017-03-28 10:00 邹天得 阅读 (1154) | 评论 (0)编辑
         
        Kafka的概念与知识点

        摘要:http://www.cnblogs.com/cyfonly/p/5954614.html 一、为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息 阅读全文
        posted @ 2017-03-28 09:31 邹天得 阅读 (37) | 评论 (0)编辑
         
        Kafka consumer处理大消息数据问题

        摘要:http://www.cnblogs.com/xiaodf/p/6277761.html 案例分析 处理kafka consumer的程序的时候,发现如下错误: 如上log可以看出,问题就是有一个较大的消息数据在codeTopic的partition 3上,然后consumer未能消费,提示我可以减 阅读全文
        posted @ 2017-03-28 09:30 邹天得 阅读 (338) | 评论 (0)编辑
         
        Kafka设计解析(一)- Kafka背景及架构介绍

        摘要:发表于 2015-03-10 | 分类于 Kafka , 大数据 , 分布式 | 评论次数 | 阅读次数 21442 | 字数 7,320 原创文章,转载请务必将下面这段话置于文章开头处。(已授权InfoQ中文站发布)本文转发自Jason’s Blog,原文链接 http://www.jasongj 阅读全文
        posted @ 2017-03-23 15:08 邹天得 阅读 (31) | 评论 (0)编辑
         
        topic零散集合

        摘要:1、手动设置topic,分区数可以单独指定,覆盖server.properties里的分区数设置;但是副本数的指定,不能超过kafka节点数; 2、各topic整体来看,leader和副本数会均匀分布在各节点上; 3、isr的相关设置应提高; 阅读全文
        posted @ 2017-03-06 21:50 邹天得 阅读 (28) | 评论 (0)编辑
         
        Round-Robin负载均衡算法及其实现原理

        摘要:http://security.ctocio.com.cn/securitycomment/385/8082385_2.shtml 作者:潘风文出处:IT专家网2008-04-18 12:00 【IT专家网独家】概述 毫无疑问,随着互联网、移动网络接入成本的降低,互联网正在日益深入地走入我们的生活, 阅读全文
        posted @ 2017-03-06 10:03 邹天得 阅读 (366) | 评论 (0)编辑
         
        kafka producer性能调优

        摘要:时间 2016-12-27 18:27:00 Kami Wan 原文 http://www.kaimingwan.com/post/kafka/kafka-producerxing-neng-diao-you 主题 Apache Kafka 时间 2016-12-27 18:27:00 Kami W 阅读全文
        posted @ 2017-02-24 15:59 邹天得 阅读 (7847) | 评论 (1)编辑
         
        kafka的一些概念和部署

        摘要:时间 2014-04-06 03:12:00 博客园-所有随笔区 原文 http://www.cnblogs.com/wanghongjun/p/3647890.html 主题 Apache Kafka 时间 2014-04-06 03:12:00 博客园-所有随笔区 原文 http://www.c 阅读全文
        posted @ 2017-02-24 15:55 邹天得 阅读 (216) | 评论 (0)编辑
         
        Kafka学习之producer配置(0.8.1版)

        摘要:时间 2014-07-03 16:01:06 ITeye-博客 原文 http://damacheng009.iteye.com/blog/2087996 主题 Apache Kafka 时间 2014-07-03 16:01:06 ITeye-博客 原文 http://damacheng009.i 阅读全文
        posted @ 2017-02-24 15:52 邹天得 阅读 (79) | 评论 (0)编辑
         
        Kafka Connect简介

        摘要:http://colobu.com/2016/02/24/kafka-connect/#more Kafka 0.9+增加了一个新的特性Kafka Connect,可以更方便的创建和管理数据流管道。它为Kafka和其它系统创建规模可扩展的、可信赖的流数据提供了一个简单的模型,通过connectors 阅读全文
        posted @ 2017-02-06 17:09 邹天得 阅读 (803) | 评论 (0)编辑
         
        Kafka 内幕:源代码High level分析

        摘要:http://colobu.com/2015/03/23/kafka-internals/ Kafka 内幕:源代码High level分析 目录 [−] Boker 架构 network layer a. Boker在启动的时候会调用SocketServer的startup方法。 b. 它为每个P 阅读全文
        posted @ 2017-02-06 16:07 邹天得 阅读 (87) | 评论 (0)编辑
         
        彻底删除Kafka中的topic(III)——Kafka topic创建、删除及partition设置

        摘要:一、 Kafka简介 Kafka为分布式发布-订阅消息系统。通过producer-topic(partition)-consumer三个环节完成消息收集及发布。 二、 命令行操作 ./kafka-topics.sh --zookeeper vmax52:2181,vmax54:2181,vmax55 阅读全文
        posted @ 2016-12-10 12:11 邹天得 阅读 (556) | 评论 (0)编辑
         
        彻底删除Kafka中的topic等信息(II)

        摘要:停止kafka后,进行以下几个步骤: ①Zookeeper上物理删除topic: [root@zou bin]# su mr [mr@zou bin]$ cd /home/mr/zookeeper/bin [mr@zou bin]$ ls zkCli.cmd zkCli.sh [mr@zou bin 阅读全文
        posted @ 2016-12-10 12:06 邹天得 阅读 (74) | 评论 (0)编辑
         
        彻底删除Kafka中的topic(I)

        摘要:2016-01-26 11:29 http://blog.csdn.net/fengzheku/article/details/50585972 1、删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录 2、 阅读全文
        posted @ 2016-12-10 12:04 邹天得 阅读 (50) | 评论 (0)编辑
         
        Zookeeper在kafka中的应用

        摘要:2015-06-06 12:07 http://blog.csdn.net/tianbianlan/article/details/46387039 Zookeeper在kafka中的应用 @20150606 简介 Kafka使用zookeeper作为其分布式协调框架,很好的将消息生产、消息存储、消 阅读全文
        posted @ 2016-12-10 12:03 邹天得 阅读 (128) | 评论 (0)编辑
         
        kafka server源代码分析(一)

        摘要:时间:2015-05-28 09:26:17 http://www.mamicode.com/info-detail-658184.html 这个是Kafka server的核心包,里面的类也很多,我们还是一个一个分析 一、BrokerStates.scala 定义了目前一个kafka broker 阅读全文
        posted @ 2016-12-09 19:13 邹天得 阅读 (540) | 评论 (0)编辑

Kafka Connect简介的更多相关文章

  1. 替代Flume——Kafka Connect简介

    我们知道过去对于Kafka的定义是分布式,分区化的,带备份机制的日志提交服务.也就是一个分布式的消息队列,这也是他最常见的用法.但是Kafka不止于此,打开最新的官网. 我们看到Kafka最新的定义是 ...

  2. kafka connect简介以及部署

    https://blog.csdn.net/u011687037/article/details/57411790 1.什么是kafka connect? 根据官方介绍,Kafka Connect是一 ...

  3. Kafka: Connect

    转自:http://www.cnblogs.com/f1194361820/p/6108025.html Kafka Connect 简介 Kafka Connect 是一个可以在Kafka与其他系统 ...

  4. 最简单流处理引擎——Kafka Streaming简介

    Kafka在0.10.0.0版本以前的定位是分布式,分区化的,带备份机制的日志提交服务.而kafka在这之前也没有提供数据处理的顾服务.大家的流处理计算主要是还是依赖于Storm,Spark Stre ...

  5. Streaming data from Oracle using Oracle GoldenGate and Kafka Connect

    This is a guest blog from Robin Moffatt. Robin Moffatt is Head of R&D (Europe) at Rittman Mead, ...

  6. Build an ETL Pipeline With Kafka Connect via JDBC Connectors

    This article is an in-depth tutorial for using Kafka to move data from PostgreSQL to Hadoop HDFS via ...

  7. [翻译]Kafka Streams简介: 让流处理变得更简单

    Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams.当时Ka ...

  8. Kafka connect快速构建数据ETL通道

    摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 业余时间调研了一下Kafka connect的配置和使用,记录一些自己的理解和心得,欢迎 ...

  9. 使用kafka connect,将数据批量写到hdfs完整过程

    版权声明:本文为博主原创文章,未经博主允许不得转载 本文是基于hadoop 2.7.1,以及kafka 0.11.0.0.kafka-connect是以单节点模式运行,即standalone. 首先, ...

随机推荐

  1. 将公式直接转化为Latex代码的神器-snip

    经常用latex写论文,免不了要敲各种公式,今天和大家分享一个神器-snip,它可以直接将公式转化为代码,不需要我们自己编写公式代码,方便快捷,准确率极高.该神器的下载地址为:https://math ...

  2. Boring counting HDU - 3518 (后缀数组)

    Boring counting \[ Time Limit: 1000 ms \quad Memory Limit: 32768 kB \] 题意 给出一个字符串,求出其中出现两次及以上的子串个数,要 ...

  3. LeetCode 934. Shortest Bridge

    原题链接在这里:https://leetcode.com/problems/shortest-bridge/ 题目: In a given 2D binary array A, there are t ...

  4. yolov2

    在这篇文章中,作者首先在YOLOv1的基础上提出了改进的YOLOv2,然后提出了一种检测与分类联合训练方法,使用这种联合训练方法在COCO检测数据集(用于检测)和ImageNet分类数据集(用于分类) ...

  5. PostgreSQL 慢查询SQL跟踪

    PostgreSQL 开启慢SQL捕获在排查问题时是个很有效的手段.根据慢SQL让我在工作中真正解决了实际问题,很有帮助. PostgreSQL 日志支持的输出格式有 stderr(默认).csvlo ...

  6. [ARC064F] Rotated Palindromes

    题意 给定一个整数N,请你求出有多少字符集为1到K之间整数的字符串,使得该字符串可以由一个长度为N的回文串循环移位后得到.所谓循环移位,就是把字符串的某个前缀(可以为空)移到字符串末尾,如" ...

  7. linux服务器升级python版本(python2与python3共存)

    linux服务器升级python版本 ######################################## 第一步先安装sqlite-devel,因为python2也有这个,python3 ...

  8. ACM之Java输入输出

    本文转自:ACM之Java输入输出 一.Java之ACM注意点 1. 类名称必须采用public class Main方式命名 2. 在有些OJ系统上,即便是输出的末尾多了一个“ ”,程序可能会输出错 ...

  9. 链表 | 递归删除不带头结点链表所有x元素

    王道P37 T1 : 设计一个递归算法,删除不带头结点的单链表L中所有值为x的结点. 王道上的答案绝对是错的,我自己想了一个 函数主体 LinkList* del_x(LinkList* prior, ...

  10. 洛谷p1967货车运输(kruskal重构树)

    题面 题解中有很多说最优解是kruskal重构树 所以 抽了个早自习看了看这方面的内容 我看的博客 感觉真的挺好使的 首先对于kruskal算法来说 是基于贪心的思想把边权排序用并查集维护是否是在同一 ...