Kafka Connect是一种用于在Kafka和其他系统之间可扩展的.可靠的流式传输数据的工具,可以更快捷和简单地将大量数据集合移入和移出Kafka的连接器.Kafka Connect为DataPipeline提供了一个相对成熟稳定的基础框架,还提供了一些开箱即用的工具,大大地降低研发的投入和提升应用的质量. 下面,我们看一看Kafka Connect的具体优势. 首先,Kafka Connect提供的是以数据管道为中心的业务抽象.在Kafka Connect里有两个核心概念:Source和S…
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPipeline CTO陈肃分享了DataPipeline是如何基于Kafka Connect框架构建实时数据集成平台的应用实践.以下内容是基于现场录音整理的文字,供大家参考. 什么是数据集成?最简单的应用场景就是:一个数据源,一个数据目的地,数据目的地可以一个数据仓库,把关系型数据库的数据同步到数据仓库…
文 | 陈肃 DataPipeline  CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数据库集群来支撑不断增长的业务需要.以应用为中心的数据持久化架构,在带来可伸缩性好处的同时,也给数据的融合计算带来了障碍. 由于数据散落在不同的数据库.消息队列.文件系统中,计算平台如果直接访问这些数据,会遇到可访问性和数据传输延迟等问题.在一些场景下,计算平台直接访问应用系统数据库会对系统吞吐造成显…
在不断满足当前企业客户数据集成需求的同时,DataPipeline也基于Kafka Connect 框架做了很多非常重要的提升. 1. 系统架构层面. DataPipeline引入DataPipeline Manager的概念,主要用于优化Source和Sink的全局化生命周期管理.当任务出现异常时,可以实现对目的端和全局生命周期的管理.例如,处理源端到目的端读取速率不匹配以及暂停等状态的协同. 为了加强系统的健壮性,我们把Connector任务的参数保存在ZooKeeper中,方便任务重启后读…
上一个十年,以 Hadoop 为代表的大数据技术发展如火如荼,各种数据平台.数据湖.数据中台等产品和解决方案层出不穷,这些方案最常用的场景包括统一汇聚企业数据,并对这些离线数据进行分析洞察,来达到辅助决策或者辅助营销的目的,像传统的 BI 报表.数据大屏.标签画像等等. 但企业中除了这样的分析型业务(OLAP),还同时存在对数据实时性要求更高的交互型业务场景(OLTP 或 Operational Applications),例如电商行业常见的统一商品或订单查询.金融行业的实时风控.服务行业的客户…
  摘要:对于 PostgreSQL 的实时数据采集, 业界经常遇到了包括:对源库性能/存储影响较大, 采集性能受限, 时间回退重新同步不支持, 数据类型较复杂等等问题.Tapdata 在解决 PostgreSQL 增量复制问题过程中,获得了一些不错的经验和思考,本文将分享 Tapdata 自研的 TAP-CDC-CACHE,和其他几种市面常见的解决方案的优势和特性. 前言 TAPDATA 的数据复制产品里, 提供了对于 PostgreSQL 的实时数据采集功能, 在客户落地使用时, 遇到了包括…
作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. 通过前面几篇文章,我们从企业数据整合与分享的痛点,以及对数据中台的定义.技术需求以及技术产品的选项,都分别做了具体的阐述. 有了这么多解决方案,我们来看一下,如果是基于一个 MongoDB 的方案会是怎么样?我们刚才只是讲的数据平台在做一些选择,但是做一个完善的数据中台的话还需要很多其他模块,所以这里面是用到了另一个产品,就是Tapdat…
作者介绍:TJ,唐建法,Tapdata 钛铂数据CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. 常见搭建数据中台的技术产品 数据中台包括:统一数据平台,数据同步,数据治理,数据服务四大部分.下表列出了这四大部分中相应的技术产品,有同步汇聚工具.有数据治理.还有数据服务. 数据平台最常见的是以 Hadoop 大数据为基础的.在最近十年,有很多家公司投入很多来做这个事情,把数据已经收集到中央化的一个 datalake 里面,那这个就是个很…
作者介绍:TJ,唐建法,Tapdata 钛铂数据 CTO,MongoDB中文社区主席,原MongoDB大中华区首席架构师,极客时间MongoDB视频课程讲师. 数据中台定义: 以打通部门或数据孤岛的统一数据平台为基础,构建统一数据资产体系,并以API服务方式为全渠道业务(分析 + 应用)提供即时交付能力的企业级数据架构. - 首先,统一数据平台.数据中台也是一个数据统一的平台,它不会取代原来的系统,而是把原来组织中分散在各系统中的数据实时地汇聚到统一平台之中. - 其次,数据资产体系建立.与数仓…
streamdataio 是一个实时的数据分发平台(当然是收费的,但是设计部分可以借鉴),我们可以通过这个平台 方便的拉取rest api 数据,或者发布数据到后端,streamdataio 可以帮助你解决复杂的实时数据发布 典型的参考架构 当然,streamdataio 支持的发布模型还是比较多,比如多播,广播,唯一播..poller,post 的发布 说明 pushpin 也是一款开源的类似的解决方案,实时上有一个关于realtime api 的网站,上边的博客还是很不错的 参考资料 htt…