DataX Web可视化分布式调度数据同步系统
因项目需要,结合目前参与的项目,以及个人技术能力范围,组合研发一套web可视化数据同步系统,正式名称:DataXP。
项目背景:接触过阿里云这类大数据平台,对于中大型项目以及需要与外部系统对接数据的情况下,几乎都需要数据共享/分析处理/ETL同步等功能。
避免重复造轮子,首页了解了一番目前成熟的kettle这类,存在一些问题,要不是商业,要不就是主流容器化支持不太好,没有Web管理控制台等等,总之开源上想使用一款体验好,技术主流,部署简单,功能稳定来说比较困难,通常都无法直接拿过来用,多多少少有很多不足之处需要二次开发,而且设计成型跨开发语言难以二开,而且程序组件都是分散的,这里装一个那里装一个,因此决定组合一套成熟技术,开发一个通用性的数据同步系统,引入了一些开源优秀框架,其中核心组件1.XXLJob分布式调度,用于分布式调度执行节点;2.DataX阿里云DataWorks商业版本的开源版本,因为使用过DataWorks对DataX的插件设计思路很感兴趣,支持各种异构数据源同步,专业的,详情百度了解,最后打包成docker镜像,只要你有一个docker环境和mysql数据库就可以跑起来,运行非常简单。
整体架构设计思路:
1.支持容器化Docker一键部署,快速交付;
2.嘿嘿,必须是java开发语言,熟悉的SpringBoot搭建的管理后台;
3.开发两个服务1个是admin,一个是node执行器,admin负责调度,node负责执行任务;
4.admin和node分别通过源码的方式集成XxlJob的admin和client,有少许的源码改造工作,尽量保留xxljob的原汁原味,方便后期升级;node单独集成DataX3.0一起打包,admin和node会独立打包的docker镜像。
5.非必要技术一概不要,目前快速交付需要的环境:1.docker环境;2.admin镜像;3.node镜像;4.mysql数据库。
先上图:
1.登录
2.任务调度
3.数据集成
4.配置调度
5.数据开发 - 绑定了公共库的数据源变为公共表,用于中间数据处理
6.数据作业 - 将离线同步和数据开发串联作业
7.调度日志查看(进行中的任务可以暂停刷新-终止任务等非常方便)
8.Docker容器化部署,rancher平台托管,node节点可以分布式扩展,部署架构参考XXLJOB,节点之间是独立的,统一由admin发送调度任务
以下对功能需求介绍如下:
1.执行调度(这个不多介绍了,熟悉XXLJob的同学一看就知道,还是熟悉的味道,熟悉的配方,完美复刻(好吧有改造的成分))
2.数据集成(重点,用过阿里云DataWorks的同学能够感受到熟悉的感觉,没错参考核心的几个DataWorks操作)
2.1 离线同步 - 基础功能
主要负责异构数据源的数据同步,目前UI上只支持关系型数据库,设计上支持扩展,底层逻辑是,设计出DataX所需要的JSON,给到调度,调度发送给Node节点,Node节点丢给DataX去执行就好了,执行日志全部通过XxlJob的方式输出,UI上面为了体验友好做了改造,启动执行立刻弹出日志窗口,增加暂停/继续刷新和弹出窗终止任务等实用功能,体验上单点聚合不用切换到别的地方去。
2.2 数据开发 - 基础功能
这里重点借助公共库表的设计,参考DataWorks思路,通常离线同步只是两个跨数据源的库表同步,如果需要一个中间过渡的公共库做临时表的数据处理,那么数据开发就是做这个事情的,可以做一些update/delete等数据清洗,集成了一个SQL编辑器,后台提供接口支持,开发好的sql脚本给到调度,调度发送给Node,Node节点直接执行发送给公共数据库,因为是更新SQL,没有借助DataX,直接发送到源库执行,也可以全程借助DataX,不多说,公共库只支持Mysql。
2.3 作业 - 高级功能
思路就是离线同步和数据开发看作是一个个单一任务,那么一个作业就是为了把一个个单一的串起来,因为有时候一个完整的数据同步可以涉及多个同步开发步骤,作业属于一个高级功能项.
3.数据源
3.1 数据源管理
这个好理解,就是全局数据源,有的没的加上去就能同步了。目前已支持Mysql/Oracle/Postgresql/sqlserver/达梦/hive/oceanbase/mongodb/hbase
3.2 公共表
就是公共库表给数据开发的,只支持Mysql,需要从数据源里边选择一个绑定为公共库,全局只能有一个。
4.资源分组
5.系统管理
通用的数据权限管理功能,已支持全局的数据权限过滤。
DataX Web可视化分布式调度数据同步系统的更多相关文章
- Cesium数据可视化-仓储调度系统可视化部分(附github源码)
Cesium数据可视化-仓储调度系统可视化部分 目的 仓储调度系统需要一个可视化展示物资运输实况的界面,需要配合GPS设备发送的位置信息,实时绘制物资运输情况和仓储仓库.因此,使用Cesium可视化该 ...
- spring boot / cloud (十五) 分布式调度中心进阶
spring boot / cloud (十五) 分布式调度中心进阶 在<spring boot / cloud (十) 使用quartz搭建调度中心>这篇文章中介绍了如何在spring ...
- 分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例【转】
Kylin 麒麟官网:http://kylin.apache.org/cn/download/ 关键字:olap.Kylin Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的 ...
- [转帖]单集群10万节点 走进腾讯云分布式调度系统VStation
单集群10万节点 走进腾讯云分布式调度系统VStation https://www.sohu.com/a/227223696_355140 2018-04-04 08:18 云计算并非无中生有的概念, ...
- 云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程:通过HDFS的心跳来测试replication具体的工作机制和流程
这一讲主要深入使用HDFS命令行工具操作Hadoop分布式集群,主要是通过实验的配置hdfs-site.xml文件的心跳来测试replication具体的工作和流程. 通过HDFS的心跳来测试repl ...
- 王家林的81门一站式云计算分布式大数据&移动互联网解决方案课程第14门课程:Android软硬整合设计与框架揭秘: HAL&Framework &Native Service &App&HTML5架构设计与实战开发
掌握Android从底层开发到框架整合技术到上层App开发及HTML5的全部技术: 一次彻底的Android架构.思想和实战技术的洗礼: 彻底掌握Andorid HAL.Android Runtime ...
- 深入理解分布式调度框架TBSchedule及源码分析
简介 由于最近工作比较忙,前前后后花了两个月的时间把TBSchedule的源码翻了个底朝天.关于TBSchedule的使用,网上也有很多参考资料,这里不做过多的阐述.本文着重介绍TBSchedule的 ...
- Elastic-Job-一个分布式调度解决方案
注:Elastic-Job是一个分布式调度解决方案,由两个相互独立的子项目Elastic-Job-Lite和Elastic-Job-Cloud组成.Elastic-Job-Lite定位为轻量级无中心化 ...
- Elastic-Job 分布式调度平台
概述 referred:http://elasticjob.io/docs/elastic-job-lite/00-overview Elastic-Job是一个分布式调度解决方案,由两个相互独立的子 ...
- Spring整合Quartz分布式调度
前言 为了保证应用的高可用和高并发性,一般都会部署多个节点:对于定时任务,如果每个节点都执行自己的定时任务,一方面耗费了系统资源,另一方面有些任务多次执行,可能引发应用逻辑问题,所以需要一个分布式的调 ...
随机推荐
- Lecture 2. Fundamental Concepts and ISA - Carnegie Mellon - Computer Architecture 2015 - Onur Mutlu
并不只有冯诺依曼模型,按照控制流顺序执行指令 还有 data flow 模型,按照数据流顺序执行指令 冯诺依曼模型和数据流模型的编程语言的一个对比 Control-driven 编程模型和 data- ...
- 简单的python线程池实现线程安全demo
from concurrent.futures import ThreadPoolExecutor import threading import time import sys sys.path.a ...
- window.onerror的总结
// a.js window.onerror = function (message, url, line, column, error) { console.log('log---onerror:: ...
- Google Chrome 离线安装包官方下载
我们参照 Google Chrome帮助中的<下载和安装 Google Chrome>,在这里找到官方最新版离线安装包的下载地址:备用 Chrome 安装程序,历史版本请通过版本号的方式下 ...
- vue3使用swiper 完整步骤
注意: 使用之前请确定使用的swiper版本,避免走一些不必要的弯路(笔者踩过来的)本文采用的是vue3.0.swiper^8.1.0. 1.安装依赖 npm install swiper 2.vue ...
- Luogu P2375 [NOI2014 D2]动物园 kmp
P2375 动物园 题目描述 近日,园长发现动物园中好吃懒做的动物越来越多了.例如企鹅,只会卖萌向游客要吃的.为了整治动物园的不良风气,让动物们凭自己的真才实学向游客要吃的,园长决定开设算法班,让动物 ...
- JS实现异步的方法:回调函数callback、事件监听、setTimeout、Promise、生成器Generators/yield、async/awt
所有异步任务都是在同步任务执行结束之后,从任务队列中依次取出执行. 回调函数是异步操作最基本的方法,比如AJAX回调,回调函数的优点是简单.容易理解和实现,缺点是不利于代码的阅读和维护,各个部分之间高 ...
- sql文件导入错误,There was an error while executing a query. The query and the error message has been logged at: C:\U
x.sql转储文件导入异常. 之前成功导入过,再次导入异常. 1修改my.ini文件,2修改sql文件编码.都不适用. 解决方法:新建数据库,再次导入成功.注意编码.
- 使用SonarQube对Unity项目进行代码分析的问题记录
1.这里不仔细描述每个步骤,只记录一些关键问题,到官网下载解压最新版的SonarQube(我用的是8.9.1). 2.下载安装jdk,这里要注意官网的说明,我一开始下的jdk16,启动Sonar后报错 ...
- xmake构建C/C++编译环境
1. xmake介绍 XMake是一个基于Lua的轻量级跨平台自动构建工具,支持在各种主流平台上构建项目 xmake的目标是开发者更加关注于项目本身开发,简化项目的描述和构建,并且提供平台无关性,使得 ...