Alibaba DataX 源码编译

标签(空格分隔): ETL


DataX简介

设计理念

为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。

当前使用现状

DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。此前已经开源DataX1.0版本,此次介绍为阿里巴巴开源全新版本DataX3.0,有了更多更强大的功能和更好的使用体验。

源码及文档: https://github.com/alibaba/DataX

DataX3.0框架设计

DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。

Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。

Writer: Writer为数据写入模块,负责不断从Framework取数据,并将数据写入到目的端。

Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。

DataX3.0核心架构

DataX 3.0 开源版本支持单机多线程模式完成同步作业运行,阿里内部版本应该支持分布式,本小节按一个DataX作业生命周期的时序图,从整体架构设计非常简要说明DataX各个模块相互关系。



核心模块介绍:

DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。

DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。

切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。

每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。

DataX作业运行起来之后, Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0

DataX调度流程:

举例来说,用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是:

DataXJob根据分库分表切分成了100个Task。

根据20个并发,DataX计算共需要分配4个TaskGroup(20/5)。

4个TaskGroup平分切分好的100个Task,每一个TaskGroup负责以5个并发共计运行25个Task。

编译源码

1,下载源码

  1. $ git clone git@github.com:alibaba/DataX.git

2,配置 maven setting.xml

修改为阿里云镜像

  1. <mirrors>
  2. <mirror>
  3. <id>custom-mirror</id>
  4. <mirrorOf>*</mirrorOf>
  5. <!--<url>http://maven.aliyun.com/nexus/content/groups/public/</url>-->
  6. <url>https://maven.aliyun.com/repository/central</url>
  7. </mirror>
  8. </mirrors>

3,编译打包

  1. $ mvn -U clean package assembly:assembly -Dmaven.test.skip=true

注:异常处理

异常一:

  1. [ERROR] Failed to execute goal on project odpsreader: Could not resolve dependencies for project com.alibaba.datax:odpsreader:jar:0.0.1-SNAPSHOT: Could not find artifact com.alibaba.external:bouncycastle.provider:jar:1.38-jdk15 in custom-mirror (https://maven.aliyun.com/repository/central) -> [Help 1]
  2. $ vim odpsreader/pom.xml
  3. com.aliyun.odps
  4. odps-sdk-core
  5. 换一下版本 0.20.7-public

异常二:

  1. [ERROR] Failed to execute goal on project otsstreamreader: Could not resolve dependencies for project com.alibaba.datax:otsstreamreader:jar:0.0.1-SNAPSHOT: Could not find artifact com.aliyun.openservices:tablestore-streamclient:jar:1.0.0-SNAPSHOT -> [Help 1]
  2. $ vim otsstreamreader/pom.xml
  3. tablestore-streamclient 的版本 1.0.0-SNAPSHOT 改成 1.0.0

其他异常:

  1. 多数是由maven仓库缺少jar包所致,可将maven镜像改为私服重试,私服配置如下:
  2. <mirrors>
  3. <mirror>
  4. <id>custom-mirror</id>
  5. <mirrorOf>*</mirrorOf>
  6. <url>http://xxx.xxx.xxx.xxx:9999/nexus/content/groups/public/</url>
  7. </mirror>
  8. </mirrors>
  9. public availibale repositories
  10. aliyunhttps://maven.aliyun.com/repository/central/
  11. Centralhttps://repo1.maven.org/maven2/
  12. cloudrahttps://repository.cloudera.com/content/repositories/releases
  13. conjarshttp://conjars.org/repo/

打包成功,日志显示如下:

  1. [INFO] ------------------------------------------------------------------------
  2. [INFO] Reactor Summary for datax-all 0.0.1-SNAPSHOT:
  3. [INFO]
  4. [INFO] datax-all .......................................... SUCCESS [02:46 min]
  5. [INFO] datax-common ....................................... SUCCESS [ 1.704 s]
  6. [INFO] datax-transformer .................................. SUCCESS [ 1.092 s]
  7. [INFO] datax-core ......................................... SUCCESS [ 2.538 s]
  8. [INFO] plugin-rdbms-util .................................. SUCCESS [ 1.004 s]
  9. [INFO] mysqlreader ........................................ SUCCESS [ 0.817 s]
  10. [INFO] drdsreader ......................................... SUCCESS [ 0.871 s]
  11. [INFO] sqlserverreader .................................... SUCCESS [ 0.759 s]
  12. [INFO] postgresqlreader ................................... SUCCESS [ 0.898 s]
  13. [INFO] oraclereader ....................................... SUCCESS [ 0.730 s]
  14. [INFO] odpsreader ......................................... SUCCESS [ 4.434 s]
  15. [INFO] otsreader .......................................... SUCCESS [ 7.622 s]
  16. [INFO] otsstreamreader .................................... SUCCESS [ 2.919 s]
  17. [INFO] plugin-unstructured-storage-util ................... SUCCESS [ 3.740 s]
  18. [INFO] txtfilereader ...................................... SUCCESS [ 2.490 s]
  19. [INFO] hdfsreader ......................................... SUCCESS [ 10.103 s]
  20. [INFO] streamreader ....................................... SUCCESS [ 0.771 s]
  21. [INFO] ossreader .......................................... SUCCESS [ 3.766 s]
  22. [INFO] ftpreader .......................................... SUCCESS [ 3.546 s]
  23. [INFO] mongodbreader ...................................... SUCCESS [ 3.219 s]
  24. [INFO] rdbmsreader ........................................ SUCCESS [ 0.750 s]
  25. [INFO] hbase11xreader ..................................... SUCCESS [ 8.536 s]
  26. [INFO] hbase094xreader .................................... SUCCESS [ 15.437 s]
  27. [INFO] opentsdbreader ..................................... SUCCESS [ 9.389 s]
  28. [INFO] mysqlwriter ........................................ SUCCESS [ 0.656 s]
  29. [INFO] drdswriter ......................................... SUCCESS [ 0.628 s]
  30. [INFO] odpswriter ......................................... SUCCESS [ 1.318 s]
  31. [INFO] txtfilewriter ...................................... SUCCESS [ 2.235 s]
  32. [INFO] ftpwriter .......................................... SUCCESS [ 2.847 s]
  33. [INFO] hdfswriter ......................................... SUCCESS [ 5.695 s]
  34. [INFO] streamwriter ....................................... SUCCESS [ 0.656 s]
  35. [INFO] otswriter .......................................... SUCCESS [ 1.325 s]
  36. [INFO] oraclewriter ....................................... SUCCESS [ 0.674 s]
  37. [INFO] sqlserverwriter .................................... SUCCESS [ 0.714 s]
  38. [INFO] postgresqlwriter ................................... SUCCESS [ 0.660 s]
  39. [INFO] osswriter .......................................... SUCCESS [ 2.360 s]
  40. [INFO] mongodbwriter ...................................... SUCCESS [ 2.324 s]
  41. [INFO] adswriter .......................................... SUCCESS [ 4.402 s]
  42. [INFO] ocswriter .......................................... SUCCESS [ 6.219 s]
  43. [INFO] rdbmswriter ........................................ SUCCESS [ 0.735 s]
  44. [INFO] hbase11xwriter ..................................... SUCCESS [ 4.088 s]
  45. [INFO] hbase094xwriter .................................... SUCCESS [ 2.189 s]
  46. [INFO] hbase11xsqlwriter .................................. SUCCESS [ 15.235 s]
  47. [INFO] hbase11xsqlreader .................................. SUCCESS [ 14.237 s]
  48. [INFO] elasticsearchwriter ................................ SUCCESS [ 3.212 s]
  49. [INFO] tsdbwriter ......................................... SUCCESS [ 0.897 s]
  50. [INFO] hbase20xsqlreader .................................. SUCCESS [01:47 min]
  51. [INFO] hbase20xsqlwriter .................................. SUCCESS [ 29.320 s]
  52. [INFO] ------------------------------------------------------------------------
  53. [INFO] BUILD SUCCESS
  54. [INFO] ------------------------------------------------------------------------
  55. [INFO] Total time: 07:44 min
  56. [INFO] Finished at: 2019-05-27T21:55:06+08:00
  57. [INFO] ------------------------------------------------------------------------

打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:

  1. $ cd {DataX_source_code_home}
  2. $ ls ./target/datax/datax/
  3. bin conf job lib plugin script tmp
  4. root@VECS02922:/app/compile/DataX/target# du -sh *
  5. 4.0K archive-tmp
  6. 1.3G datax
  7. 1.2G datax.tar.gz

Alibaba DataX 源码编译的更多相关文章

  1. 《Flink 源码解析》—— 源码编译运行

    更新一篇知识星球里面的源码分析文章,去年写的,周末自己录了个视频,大家看下效果好吗?如果好的话,后面补录发在知识星球里面的其他源码解析文章. 前言 之前自己本地 clone 了 Flink 的源码,编 ...

  2. Flink 源码解析 —— 源码编译运行

    更新一篇知识星球里面的源码分析文章,去年写的,周末自己录了个视频,大家看下效果好吗?如果好的话,后面补录发在知识星球里面的其他源码解析文章. 前言 之前自己本地 clone 了 Flink 的源码,编 ...

  3. Android 5.0源码编译问题

    如果是自己通过repo和git直接从google官网上download的源码,请忽略这个问题,但是由于google在国内被限制登录,通过这一种方法不是每个人都能download下来源码,通常的做法就是 ...

  4. Android stdio Apktool源码编译

    Android Apktool源码编译 标签(空格分隔): Android Apktool 源码编译 需求 习惯NetBeans调试smali需要用Apktool反编译apk,需要用-d的参数才能生成 ...

  5. SSH/SSL 源码编译安装简易操作说明

    环境:CentOS 6.7 安全加固需求,由于某盟扫描系统主机有SSL系列漏洞,客户要求必须修复: 解决方案:将SSH/SSL升级到最新版本,删除SSL旧版本(实测不删除旧版本某盟扫描无法通过). 当 ...

  6. Hadoop源码编译过程

    一.           为什么要编译Hadoop源码 Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通 ...

  7. World Wind .NET源码编译问题处理

    World  Wind  .NET源码编译问题处理 下载了World_Wind_1.4.0_Source源码(http://worldwindcentral.com/wiki/NASA_World_W ...

  8. 源码编译安装 MySQL 5.5.x 实践

    1.安装cmakeMySQL从5.5版本开始,通过./configure进行编译配置方式已经被取消,取而代之的是cmake工具.因此,我们首先要在系统中源码编译安装cmake工具. # wget ht ...

  9. Linux 安装node.js ---- 源码编译的方式

    一 : 普通用户: 安装前准备环境: 1.检查Linux 版本 命令: cat /etc/redhat-release 2.检查 gcc.gcc-c++ 是否安装过 命令: rpm -q gcc rp ...

随机推荐

  1. pycharm 快捷键练习 和基本英语单词练习

    通过练习 一下快捷键 打代码的速度得到提升 pycharm以下 快捷键+快捷键意义 ctrl+a 全选 ctrl+c 复制(不选中默认复制一行) ctrl+v 粘贴 ctrl+x 剪切 ctrl+f ...

  2. loj 6031「雅礼集训 2017 Day1」字符串

    loj 注意到每次询问串长度都是给定的,并且询问串长\(k*\)询问次数\(q<10^5\),所以这里面一个东西大的时候另一个东西就小,那么考虑对较小的下功夫 如果\(k\le \sqrt{n} ...

  3. python之time

    1. 获取当前时间戳 # -*- coding: UTF- -*- import time print(time.time()) # 输出:1540693297.94459 2. 将时间戳格式化为本地 ...

  4. 小P的架构生活(下)

    小L强烈建议团队使用微服务,并极力推荐了前公司用的一套分布式事务解决方案. 小P经过反复思考查证并做了大量的尝试后,辨证地对微服务架构做了如下分析: 为什么要用微服务,微服务带来了哪些好处? 1.减少 ...

  5. 点击切换的JS

    $(function(){ var tabnav = $("#tab-nav ul li"); tabnav.click(function(){ $(this).addClass( ...

  6. linux上安装rz和sz

    简介 lrzsz 官网入口:http://freecode.com/projects/lrzsz/ lrzsz是一个unix通信套件提供的X,Y,和ZModem文件传输协议 windows 需要向ce ...

  7. mvc 母版页中登录注册和问候的处理

    方式一:    在母版页直接调用方法返回,用户的session["userName"]也在母版页判断 2. 创建一个局部视图,在局部试图中将代码和数据调用写好引用单母版页 3. 自 ...

  8. Java语言基础(5)

    1 if-else语句(二) 案例:Demo1~Demo4 import java.util.Scanner; public class Demo1 { //在main方法中,从控制台输入任意的一个整 ...

  9. 【bzoj 4046 加强版】Pork barrel

    刚考完以为是神仙题--后来发现好像挺蠢的-- QwQ 题意 给你一张 \(n\) 个点 \(m\) 条边的无向图(不一定连通),有 \(q\) 组询问,每组询问给你 \(2\) 个正整数 \(l,h\ ...

  10. C#基础进阶

    观看C#高级教程进行学习.巩固基础,进阶学习. 1.委托 把方法当做参数来传递就是委托.委托的关键字是delegate. class Program { private delegate string ...