MySQL/RDS数据如何同步到MaxCompute之实践讲解

摘要：大数据计算服务（MaxCompute，原名ODPS）是阿里云提供的一种快速、完全托管的EB级数据仓库解决方案。本文章中阿里云MaxCompute公有云技术支持人员刘力夺通过一个实验向大家介绍了阿里云关系型数据库产品RDS中的MySQL数据如何同步到MaxCompute，帮助用户大体了解MaxCompute产品以及其数据同步过程。

直播视频回顾：MySQL/RDS数据如何同步到MaxCompute

以下内容根据演讲视频以及PPT整理而成。

实验方案概述

本实验是对RDS同步数据到MaxCompute的一个初步讲解。当企业需要利用MaxCompute进行数据开发时，如果数据不在MaxCompute而在RDS中，首先需要将RDS中的数据同步到MaxCompute。本实验将以RDS(MySQL)为例，具体讲解此过程的操作步骤以及一些容易遇到的问题，为企业的数据同步过程提供一些指导与帮助。

本次同步过程的方案分为以下两个链路：1）通过DataWorks中的数据集成功能进行同步；2）通过DTS(数据传输服务)进行同步。
方案1需要在DataWorks中新建RDS和MaxCompute的数据源，利用抽象化的数据抽取插件(Reader)，数据写入插件(Writer)进行数据传输，达到数据同步的目的；
方案2利用DTS服务确定同步的数据来源及数据去向进行同步。

下图是同步的方案流程图，数据来源是RDS，包括两个数据同步链路，分别是DataWorks和DTS，数据最终要同步到MaxCompute中。

下面分别介绍一下上图方案中涉及到的一系列功能或平台：

RDS

RDS是阿里云关系型数据库，是一种稳定可靠、可弹性伸缩的在线数据库服务。它基于阿里云分布式文件系统和SSD盘高性能存储，同时支持多种数据库类型，如MySQL、SQL Server、PostgreSQL。

•数据集成

数据集成是DataWorks中的一个功能，是阿里集团对外提供的稳定高效，弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。

•DTS

DTS是一种数据传输服务，其支持RDBMS、NoSQL、OLAP等数据源间的数据交互。DTS具备极高的链路稳定性和数据可靠性。数据传输支持同/异构数据源之间的数据交互，提供数据迁移/订阅/同步交互功能。

进行实验之前需要进行操作环境的准备：如果使用DataWorks数据集成，需要确保MaxCompute服务已开通，DataWorks项目空间已开通；如果使用DTS，则需要购买DTS服务。

同步操作步骤

下面介绍数据同步到MaxCompute具体的操作步骤：

•DataWorks数据集成

1.以项目管理员身份登陆DataWorks控制台，单击工作空间列表，找到对应的工作空间，单击进入数据集成选项。

2.单击任务列表同步资源管理中的数据源选项，在右上方选择新增数据源。

3.因为做的是RDS同步到MaxCompute,因此需要分别添加两种类型的数据源，首先添加数据来源，选择新增数据库类型为MySQL关系型数据库。

4.数据源选择完成后需要填写数据源的配置项。数据源类型选择阿里云数据库(RDS),填写对应RDS实例ID,RDS实例主账号ID。填写RDS中对应的MySQL数据库名称及密码。最后测试连通性，显示测试连通性成功证明配置成功。需要注意的一点是，在连接之前还需配置RDS的白名单，确保RDS可以被其他设备访问，后面会详细介绍。

5.新增MaxCompute类型的数据源。

6.配置MaxCompute类型数据源，填写数据源名称和适用环境（开发和生产），类型Endpoint,对应MaxCompute项目名称，AccessKey ID以及AccessKey Secret。至此，创建数据源已经完成。

7.以开发者身份进入DataWorks管理控制台，找到对应项目后点击进入数据开发选项。

8.进入DataStudio(数据开发)页面，新建业务流程（下图红色框），填写业务流程名称及描述。

9.在DataWorks中建立对应RDS中的表，并在业务流程下的数据集成选项中新建数据同步节点并提交。

10.配置数据来源与数据去向，需要配置的数据源是刚才添加的数据源，数据来源是MySQL，它的表是RDS中对应的表，目标数据源是MaxCompute，其他的如清理规则、空字符串是否为null的配置选项，默认选择即可。

11.配置完成后可以保存并运行同步数据节点，查询MaxCompute的同步表中是否存在数据，且与RDS的数据一致，判断同步是否成功。

下面介绍如何利用DTS进行数据同步。

•DTS数据同步

1.首先需要登陆数据传输控制台，在左侧导航栏中点击数据同步选项。

2.单击完成后在控制台的右上方点击创建同步作业选项，购买DTS服务，前面提到使用DTS需要提前购买服务，指的便是这步操作。需要注意的一点是，所购买的DTS所属的Region尽量要和RDS以及MaxCompute的Region一致，为了避免后续操作中不必要的麻烦。

3.找到购买的DTS实例，单击配置同步链路。需要填写购买的RDS实例ID,RDS中数据库的用户名、密码，需要同步到的MaxCompute项目名称。配置同步链路完成之后单击授权白名单并进入下一步选项，将DTS服务器的IP地址自动添加到RDS实例和MaxCompute实例的白名单中，保障DTS服务器能够正常连接源和目标实例。

4.单击下一步，允许将MaxCompute中项目的下述权限授予给DTS同步账号。

5.配置同步策略和同步对象，配置完成之后单击预检查并启动。只有预检查通过后才会成功启动数据同步作业。如果预检查失败，可以根据提示详情修复后重新进行预检查。

DTS数据同步配置的参数主要有：1）同步通道的源实例及目标实例信息；2）同步策略和同步对象。其中源实例及目标实例信息的配置需要注意的是源实例的名称和同步作业的信息，还有实例类型、地区和ID，同步策略和同步对象的配置需要注意的是增量日志表分区定义、同步初始化、目标已存在的表的处理模式以及选择同步对象。

6.在预检查对话框显示预检查通过后，关闭预检查对话框后同步作业正式开始。用户可以在数据同步作业页面查看同步的状态。

7.同步完成后，会在MaxCompute的生产环境中生成两张表，一张以_base结尾，存储同步到的数据，另一张以_log结尾，存储增量数据和元信息。用户可以通过查询表数据确定同步过程是否成功。

实验注意事项及易遇到的问题
1.需要配置RDS的白名单，确保RDS可以被访问，否则会同步失败。

2.关于配置RDS白名单，需要登陆到RDS控制台，找到对应Region下的RDS实例并进入。单击设置白名单选项，这里以内网地址的设置白名单为例。

3.默认IP地址为127.0.0.1，表示不允许任何设备访问该RDS实例，需要修改允许其他设备访问。

4.需要修改默认地址，填写需要访问该实例的IP地址或IP段，如10.10.10.0/24，表示10.10.10.x的网段都可以访问该实例。0.0.0.0/0表示任意设备都可以访问该实例，此设置有一定安全风险，请谨慎使用。

5.针对DataWorks数据集成的快速批量配置，在公共云上，如果用户想对RDS同步到MaxCompute进行快速批量配置，可以进行整库迁移操作。如下图所示，找到添加到的数据源，单击整库迁移批量配置的选项。

单击整库迁移批量配置的选项后，就可以进入到快速批量配置界面，需要选择要同步的数据表、创建生产环境表、选择同步方式等。下图展示了快速批量配置界面待迁移表筛选区、迁移模式、并发控制区。

此外，还可以进行高级设置，提供表名称，列名称，列类型的映射转换规则

6.当使用DTS同步时，会在同步的目标表中添加一些附加列。如果附加列和目标表中已有的列名称冲突会导致同步失败，可以通过启用新的附加列规则避免冲突，此配置会在旧版附加列的基础上加上new_dts_sync_的前缀。

本文作者：亢海鹏

原文链接

本文为云栖社区原创内容，未经允许不得转载。

MySQL/RDS数据如何同步到MaxCompute之实践讲解的更多相关文章

Hive数据如何同步到MaxCompute之实践讲解
摘要:本次分享主要介绍 Hive数据如何迁移到MaxCompute.MMA(MaxCompute Migration Assist)是一款MaxCompute数据迁移工具,本文将为大家介绍MMA工具的 ...
Kafka数据如何同步至MaxCompute之实践讲解
摘要:本次分享主要介绍Kafka产品的原理和使用方式,以及同步数据到MaxCompute的参数介绍.独享集成资源组与自定义资源组的使用背景和配置方式.Kafka同步数据到MaxCompute的开发到生 ...
日志数据如何同步到MaxCompute
摘要:日常工作中,企业需要将通过ECS.容器.移动端.开源软件.网站服务.JS等接入的实时日志数据进行应用开发.包括对日志实时查询与分析.采集与消费.数据清洗与流计算.数据仓库对接等场景.本次分享主要 ...
mysql数据实时同步到Elasticsearch
业务需要把mysql的数据实时同步到ES,实现低延迟的检索到ES中的数据或者进行其它数据分析处理.本文给出以同步mysql binlog的方式实时同步数据到ES的思路, 实践并验证该方式的可行性,以供 ...
canal整合springboot实现mysql数据实时同步到redis
业务场景: 项目里需要频繁的查询mysql导致mysql的压力太大,此时考虑从内存型数据库redis里查询,但是管理平台里会较为频繁的修改增加mysql里的数据问题来了: 如何才能保证mysql的数 ...
mysql 主从数据校验
使用工具pt-table-checksum: /usr/bin/pt-table-checksum --user=root --password='mysqlpass' --host=127.0.0. ...
wtf！rds数据同步居然出问题了--菜鸟db的数据修复历程
由于一次上线操作的数据变更太多,导致执行时间很长! 由于做手动主从关系,所以操作落在了主库上. 由于主从关系不是对整个库的操作,所以在有表新增的地方,添加了dts新的同步关系. db变更完成后,就发布 ...
怎么通过 Mysql 实现数据同步呢？
怎么使 mysql 数据同步先假设有主机 A 和 B ( linux 系统),主机 A 的 IP 分别是 1.2.3.4 (当然,也可以是动态的),主机 B 的 IP 是 5.6.7.8 .两个主机都 ...
Mysql数据实时同步
企业运维的数据库最常见的是 mysql;但是 mysql 有个缺陷:当数据量达到千万条的时候,mysql 的相关操作会变的非常迟缓; 如果这个时候有需求需要实时展示数据;对于 mysql 来说是一种灾 ...

随机推荐

SqlServer 查看缓存并合理设置最大内存
SqlServer 服务器运行一段时间发现内存逐渐增长飙升到98%了解决方法: 重启主机重启SqlServer服务设置最大内存前两种方法不太适合线上环境且指标不治本建议用设置最大内存如 ...
UVA 1045 最长公共子序列
题目描述:求最长公共子序列若给定序列X={x1,x2,...,xm},另一序列Z={z1,z2,...,zk},是X的子序列是指存在一个严格递增的下标序列{i1,i2,...,ik}使得对所以j=1 ...
C语言的未初始化的数组的值为什么是随机的
突然想起来前几天同学问我为什么没有初始化的数组的值是随机的,发现这个困惑自己也是存在的,所以自己总结的心得. 1. 首先,并不是所有未初始化的数组的值都是随机的.对于没有初始化的数组,分两种情况: ( ...
Vue过渡：用Velocity实现JavaScript钩子
Velocity is an animation engine with a similar API to jQuery's $.animate(). It has no dependencies, ...
php开发环境是什么
软件开发环境(Software Development Environment,SDE)是指在基本硬件和数字软件的基础上,为支持系统软件和应用软件的工程化开发和维护而使用的一组软件,简称SDE.它由软 ...
ichunqiu在线挑战--网站综合渗透实验 writeup
挑战链接:http://www.ichunqiu.com/tiaozhan/111 知识点:后台弱口令,md5破解,SQL Injection,写一句话木马,敏感信息泄露, 提权,登陆密码破解这个挑 ...
Java NIO 缓冲区
Java NIO 在JDK1.4的时候引入,主要解决传统IO的一些性能问题.NIO 主要内容包含 Buffer .Channel.Selector等内容,本文主要讲解Buffer相关的内容. Buff ...
java Semaphore信号灯
Semaphore实现的功能就类似2个公用电话,假如有10个人要打电话:那么只能2个人占有电话,8个需要等待.当2个人中的任何一个人让开后,其中等待的另外8个人中又有一个人可以使用了等待的8个人中可 ...
k8s<------docker
An easy problem (位运算）
[题目描述] 给出一个整数,输出比其大的第一个数,要求输出的数二进制表示和原数二进制表示下1的个数相同. [题目链接] http://noi.openjudge.cn/ch0406/1455/ [算法 ...

MySQL/RDS数据如何同步到MaxCompute之实践讲解

MySQL/RDS数据如何同步到MaxCompute之实践讲解的更多相关文章

随机推荐

热门专题