Sqoop（四）增量导入、全量导入、减量导入

增量导入

一、说明

　　当在生产环境中，我们可能会定期从与业务相关的关系型数据库向Hadoop导入数据，导入数仓后进行后续离线分析。这种情况下我们不可能将所有数据重新再导入一遍，所以此时需要数据增量导入。

　　增量导入数据分为两种方式：

　　　　一是基于递增列的增量数据导入（Append方式）。

　　　　二是基于时间列的数据增量导入（LastModified方式）。

二、增量导入

方式一：Append方式

　　比如:有一个订单表，里面每个订单有一个唯一标识自增列ID，在关系型数据库中以主键形式存在，之前已经将id在1-3的编号的订单导入到了Hive中，现在一段时间后我们需要将近期产生的新的订单数据(id为4、5的两条数据)导入Hive，供后续数仓进行分析。此时我们只需要指定-incremental参数为append，-last-value参数为3即可。表示只从大于3后开始导入。

1、MYSQL建表

CREATE TABLE `appendTest` (

  `id` int(11) ,

  `name` varchar(255)

)

2、导入数据

insert into appendTest(id,name) values(1,'name1');

insert into appendTest(id,name) values(2,'name2');

insert into appendTest(id,name) values(3,'name3');

3、创建一张跟mysql中的appendTest表一样的hive表appendTest

sqoop create-hive-table \

--connect jdbc:mysql://192.168.200.100:3306/yang \

--username root \

--password 010209 \

--table appendTest \

--hive-table appendTest

4、进行导入，将id>0的三条数据进行导入

sqoop import \

--connect jdbc:mysql://192.168.200.100:3306/yang \

--username root \

--P \

--table appendTest \

--hive-import \

-m 1  \
--hive-table appendTest \

--incremental append \

--check-column id \

--last-value 0

结果：

5、查看

6、向mysql表appendTest再次插入数据

insert into appendTest(id,name) values(4,'name4');

insert into appendTest(id,name) values(5,'name5');

7、再次执行增量导入

由于上一次导入的时候，，将--last-value设置为0，将id>0的三条数据导入后，现在进行导入了时候需要将last-value设置为3
sqoop import \

--connect jdbc:mysql://192.168.200.100:3306/yang \

--username root \

--P \

--table appendTest \

--hive-import \

-m 1  \
--hive-table appendTest \

--incremental append \

--check-column id \

--last-value 3

结果：

8、查看hive表appendTest

重要参数说明：

9、说明

说明：
增量抽取，需要指定--incremental append，同时指定按照源表中哪个字段进行增量--check-column id，
并指定hive表appendTest当前最大值--last-value 3。创建sqoop job的目的是，每次执行job以后，sqoop会自动记录appedndTest的last-value，
下次再执行时，就会自动指定last-value，不需要手工去改了。

方式二：lastModify方式

基于lastModify的方式，要求原表中有time字段，它能指定一个时间戳，让SQoop把该时间戳之后的数据导入至Hive，因为后续订单可能状态会发生变化，变化后time字段时间戳也会发生变化，此时SQoop依然会将相同状态更改后的订单导入Hive，当然我们可以指定merge-key参数为id，表示将后续新的记录与原有记录合并。

1、Mysql建表

CREATE TABLE lastModifyTest (

id INT,

name VARCHAR (20),

last_mod TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP

);

2、导入数据

insert into lastModifyTest(id,name) values(1,'enzo');

insert into lastModifyTest(id,name) values(2,'din');

insert into lastModifyTest(id,name) values(3,'fz');

insert into lastModifyTest(id,name) values(4,'dx');

insert into lastModifyTest(id,name) values(5,'ef');

3、HIve建表

sqoop create-hive-table \

--connect jdbc:mysql://192.168.200.100:3306/yang \

--username root \

--password 010209 \

--table lastModifyTest \

--hive-table lastModifyTest

4、导入数据，将时间以后的数据进行导入

sqoop import \

--connect jdbc:mysql://192.168.200.100:3306/yang \

--username root \

--P \

--table lastModifyTest \

--hive-import \

-m 1  \

--hive-table lastModifyTest \

--incremental lastmodified \

--check-column last_mod \

--last-value "2019-05-14 15:17:23"

结果：

5、查看数据导入结果

6、参数说明

全量导入

将mysql表中全部数据都导入Hive，下面来查看实例：

1、MYSQL数据

2、一次性将mysql表im数据全量导入hive中

sqoop import \

--connect jdbc:mysql://192.168.200.100:3306/yang \

--username root \

--password 010209 \

--table im \

--hive-import \

--hive-table im \

-m 1

减量导入

设置where条件，通过判断条件可以判断减少的数据和增加的数据，控制更加灵活。

sqoop import \

--connect jdbc:mysql://192.168.200.100:3306/yang \

--username root \

--P \

--table appendTest \

--hive-import \

-m 1  \

--incremental append \

--where "age>30"

--check-column id \

--last-value 0

Sqoop（四）增量导入、全量导入、减量导入的更多相关文章

hbase增量和全量备份
1.星期五全量备份星期四23:59:59的数据,星期一全量备份到星期日23:59:59的数据,其他的增量备份,备份前一天00:00:00 - 23:59:59的数据 * * /opt/prodfu ...
solr-DIH:dataimport增量全量创建索引
索引创建完毕,就要考虑怎么定时的去重建, 除了写solrj,可以定时调用下面两条url进行增量或者全量创建索引全量:http://ip:port/webapp_name/core_name/da ...
mysql的全量备份与增量备份
mysql的全量备份与增量备份全量备份:可以使用mysqldump直接备份整个库或者是备份其中某一个库或者一个库中的某个表. 备份所有数据库:[root@my ~]# mysqldump -uroo ...
Logstash学习之路（四）使用Logstash将mysql数据导入elasticsearch（单表同步、多表同步、全量同步、增量同步）
一.使用Logstash将mysql数据导入elasticsearch 1.在mysql中准备数据: mysql> show tables; +----------------+ | Table ...
hadoop项目实战--ETL--（三）实现mysql表到HIVE表的全量导入与增量导入
一在HIVE中创建ETL数据库 ->create database etl; 二在工程目录下新建MysqlToHive.py 和conf文件夹在conf文件夹下新建如下文件,最后的工程目录 ...
sqoop1.4.6 全量导入与增量导入与使用技巧
全量导入: sqoop import --connect jdbc:mysql://192.168.0.144:3306/db_blog --username root --password 1234 ...
10.Solr4.10.3数据导入(DIH全量增量同步Mysql数据)
转载请出自出处:http://www.cnblogs.com/hd3013779515/ 1.创建MySQL数据 create database solr; use solr; DROP TABLE ...
MySQL5.7.18 备份、Mysqldump，mysqlpump，xtrabackup，innobackupex 全量，增量备份，数据导入导出
粗略介绍冷备,热备,温暖,及Mysqldump,mysqlpump,xtrabackup,innobackupex 全量,增量备份 --备份的目的灾难恢复:意外情况下(如服务器宕机.磁盘损坏等)对损 ...
sqoop定时增量导入导出
sqoop定时增量导入 2013-11-06 14:23 4553人阅读评论(0) 收藏举报 sqoop使用hsql来存储job信息,开启metastor service将job信息共享,所有no ...

随机推荐

PyQt(Python+Qt)学习随笔：QAbstractItemView的alternatingRowColors属性
老猿Python博文目录老猿Python博客地址 alternatingRowColors属性用于控制视图中不同行记录背景色是否使用交替不同的颜色. 如果此属性为True,则将使用QPalette. ...
mysql中innodb引擎的mvcc机制和BufferPool缓存机制
一.MVCC (1)mvcc主要undo日志版本链和read-view一致性视图来保证多事务的并发控制,mvcc是innodb的一种特殊机制,他保证了事务四大特性之一的隔离性(原子性,一致性,隔离性) ...
Linux里的几种不同的压缩命令小记
第一个是 .gz的压缩格式我们使用gzip来对文件进行压缩,使用gunzip(或者是gzip -d)来对文件进行解压缩但是gzip的缺点在于不能够压缩目录,压缩的时候也不能够保留源文件第二个是 ...
js- 实现属性名的拼接 obj['name']
obj.name---->obj[name] 这两种调用方式一样,使用obj.name内部转换成 obj['name'], 使用obj['name']更快. obj['name'] 里面必须是 ...
第六篇 Scrum 冲刺博客
一.站立式会议 1. 会议照片 2. 工作汇报团队成员名称昨日完成的工作今天计划完成的工作工作中遇到的困难陈锐基 - 完成关注/取关功能以及动态绑定- 完成点赞/取消点赞功能以及动态绑定 - ...
Java IO流 BufferedInputStream、BufferedOutputStream的基本使用
BufferedInputStream.BufferedOutputStream的基本使用 BufferedInputStream是FilterInputStream流的子类,FilterInputS ...
2. 使用Shell能做什么
批处理在批处理的过程中,能够实现脚步自动化,比GUI自动化速度高效日常工作场景服务端测试移动端测试持续集成与自动化部署,这是最最场景的场景,可以说离开了shell,持续集成和自动化部署也会遇 ...
加快Linux上yum下载安装包的速度（以CentOS 7，安装gcc为例）
今天在学习Linux的过程中,学到了关于包的安装问题:rpm包管理和yum在线管理两种方式:这里因为我在实验yum安装gcc出现了网速超级慢的问题,于是搜索解决方案,重新配置repo得以解决,记录整个 ...
html+css一些简单案例：爱心点击，盒子模型，2d动画
canvas绘制爱心效果预览上代码 <!doctype html> <html> <head> <title>HTML5 Canvas爱心飘动动画特 ...
QQ音乐PB级ClickHouse实时数据平台架构演进之路
导语 | OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过Q ...

Sqoop（四）增量导入、全量导入、减量导入

Sqoop（四）增量导入、全量导入、减量导入的更多相关文章

随机推荐

热门专题