sqoop定时增量导入

2013-11-06 14:23 4553人阅读评论(0) 收藏举报

sqoop使用hsql来存储job信息，开启metastor service将job信息共享，所有node上的sqoop都可以运行同一个job

一、sqoop的配置文件在sqoop.site.xml中：

1、sqoop.metastore.server.location

本地存储路径，默认在tmp下，改为其他路径

2、sqoop.metastore.server.port

metastore service端口号

3、sqoop.metastore.client.autoconnect.url

sqoop自动连接的metastore地址，默认是本地的metastore地址

4、sqoop.metastore.client.enable.autoconnect

开启自动连接。sqoop默认连接本地metastore。注释这个配置会开启自动连接。

二、开启metastore service

sqoop下，nohup bin/sqoop metastore

三、创建job

sqoop支持两种增量导入模式，
一种是 append，即通过指定一个递增的列，比如：
--incremental append --check-column num_iid --last-value 0

varchar类型的check字段也可以通过这种方式增量导入（ID为varchar类型的递增数字）：

--incremental append --check-column ID --last-value 8
另种是可以根据时间戳，比如：
--incremental lastmodified --check-column created --last-value '2012-02-01 11:0:00'
就是只导入created 比'2012-02-01 11:0:00'更大的数据。

bin/sqoop job --meta-connect jdbc:hsqldb:hsql://10.106.1.234:16000/sqoop --create job_zyztest13 -- import --connect jdbc:oracle:thin:@10.106.1.236:1521:orcl --username SQOOP --password sqoop --table LXC_TEST_HBASE_TO_ORACLE --columns NAME,SEX,AGE,CSRQ -m 1 --hbase-table SQOOP_IMPORT_TEST3 --column-family info --hbase-row-key NAME --split-by NAME --incremental lastmodified --check-column CSRQ --last-value '2012-02-01 11:0:00' --verbose
nohup /opt/hadoopcluster/sqoop-1.4.2.bin__hadoop-2.0.0-alpha/bin/sqoop job --exec job_zyztest13 > job_zyztest13.out 2>&1 &

此时，在10.106.1.234上创建了job_zyztest13这个job，通过bin/sqoop job --meta-connect jdbc:hsqldb:hsql://10.106.1.234:16000/sqoop --list可以查看所有job

四、定时执行

使用linux定时器：crontab -e

编辑定时器，添加*/4 * * * * /opt/hadoopcluster/sqoop-1.4.2.bin__hadoop-2.0.0-alpha/bin/sqoop job --meta-connect jdbc:hsqldb:hsql://10.106.1.234:16000/sqoop --exec job_zyztest13 > job_zyztest13.out 2>&1 & 任务将会每四分钟执行一次

sqoop定时增量导入导出的更多相关文章

sqoop的增量导入（increment import）
1.import增量导入的官方说明
sqoop job 增量导入
使用sqoop job做增量导入在执行导入模式为 incremental 的sqoop job 时,sqoop会获取上次导入操作的 –check-column的value值,也就是说使用sqoop ...
sqoop与hbase导入导出数据
环境:sqoop1.4.6+hadoop2.6+hbase1.1+mysql5.7 说明: 1.文中的导入导出的表结构借鉴了网上的某篇博客 2.mysql导入hbase可以直接通过sqoop进行 3. ...
sqoop导入导出对mysql再带数据库test能跑通用户自己建立的数据库则不行
sqoop对hdfs导入导出怎么操作这里我就不多说了现在说下sqoop导入导出时针对mysql后面用户手动创建的数据库导入到处遇到的问题首先我这里搭建的是3节点集群 master slave1 s ...
sqoop job 实现自动增量导入
一.测试环境 1.MySQL表结构 mysql> show create table autoextend\GCREATE TABLE `autoextend` ( `id` bigint(2 ...
用solr DIH 实现mysql 数据定时,增量同步到solr
基础环境: (二)设置增量导入为定时执行的任务: 很多人利用Windows计划任务,或者Linux的Cron来定期访问增量导入的连接来完成定时增量导入的功能,这其实也是可以的,而且应该没什么问题. 但 ...
第3节 sqoop：6、sqoop的数据增量导入和数据导出
增量导入在实际工作当中,数据的导入,很多时候都是只需要导入增量数据即可,并不需要将表中的数据全部导入到hive或者hdfs当中去,肯定会出现重复的数据的状况,所以我们一般都是选用一些字段进行增量的导 ...
Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具
Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS.Hive.HBase)与传统关系数据库(MySql.Oracle等)间进行数据传递工作.Sqoop最早是作为Hadoop的一个第三 ...
sqoop的导入导出
1.知道某列的值的增量导入(mysql------>文件) bin/sqoop import \--connect jdbc:mysql://bigdatcdh01:3306/test \--u ...

随机推荐

Java编程的逻辑 (39) - 剖析LinkedList
本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http:/ ...
Spark内存管理之钨丝计划
Spark内存管理之钨丝计划 1. 钨丝计划的产生的原因 2. 钨丝计划内幕详解一:“钨丝计划”产生的本质原因 1, Spark作为一个一体化多元化的(大)数据处理通用平台,性能一直是其根本性的追 ...
linux下nc的使用
发送端:cat test.txt | nc -l -p 6666或者nc -l -p 6666 < test.txt 有些版本不要在 -p[监听6666端 ...
c# 文字首字母
public string GetFirstLetter(string hz) { string ls_second_eng = "CJWGNSPGCGNESYPBTYYZDXYKYGTDJ ...
SSM Spring +SpringMVC+Mybatis 整合配置及pom.xml
SSM Spring +SpringMVC+Mybatis 配置及pom.xml SSM框架(spring+springMVC+Mybatis) pom.xml文件 maven下的ssm整合配置步骤
PCL深度图像(2)
(1)点云到深度图与可视化的实现区分点云与深度图本质的区别 1.深度图像也叫距离影像,是指将从图像采集器到场景中各点的距离(深度)值作为像素值的图像.获取方法有:激光雷达深度成像法.计算机立体视觉成 ...
matlab知识点汇集
1.设置图线宽度 set( haxis, 'LineWidth', 1.0 ); ----这是 set函数, 'LineWidth'就是axis的线宽度属性,其值默认为0.5,这里可以改成1.0了 ...
confluence + 禅道安装教程
都是从网上拿的 1. 搭建confluence BE82-LO81-4O25-THDD AAABMQ0ODAoPeJxtkE1rwzAMhu/+FYadXepkYd3AsDQ2rCwfZUkHO7qp ...
成功安装vscode中go的相关插件
让你成功安装vscode中go的相关插件注意:该演示环境是windows环境,linux和mac环境操作思路一样 vscode中有很多go的相关插件,非常好用如下:gocodegopkgsgo-ou ...
e828. 创建JTabbedPane
A tabbed pane is a container that displays only one child component at a time. Typically, the childr ...

sqoop定时增量导入导出

sqoop定时增量导入

sqoop定时增量导入导出的更多相关文章

随机推荐

热门专题