sqoop操作之ORACLE导入到HIVE

导入表的所有字段

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP \

--hive-import  --create-hive-table --hive-table emp  -m 1;

如果报类似的错:

ERROR tool.ImportTool: Encountered IOException running import job: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory EMP already exists

先去HDFS系统中删除该文件： hadoop fs -rmr /user/hadoop/EMP

如果报类似的错：

FAILED: Error in metadata: AlreadyExistsException(message:Table emp already exists)

如果报类似的错：

hive.HiveImport: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.thrift.EncodingUtils.setBit(BIZ)B

这是因为在同路径下安装了hive和hbase，而hbase和hive的lib目录下的thrift版本不同。
hbase下的为libthrift-0.x.0.jar，hive下的为libthrift-0.x.0.jar。将Hbase下的0.x.0版的删除，换为0.x.0的即可。
ps：不知为什么Sqoop向Hive中导入数据还有Hbase的事；

说明：hive表已经存在，需要先删除。

查看:

desc emp;

empno   double

ename   string

job     string

mgr     double

hiredate        string

sal     double

comm    double

deptno  double

select * from emp;

7369.0  SMITH   CLERK   7902.0  1980-12-17 00:00:00.0   800.0   NULL    20.0

7499.0  ALLEN   SALESMAN  7698.0  1981-02-20 00:00:00.0   1600.0  300.0   30.0

7521.0  WARD    SALESMAN 7698.0  1981-02-22 00:00:00.0   1250.0  500.0   30.0

7566.0  JONES   MANAGER 7839.0  1981-04-02 00:00:00.0   2975.0  NULL    20.0

7654.0  MARTIN  SALESMAN  7698.0  1981-09-28 00:00:00.0   1250.0  1400.0  30.0

……

注：一般情况下不使用--create-hive-table去创建表的，因为它创建的表的字段格式，不符合我们的要求。

导入表的指定字段

手工创建hive表：

create table emp_column(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

)

row format delimited fields terminated by '\t' lines terminated by '\n'

stored as textfile;

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP --columns "EMPNO,ENAME,JOB,SAL,COMM" \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--hive-drop-import-delims --hive-import  --hive-table emp_column \

-m 3;

说明：重新再执行,每重复导入一次，hive中的数据会重复导入。

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP --columns "EMPNO,ENAME,JOB,SAL,COMM" \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--hive-drop-import-delims --hive-overwrite --hive-import --hive-table emp_column \

-m 3;

注：--hive-overwrite指定覆盖表里已经存在的记录，99%都是要使用overwrite的，避免重跑时产生重复数据。

导入表的指定字段到hive分区表

创建hive分区表：

create table emp_partition(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm double,

deptno int

)

partitioned by (pt string)

row format delimited fields terminated by '\t' lines terminated by '\n'

stored as textfile;

导入pt='2013-08-01'

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP --columns "EMPNO,ENAME,JOB,SAL,COMM" \

--hive-overwrite --hive-import  --hive-table emp_partition \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--hive-drop-import-delims --hive-partition-key 'pt' --hive-partition-value '2013-08-01' \

-m 3;

导入pt='2013-08-02'

sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \

--username SCOTT --password tiger \

--table EMP --columns "EMPNO,ENAME,JOB,SAL,COMM" \

--hive-overwrite --hive-import  --hive-table emp_partition \

--fields-terminated-by '\t' --lines-terminated-by '\n' \

--hive-drop-import-delims  --hive-partition-key 'pt' --hive-partition-value '2013-08-02' \

-m 3;

查询：

select * from emp_partition where pt='2013-08-01';

select * from emp_partition where pt='2013-08-02';

sqoop操作之ORACLE导入到HIVE的更多相关文章

sqoop操作之Oracle导入到HDFS
导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \ --username SCOTT --passw ...
sqoop工具从oracle导入数据2
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 ...
使用 sqoop 将mysql数据导入到hive表（import）
Sqoop将mysql数据导入到hive表中先在mysql创建表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` varchar() ...
使用sqoop将mysql数据导入到hive中
首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了... 一.将MySQL数据导入到hdfs 首先我测试将zhaopin表 ...
使用Talend Open Studio将数据分步从oracle导入到hive中
先使用Tos建立模型,将Oracle中的数据导入到本地: build job后,形成独立可以运行的程序: 将生成的zip文件,上传到hadoop集群上,有hive环境的机器上: [hive@h1 wo ...
使用sqoop工具从oracle导入数据
sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入从RDBMS中抽取出的数据可以被Ma ...
sqoop 操作从hdfs 导入到mysql中语句
将hdfs下/dw/dms/usr_trgt下的文件导入到mysql中test数据库下usr_trgt表中 sqoop-export --connect jdbc:mysql://mysqlDB: ...
sqoop导oracle数据到hive中并动态分区
静态分区: 在hive中创建表可以使用hql脚本: test.hql USE TEST; CREATE TABLE page_view(viewTime INT, userid BIGINT, pag ...
使用Sqoop从mysql向hdfs或者hive导入数据时出现的一些错误
1.原表没有设置主键,出现错误提示: ERROR tool.ImportTool: Error during import: No primary key could be found for tab ...

随机推荐

MySQL性能优化方法三：索引优化
原文链接:http://isky000.com/database/mysql-performance-tuning-index 大家都知道索引对于数据访问的性能有非常关键的作用,都知道索引可以提高数据 ...
STM32 RTC时钟的配置
1) 使能电源时钟和备份区域时钟. RCC_APB1PeriphClockCmd(RCC_APB1Periph_PWR | RCC_APB1Periph_BKP, ENABLE); //使能电源时钟和 ...
CF1096.F. Inversion Expectation(树状数组)
A permutation of size n is an array of size n such that each integer from 1 to n occurs exactly once ...
SUST OJ 1671: 数字拼图
1671: 数字拼图时间限制: 1 Sec 内存限制: 16 MB提交: 34 解决: 19[提交][状态][讨论版] 题目描述拼图游戏即在任意一个N*N(N>1)的拼图中,会把一张完整 ...
【问题】PPS、PPSX自动放映格式打开直接进入编辑模式
在做自动放映格式的PPT的时候,发现另存为PPS或PPSX格式后,自动放映无法实现,而是直接进入了PPT编辑模式,于是开始寻找原因.发现是文件关联有问题,这与安装多个版本的ppt有关系. 解决办法: ...
使用python的Paramiko模块登陆SSH
使用python的Paramiko模块登陆SSH paramiko是用Python语言写的一个模块,遵循SSH2协议,支持以加密和认证的方式,进行远程服务器的连接. python的paramiko模块 ...
自制hashmap
package jjj; public class MyHashMap<K, V> { //initialization capacity private int capacity = 1 ...
signal信号
1.signal信号调试 http://hongjiang.info/shell-script-background-process-ignore-sigint/
apache airflow docker 运行简单试用
airflow 是一个编排.调度和监控workflow的平台,由Airbnb开源,现在在Apache Software Foundation 孵化. airflow 将workflow编排为tasks ...
mac os 里的 JAVA_HOME
google了一下,发现了这篇文章Important Java Directories on Mac OS X(https://developer.apple.com/library/content/ ...

sqoop操作之ORACLE导入到HIVE

sqoop操作之ORACLE导入到HIVE的更多相关文章

随机推荐

热门专题