大数据备忘录———将数据从oracle导入impala中

上周遇到了将数据从oracle导入到impala的问题，这个项目耽误了我近一周的时间，虽然是种种原因导致的，但是还是做个总结。

需求首先是跑数据，跑数据这个就不叙述，用的是公司的平台。

讲讲耽误我最久的事吧数据的导入导出。

将数据从oracle导出

PLSQL直接导出

我这边连接公司的orcle数据库是PLSQL，本身PLSQL就是可以可以导出数据的，而且很简单。

PLSQL在select后就能导出表的数据，能到处成csv、sql、xml等等。

但是这方法最后还是被舍弃了，有几个原因：

1.这种导出方法很慢，我导出200M的csv数据需要40分钟

2.数据导出有限制，这种方法好像最多只能导出104w数据，但是需求是需要导出1亿两千万的数据，很明显是不可以的。

注：中间我考虑过按分区导出数据，因为这个表是按时时间分了分区，然后发现还是不行，因为数量还是太大了，30天的数据平均下来每个还是有400w，最后放弃了

事实证明这个方法不是很好用，导出几百、几天还行。多了就不行了。

使用oracle的内建包UTL_FILE

第二种用orcle里面用utl_file读写文件包，每分钟大约处理百万行。适用于大量导出时。

一、首先需要新建一个存储过程

 CREATE

 OR REPLACE PROCEDURE SQL_TO_CSV (

     P_QUERY IN VARCHAR2,-- PLSQL文

     P_DIR IN VARCHAR2,-- 导出的文件放置目录

     P_FILENAME IN VARCHAR2 -- CSV名

 ) IS L_OUTPUT UTL_FILE.FILE_TYPE;

 L_THECURSOR INTEGER DEFAULT DBMS_SQL.OPEN_CURSOR;

 L_COLUMNVALUE VARCHAR2 (4000);

 L_STATUS INTEGER;

 L_COLCNT NUMBER := 0;

 L_SEPARATOR VARCHAR2 (1);

 L_DESCTBL DBMS_SQL.DESC_TAB;

 P_MAX_LINESIZE NUMBER := 32000;

 BEGIN

     --OPEN FILE

     L_OUTPUT := UTL_FILE.FOPEN (

         P_DIR,

         P_FILENAME,

         'W',

         P_MAX_LINESIZE

     );

 --DEFINE DATE FORMAT

 EXECUTE IMMEDIATE 'ALTER SESSION SET NLS_DATE_FORMAT=''YYYY-MM-DD HH24:MI:SS''';

 --OPEN CURSOR

 DBMS_SQL.PARSE (

     L_THECURSOR,

     P_QUERY,

     DBMS_SQL.NATIVE

 );

 DBMS_SQL.DESCRIBE_COLUMNS (

     L_THECURSOR,

     L_COLCNT,

     L_DESCTBL

 );

 --DUMP TABLE COLUMN NAME

 FOR I IN 1 ..L_COLCNT

 LOOP

     UTL_FILE.PUT (

         L_OUTPUT,

         L_SEPARATOR || '"' || L_DESCTBL (I ).COL_NAME || '"'

     );

 --输出表字段

 DBMS_SQL.DEFINE_COLUMN (

     L_THECURSOR,

     I,

     L_COLUMNVALUE,

     4000

 );

 L_SEPARATOR := ',';

 END

 LOOP

 ;

 UTL_FILE.NEW_LINE (L_OUTPUT);--输出表字段

 --EXECUTE THE QUERY STATEMENT

 L_STATUS := DBMS_SQL. EXECUTE (L_THECURSOR);

 --DUMP TABLE COLUMN VALUE

 WHILE (

     DBMS_SQL.FETCH_ROWS (L_THECURSOR) > 0

 )

 LOOP

     L_SEPARATOR := '';

 FOR I IN 1 ..L_COLCNT

 LOOP

     DBMS_SQL.COLUMN_VALUE (

         L_THECURSOR,

         I,

         L_COLUMNVALUE

     );

 UTL_FILE.PUT (

     L_OUTPUT,

     L_SEPARATOR || '"' || TRIM (

         BOTH ' '

         FROM

             REPLACE (L_COLUMNVALUE, '"', '""')

     ) || '"'

 );

 L_SEPARATOR := ',';

 END

 LOOP

 ;

 UTL_FILE.NEW_LINE (L_OUTPUT);

 END

 LOOP

 ;

 --CLOSE CURSOR

 DBMS_SQL.CLOSE_CURSOR (L_THECURSOR);

 --CLOSE FILE

 UTL_FILE.FCLOSE (L_OUTPUT);

 EXCEPTION

 WHEN OTHERS THEN

     RAISE;

 END;

 /

二、创建导出路径

create or replace directory OUT_PATH as 'D:\out_path';

注意：这步只是在oracle sql developer中定义了导出路径，如果路径不存在，并不会自动生成，需要手动去新建！

三、调用数据

EXEC sql_to_csv('select * from <tablename>','OUT_PATH','<filename>');

这种是在网上查到的方法，这边因为最近公司规定不能下载到本地所以没有采用这种方法，但是这种方法测试是可行的，没有具体测试效率。

sqluldr服务器导出数据

第三种是我最后采用的方法

用sqluldr脚本导出到服务上，然后把文件转移到impala的服务器上去。

下载链接链接：https://pan.baidu.com/s/1bRRr-BDQL0yIJJTa16ttTw
提取码：1tns

将sqluldr.rar中文件上传到orcle所在服务器中，然后执行

./sqluldr2_linux64_10204.binuser= query="" field=',' text=txt file='' charset=UTF8;

file='' 是存放路径 charset=编码 user=是orcle数据库地址 query=是导出语句

然后执行效率100w大概40秒左右，速度比较快。

数据上传到impala中

1、将数据从oracle服务器转移到impala所在服务器

2、在hive中建好导出数据的表

CREATE TABLE tmp.tmp_call_orcle_1 (

test string

)

 ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','  --csv分隔符

STORED AS TEXTFILE;  --设置文件为test文件

3、用hdfs命令将数据导入到建好的表中：hdfs dfs -put test.csv /user/hive/warehouse/tmp.db/test

4、将表的读取路径改成hdfs路径

load data inpath '/user/hive/warehouse/tmp.db/tmp_call_orcle_1/tmp_call_orcle_1.csv' into table tmp.tmp_call_orcle_1;

至此就完成了将orcle数据导入impala的操作