使用sqoop往hdfs中导入数据供hive使用

sqoop import -fs hdfs://x.x.x.x:8020 -jt local --connect "jdbc:oracle:thin:@x.x.x.x:1521:testdb" --username user2 --password user2 --verbose --as-textfile --delete-target-dir -m 1 --query "select * from test_tb
where \$CONDITIONS" --target-dir /tmp/test --null-string '\\N' --null-non-string '\\N' --fields-terminated-by '\001' --lines-terminated-by '\012' --hive-drop-import-delims

此语句将从oracle数据库中查出的内容放到指定的hdfs路径下，此时手动设置列换行符和行换行符，而不是使用 --hive-import 参数，是因为指定该参数之后它还会让你指定 --hive-table参数。而指定 --hive-import 和 --hive-table 之后，sqoop在将查询结果导入到hdfs中之后，会尝试调用执行sqoop的这台机器上的hive命令，然后执行建表语句以及 load data inpath 的语句将导入到hdfs中的内容移动到 hive对应的表的目录下。

但是如果hive开启了kerberos 认证，hive命令是没有权限操作hive的（记得是这样）。所以我们用以上语句只是将数据导入到hdfs中，后续的load data inpath 可以使用beeline等命令执行。而之所以指定 --hive-drop-import-delims，是因为从oracle中查出的值中可能包含hive默认的列分隔符和行分隔符，所以只能做出妥协，使用该参数将值中的列分隔符和行分隔符直接去掉。

列分隔符还好，列分隔符的ascii码是 001(八进制)，含义是SOH(start of headline)，是个不可见字符，平时文本处理时基本不会用到这个字符。但是行分隔符的ascii码是012(八进制)，含义是 line feed/new line，这个在平时处理文本时会经常遇到。

我们设想一种处理方式，那就是模仿csv文件，列分隔符就继续使用 \001，行分隔符继续使用 \012，如果值中有换行，就enclosed by double quote。但似乎看起来 hive的load data inpath 不支持这么高级的解析方式。关于csv的格式定义和hive的load data inpath 详细的处理方式待去查询对应的文档，此处只是提一下。

使用sqoop往hdfs中导入数据供hive使用的更多相关文章

sqoop从hdfs 中导出数据到mysql
bin/sqoop export \ --connect "jdbc:mysql://mini1:3306/study?useUnicode=true&characterEncodi ...
第3节 sqoop：4、sqoop的数据导入之导入数据到hdfs和导入数据到hive表
注意: (1)\001 是hive当中默认使用的分隔符,这个玩意儿是一个asc 码值,键盘上面打不出来 (2)linux中一行写不下,可以末尾加上一些空格和 “ \ ”,换行继续写余下的命令: bi ...
《sqoop实现hdfs中的数据导出至mysql数据库》
报错Access denied for user 'root'@'localhost' (using password: YES) 参考一参考二登陆mysql时,root密码的修改参考帖子h ...
向Hive中导入数据的方式
一.Hive客户端:根据数据源不同划分 1.从本地文件系统中导入数据到hive表中: load data local inpath "path" [OVERWRITE] into ...
sqoop工具从oracle导入数据2
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 ...
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟基础环境 ...
sqoop导入数据到hive
1.1hive-import参数使用--hive-import就可以将数据导入到hive中,但是下面这个命令执行后会报错,报错信息如下: sqoop import --connect jdbc:my ...
使用sqoop从mysql导入数据到hive
目录前言一.使用的导入命令二.遇到的问题及解决 1. 用文本字段进行分区的问题 2. Hadoop历史服务器Hadoop JobHistory没开启的问题 3. 连接元数据存储数据库报错 4 ...
（MySQL里的数据）通过Sqoop Import HDFS 里和通过Sqoop Export HDFS 里的数据到（MySQL）（五）
下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出一.MySQL里的数据通过Sqoop import HDFS 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示. ...

随机推荐

AngularJs 常用指令标签
1.ng-app:告诉Angular他应该管理页面的那一部分,可以放在html元素上也可以放在div等标签上例:<html ng-app="problem"> 2.n ...
Django 的操作
安装: pip install Django 创建django工程 django-admin startproject mysite python manage.py startapp blog / ...
vmware为我们提供了三种网络工作模式，它们分别是：Bridged（桥接模式）、NAT（网络地址转换模式）、Host-Only（仅主机模式）。
原文来自http://note.youdao.com/share/web/file.html?id=236896997b6ffbaa8e0d92eacd13abbf&type=note 我怕链 ...
Django+Celery 执行异步任务和定时任务
celery是一个基于python开发的简单.灵活且可靠的分布式任务队列框架,支持使用任务队列的方式在分布式的机器/进程/线程上执行任务调度.采用典型的生产者-消费者模型,主要由三部分组成: 1. 消 ...
CF718C Sasha and Array 线段树+矩阵加速
正解:线段树解题报告: 传送门! 首先这种斐波拉契,又到了1e9的范围,又是求和什么的,自然而然要想到矩阵加速昂然后这里主要是考虑修改操作,ai+=x如果放到矩阵加速中是什么意思呢QAQ? 那不就 ...
Eclipse设置注释模板和工作空间背景色为豆沙绿
Eclipse Version: Photon Release (4.8.0). 首先上图,根据图上的步骤即可完成注释模板的设置. 1 如何设置eclipse注释模板的日期格式在eclipse的 P ...
caffe中在某一层获得迭代次数的方法以及caffe编译时报错 error: 'to_string' is not a member of 'std'解决方法
https://stackoverflow.com/questions/38369565/how-to-get-learning-rate-or-iteration-times-when-define ...
Android Studio 下载与安装配置
一.下载 Android Studio下载链接:http://www.android-studio.org/ 1.进入安卓中文社区官网进行下载. 2.下载完成. 二.安装与配置环境 1.选择“此电脑” ...
【JMeter】【接口测试】csv参数化，数据驱动，自动化测试
csv参数化,数据驱动首先我们要有一个接口测试用例存放的地方,我们这里用EXCEL模板管理,里面包含用例编号.入参.优先级.请求方式.url等等. 1:新建一个txt文件,命名为sjqd,后缀名 ...
python-面向对象-04_面向对象封装案例
面向对象封装案例目标封装小明爱跑步存放家具 01. 封装封装是面向对象编程的一大特点面向对象编程的第一步 —— 将属性和方法封装到一个抽象的类中外界使用类创建对 ...

使用sqoop往hdfs中导入数据供hive使用

使用sqoop往hdfs中导入数据供hive使用的更多相关文章

随机推荐

热门专题