Sqoop-将MySQL数据导入到hive orc表

sqoop创建并导入数据到hive orc表

sqoop import \

--connect jdbc:mysql://localhost:3306/spider \

--username root --password 1234qwer \

--table org_ic_track --driver com.mysql.jdbc.Driver \

--create-hcatalog-table \

--hcatalog-database spider_tmp \

--hcatalog-table org_ic_track \

--hcatalog-partition-keys batch \

--hcatalog-partition-values  \

--hcatalog-storage-stanza 'stored as orc tblproperties ("orc.compress"="SNAPPY")' \

-m

查看表结构

CREATE TABLE `org_ic_track`(

`id` int,

`info_id` int,

`company` varchar(),

`company_url` varchar(),

`invest_date` varchar(),

`invested_company` varchar(),

`invested_ratio` varchar(),

`update_time` string)

PARTITIONED BY (

`batch` string)

ROW FORMAT SERDE

'org.apache.hadoop.hive.ql.io.orc.OrcSerde'

STORED AS INPUTFORMAT

'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'

OUTPUTFORMAT

'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'

LOCATION

'hdfs://hadoop1:8020/home/hive/warehouse/spider_tmp.db/org_ic_track'

TBLPROPERTIES (

'orc.compress'='SNAPPY',

'transient_lastDdlTime'='')

sqoop导入数据到已存在的hive orc表

sqoop import \

--connect jdbc:mysql://localhost:3306/spider \

--username root --password 1234qwer \

--table org_ic_track --driver com.mysql.jdbc.Driver \

--hcatalog-database spider_tmp \

--hcatalog-table org_ic_track \

--hcatalog-partition-keys batch \

--hcatalog-partition-values  \

-m

sqoop导入数据（query）到已存在的hive orc表

sqoop import \

--connect jdbc:mysql://localhost:3306/spider \

--username root --password 1234qwer \

--query "select * from org_ic_track where update_time between '2019-04-01 21:16:04' and '2019-04-01 21:16:05' and \$CONDITIONS" \

--driver com.mysql.jdbc.Driver \

--hcatalog-database spider_tmp \

--hcatalog-table org_ic_track \

--hcatalog-partition-keys batch \

--hcatalog-partition-values  \

-m

字段说明

connect    JDBC连接信息

username    JDBC验证用户名

password    JDBC验证密码

table    要导入的源表名

driver    指定JDBC驱动

create-hcatalog-table    指定需要创建表，若不指定则默认不创建，注意若指定创建的表已存在将会报错

hcatalog-database    目标库

hcatalog-table    目标表名

hcatalog-storage-stanza    指定存储格式，该参数值会拼接到create table的命令中。默认：stored as rcfile

hcatalog-partition-keys    指定分区字段，多个字段请用逗号隔开（hive-partition-key的加强版）

hcatalog-partition-values    指定分区值，多分区值请用逗号隔开（hive-partition-value的加强）

注：若不指定字段类型，MySQL中的varchar数据抽取至hive中也会是varchar类型，但是varchar类型在hive中操作会出现各种问题

　　1.抽取时长文本、含有特殊字符的文本抽取不全

　　2.hive操作orc表varchar类型的字段造成乱码

解决：抽取数据时指定字段类型

-map-column-hive company=String,company_url=String

Sqoop-将MySQL数据导入到hive orc表的更多相关文章

使用 sqoop 将mysql数据导入到hive表（import）
Sqoop将mysql数据导入到hive表中先在mysql创建表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` varchar() ...
使用sqoop将mysql数据导入到hive中
首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了... 一.将MySQL数据导入到hdfs 首先我测试将zhaopin表 ...
使用sqoop把mysql数据导入hive
使用sqoop把mysql数据导入hive export HADOOP_COMMON_HOME=/hadoop export HADOOP_MAPRED_HOME=/hadoop cp /hive ...
Sqoop将mysql数据导入hbase的血与泪
Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...
使用 sqoop 将mysql数据导入到hdfs（import）
Sqoop 将mysql 数据导入到hdfs(import) 1.创建mysql表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` va ...
python脚本用sqoop把mysql数据导入hive
转:https://blog.csdn.net/wulantian/article/details/53064123 用python把mysql数据库的数据导入到hive中,该过程主要是通过pytho ...
Logstash学习之路（四）使用Logstash将mysql数据导入elasticsearch（单表同步、多表同步、全量同步、增量同步）
一.使用Logstash将mysql数据导入elasticsearch 1.在mysql中准备数据: mysql> show tables; +----------------+ | Table ...
sqoop将mysql数据导入hbase、hive的常见异常处理
原创不易,如需转载,请注明出处https://www.cnblogs.com/baixianlong/p/10700700.html,否则将追究法律责任!!! 一.需求: 1.将以下这张表(test_ ...
使用sqoop将mysql数据导入到hadoop
hadoop的安装配置这里就不讲了. Sqoop的安装也很简单. 完成sqoop的安装后,可以这样测试是否可以连接到mysql(注意:mysql的jar包要放到 SQOOP_HOME/lib 下): ...

随机推荐

分布式服务框架：Zookeeper简介
分布式服务框架:Zookeeper(分布式系统的可靠协调系统) 本文导读: 1 Zookeeper概述 2 Zookeeper总体结构 ——逻辑图.运转流程.特点.优点.数据结构 3 Zookeepe ...
【BZOJ4592】[Shoi2015]脑洞治疗仪线段树
[BZOJ4592][Shoi2015]脑洞治疗仪 Description 曾经发明了自动刷题机的发明家SHTSC又公开了他的新发明:脑洞治疗仪--一种可以治疗他因为发明而日益增大的脑洞的神秘装置. ...
Scrapy命令和备注
Scrapy命令和备注 1.创建一个新项目(命令行) project是项目名 scrapy startproject <project_name> 2.调试项目(pycharm) 在pyc ...
【IDEA】本地新建Maven项目+配置Git和GitHub+代码上传和拉取到GitHub+其他IDEA和GitHub实战
一.本地新建Maven项目并启动成功 1. 按照IDEA提供的模板,构建一个maven webapp的模板项目. 一路Next,到最后的finish.如下图. 2. 新建Tomcat,启动刚建立的项目 ...
Powershell计算时间间隔（New-TimeSpan）
在Windows PowerShell里New-TimeSpan cmdlet提供了一种方法做日期算法. 计算时间间隔: 这个命令告诉你今天的日期与2006年除夕之间的天数: New-TimeSpan ...
django中的setting全局变量的导入
需求:在py文件中导入settings.py中的变量BASE_DIR settings.py文件 import os # Build paths inside the project like thi ...
我的Android进阶之旅------>关于android:layout_weight属性的详细解析
关于androidlayout_weight属性的详细解析效果一效果二图3的布局代码图4的布局代码效果三图7代码图8代码效果四效果五版权声明:本文为[欧阳鹏]原创文章,欢迎转载,转 ...
action接收请求参数
一.采用基本类型接收请求参数(get/post)在Action类中定义与请求参数同名的属性,struts2便能接收自动接收请求参数并赋给同名属性. action的代码: public class Pa ...
006-虚拟机中centos7实现nat静态ip上网
1.设置虚拟机网卡VMnet8 2.修改虚拟机参数 (1).点击编辑-->虚拟网络编辑器,如下图设置 (2)nat设置如下[使用默认即可,记住网关.掩码等,非常重要,因为在centos里面要设置 ...
JAVA 读取txt文件内容
原文地址https://www.cnblogs.com/xing901022/p/3933417.html 通常,我们可以直接通过文件流来读取txt文件的内容,但有时可能会出现乱码!此时只要设置一下文 ...

Sqoop-将MySQL数据导入到hive orc表

sqoop创建并导入数据到hive orc表

sqoop导入数据到已存在的hive orc表

sqoop导入数据（query）到已存在的hive orc表

字段说明

Sqoop-将MySQL数据导入到hive orc表的更多相关文章

随机推荐

热门专题