使用sqoop将mysql数据导入到hive中

首先准备工具环境：hadoop2.7+mysql5.7+sqoop1.4+hive3.1

准备一张数据库表：

接下来就可以操作了。。。

一、将MySQL数据导入到hdfs

首先我测试将zhaopin表中的前100条数据导出来，只要id、jobname、salarylevel三个字段。

再Hdfs上创建目录

hadoop fs -mkdir -p /data/base　　#用于存放数据

我们cd到sqoop目录下执行命令

# \ 用于换行
bin/sqoop import \

--connect jdbc:mysql://172.18.96.151:3306/zhilian \　　#连接数据库

--username root \　　#用户名

--password 123456 \　　#密码

--query 'select id, jobname, salarylevel from zhaopin  where $CONDITIONS LIMIT 100' \　　#选取表的字段信息

--target-dir /data/base \　　#上传到Hdfs的目录

--delete-target-dir \　　#如果指定文件目录存在则先删除掉

--num-mappers 1 \　　#使用1个map并行任务

--compress \　　#启动压缩

--compression-codec org.apache.hadoop.io.compress.SnappyCodec \　　#指定hadoop的codec方式 默认为gzip

--direct \　　#使用直接导入方式，优化导入速度

--fields-terminated-by '\t'　　#字段之间通过空格分隔

当你看到下面信息，就成了。。。

hadoop fs -ls -R /data/hbase　　#查看目录发现多了两个文件，我们就成功将数据导入到了hdfs

二、将hfds数据导入到Hive

首先我们先在hive中创建一个表，我们直接在默认的库中创建一个表。

drop table if exists default.hive_zhaopin_snappy ;　　#如果存在就先删除

create table default.hive_zhaopin_snappy(

id int,

jobname string,

salarylevel string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;　　#这个地方是标记分割字段的，\t为空格分隔，否则会在导入的hive表中都是NULL.

类似于这样

接下来就是导入环节了，在hive下执行命令：

load data inpath '/data/base/' into table default.hive_zhaopin_snappy ;

查看一下结果：

返回hdfs查看发现，base目录下原有的两个文件少了一个，它被移动到hive的hdfs存储中去了

三、用sqoop直接将mysql数据导入hive中

首先我们再创建一张表

create table default.hive_zhaopin_jingji(

id int,

jobname string,

salarylevel string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;

然后cd到sqoop目录下，执行命令

bin/sqoop import \

--connect jdbc:mysql://172.18.96.151:3306/zhilian \　　#连接mysql必备

--username root \

--password 123456 \

--table zhaopin \　　#要连接的表

--fields-terminated-by '\t' \　　#字段通过空格分隔

--delete-target-dir \　　#如果目录存在就删除

--num-mappers 1 \　　#启动一个Map并行任务

--hive-import \　　#执行导入Hive

--hive-database default \　　#导入到默认的default库

--hive-table hive_zhaopin_jingji　　#导入到hive_zhaopin_jingji表中

执行玩这些，表示没有报错。

查看了一下，数据都是对的。

倘若你的程序每次执行都会卡在job执行的时刻，那么应该是你的yarn-site.xml配置错误，仔细检查一下确保字母没有写错。

OVER。。。

使用sqoop将mysql数据导入到hive中的更多相关文章

使用 sqoop 将mysql数据导入到hive表（import）
Sqoop将mysql数据导入到hive表中先在mysql创建表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` varchar() ...
python脚本用sqoop把mysql数据导入hive
转:https://blog.csdn.net/wulantian/article/details/53064123 用python把mysql数据库的数据导入到hive中,该过程主要是通过pytho ...
使用sqoop把mysql数据导入hive
使用sqoop把mysql数据导入hive export HADOOP_COMMON_HOME=/hadoop export HADOOP_MAPRED_HOME=/hadoop cp /hive ...
Sqoop将mysql数据导入hbase的血与泪
Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...
使用 sqoop 将mysql数据导入到hdfs（import）
Sqoop 将mysql 数据导入到hdfs(import) 1.创建mysql表 CREATE TABLE `sqoop_test` ( `id` ) DEFAULT NULL, `name` va ...
Logstash：把MySQL数据导入到Elasticsearch中
Logstash:把MySQL数据导入到Elasticsearch中前提条件需要安装好Elasticsearch及Kibana. MySQL安装根据不同的操作系统我们分别对MySQL进行安装.我 ...
使用Logstash把MySQL数据导入到Elasticsearch中
总结:这种适合把已有的MySQL数据导入到Elasticsearch中有一个csv文件,把里面的数据通过Navicat Premium 软件导入到数据表中,共有998条数据文件下载地址:https ...
使用sqoop将mysql数据导入到hadoop
hadoop的安装配置这里就不讲了. Sqoop的安装也很简单. 完成sqoop的安装后,可以这样测试是否可以连接到mysql(注意:mysql的jar包要放到 SQOOP_HOME/lib 下): ...
Sqoop1.99.7将MySQL数据导入到HDFS中
准备本示例将实现从MySQL数据库中将数据导入到HDFS中参考文档: http://sqoop.apache.org/docs/1.99.7/user/Sqoop5MinutesDemo.html ...

随机推荐

PyQt（Python+Qt）学习随笔：信号签名（signature of the signal)是什么？
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址 1.概念解释函数签名:由函数的参数个数与其类型组成.函数在重载时,利用函数签名的不同即参数个数与类 ...
索引优化之Explain 及慢查询日志
索引:本质是数据结构,简单理解为:排好序的快速查找数据结构,以索引文件的形式存储在磁盘中.目的:提高数据查询的效率,优化查询性能,就像书的目录一样.优势:提高检索效率,降低IO成本:排好序的表,降低C ...
Kubernetes-21：Apiserver等证书修改使用年限
Kubernetes证书使用年限修改方法 Kubernetes的apiservice.crt证书默认只有一年的使用期限,查看方法: cd /etc/kubernetes/pki [root@Cen ...
anaconda 配置虚拟环境
工作时有时候会遇到不同版本的问题,比如深度学习tensorflow 1.14版本和 2.0版本,或者cpu版本和gpu版本,那么这个时候建立虚拟环境就很方便了 anaconda命令行下 1) act ...
网络QoS的平衡之道——音视频弱网对抗策略介绍
作者:网易智企云信资深音视频引擎开发工程师王兴鹤随着AI和5G的到来,音视频应用将变得越来越广泛,人们对音视频的品质需求也越来越高,视频分辨率已经从高清发展为超高清.VR,视频帧率也已出现60fp ...
如何建一个SAM
部分改编自OI WIKI 先从一个简单的问题入手: 给定一个串,构造一个图,使其能够表示它的所有子串. 显然一个子串就是一个后缀的前缀.所以一个很显然的方式就是把所有后缀扔进trie里. 比如当前串是 ...
题解-CF1139D Steps to One
题面 CF1139D Steps to One 一个数列,每次随机选一个 \([1,m]\) 之间的数加在数列末尾,数列中所有数的 \(\gcd=1\) 时停止,求期望长度 \(\bmod 10^9+ ...
题解-CF1239D Catowice City
CF1239D Catowice City 有 \(n\) 个人和 \(n\) 只猫.有 \(m\) 对人猫友谊,即第 \(u_i\) 个人认识第 \(v_i\) 只猫,保证第 \(i\) 个人和第 ...
JavaSE21-网络编程
1.网络编程入门 1.1 网络编程概述计算机网络是指将地理位置不同的具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统,网络管理软件及网络通信协议的管理和协调下,实现资源共 ...
JavaSE04-Switch&循环语句
1.Switch 格式: 1 switch (表达式) { 2 case 1: 3 语句体1; 4 break; 5 case 2: 6 语句体2; 7 break; 8 ... 9 default: ...

使用sqoop将mysql数据导入到hive中

使用sqoop将mysql数据导入到hive中的更多相关文章

随机推荐

热门专题