Hive分区表的导入与导出

最近在做一个小任务，将一个CDH平台中Hive的部分数据同步到另一个平台中。毕竟我也刚开始工作，在正式开始做之前，首先进行了一段时间的练习，下面的内容就是练习时写的文档中的内容。如果哪里有错误或者疏漏，希望各位网友能够指出。

第一篇：HDFS的上传与下载：https://www.cnblogs.com/BlackString/p/10552553.html

第二篇：Hive中数据的导入与导出：https://www.cnblogs.com/BlackString/p/10552806.html

第四篇：跨平台传输方案：https://www.cnblogs.com/BlackString/p/10553010.html

Hive分区表数据的上传与导出

1. 前言
经过前两篇的练习，我们练习了文件的上传与下载，以及Hive外部表数据的上传与导出。但是很多时候Hive的数据操作不仅仅是外部表，还有可能是对分区表的操作。接下来，就对分区表的数据操作进行练习。

2. 分区表的文件结构

　　1）创建一个分区表，分区字段为country：
　　　　hive> create table tt01(id int, name string) partitioned by(country string);

　　2）插入几条新数据：
　　　　hive> insert into tt01 partition(country='CN') values(1,'LS');
　　　　hive> insert into tt01 partition(country='CN') values(2,'ZS');
　　　　hive> insert into tt01 partition(country='US') values(3,'Alice');
　　　　hive> insert into tt01 partition(country='UK') values(4,'Tom');

　　3）到hive中查看表中的数据：
　　　　hive> select from tt01;
　　　　1 LS CN
　　　　2 ZS CN
　　　　3 Alice US
　　　　4 Tom UK

4）到HDFS中查看test02.db中，tt01文件夹下的文件：
　　　　[root@DataCenter2 aos_dic]# hadoop fs -ls /user/hive/warehouse/test02.db/tt01
　　　　drwxrwxrwt - root hive 0 2019-03-15 10:50 /user/hive/warehouse/test02.db/tt01/country=CN
　　　　drwxrwxrwt - root hive 0 2019-03-15 10:46 /user/hive/warehouse/test02.db/tt01/country=UK
　　　　drwxrwxrwt - root hive 0 2019-03-15 10:45 /user/hive/warehouse/test02.db/tt01/country=US

　　会发现Hive按照分区将数据分别存入了不同的文件夹下。
　　进入某一个分区，查看其中的数据：
　　　　[root@DataCenter2 aos_dic]# hadoop fs -ls /user/hive/warehouse/test02.db/tt01/country=CN
　　　　-rwxrwxrwt 3 root hive 5 2019-03-15 10:43 /user/hive/warehouse/test02.db/tt01/country=CN/000000_0
　　　　-rwxrwxrwt 3 root hive 5 2019-03-15 10:45 /user/hive/warehouse/test02.db/tt01/country=CN/000000_0_copy_1
　　其中发现两个文件，查看其中的内容，会发现每个文件中都存了一条数据。那么，是每条数据都生成一个文件吗？

5）向tt01中插入一条新的数据，分区为“CN”：

　　　　hive> insert into tt01 partition(country='CN') values(5,'WW');
　　到tt01文件夹下，country=CN中查看文件，会发现多出了一个新文件，查看这个新文件，发现其中存储的正是我们新插入的数据：
　　　　[root@DataCenter2 aos_dic]# hadoop fs -cat /user/hive/warehouse/test02.db/tt01/country=CN/000000_0_copy_2
　　　　5WW

3. 创建一个外部分区表
　　接下来，尝试在test02库中建立一个新的外部外部表，并且为其指定分区。
　　如何建立一个外部分区表呢？
　　最初的想法是，按照文件的格式新建一个表，然后指定分区的名称和文件的位置，这样建立的表应该是包含了我所有的数据的。但是在尝试了多次以后发现，Hive并不能自动识别已经建立好的分区。

　　经过查询得知，Hive分区表如果要载入外部分区数据，有两种方式：

　　1）手动指定分区并载入数据，如：
　　　　hive> alter table tt02 add partition (birth='1997') location '/hive> msck repair table tt02;

　　2）修复分区信息，如：
　　　　hive> msck repair table tt02;
　　　　Partitions not in metastore: tt02:birth=1998 tt02:birth=1999
　　　　Repair: Added partition to metastore tt02:birth=1998
　　　　Repair: Added partition to metastore tt02:birth=1999

　　但是以上两种方式并不包含直接建立表载入分区。
　　因此，建立一个外部分区表的步骤是：
　　1）按照文件数据的格式建立字段，并指定分区字段：
　　　　hive> create external table tt02(id int,name string,gender string) partitioned by (birth string) row format delimited fields terminated by ' ' location '/user/hive/warehouse/test02.db/tt02';

　　2）新增分区，或修复分区：
　　　　hive> alter table tt02 add partition (birth='1997') location '/'
　　　　hive> msck repair table tt02;
　　　　Partitions not in metastore: tt02:birth=1998 tt02:birth=1999
　　　　Repair: Added partition to metastore tt02:birth=1998
　　　　Repair: Added partition to metastore tt02:birth=1999

　　3）查看数据：
　　　　hive> select from tt02;
　　　　1 LS m 1997
　　　　2 ZQ m 1997
　　　　3 LG f 1997
　　　　4 ST f 1997
　　　　5 SD m 1997
　　　　…… ……

Hive分区表的导入与导出的更多相关文章

Hive中数据的导入与导出
最近在做一个小任务,将一个CDH平台中Hive的部分数据同步到另一个平台中.毕竟我也刚开始工作,在正式开始做之前,首先进行了一段时间的练习,下面的内容就是练习时写的文档中的内容.如果哪里有错误或者疏漏 ...
2.7-2.8 导入、导出数据(进/出)hive表的方式
一.导入数据进hive表 1.语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (p ...
hive的数据导入与数据导出：（本地，云hdfs，hbase），列分隔符的设置，以及hdfs上传给pig如何处理
hive表的数据源有四种: hbase hdfs 本地其他hive表而hive表本身有两种: 内部表和外部表. 而hbase的数据在hive中,可以建立对应的外部表(参看hive和hbase整合) ...
Hive 导入、导出数据
<------ 导入 ------> 从本地目录文件导入Hive表语法:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABL ...
hive数据的导入导出方式
导入方式 1.load方式 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下应用场景:大部分的使用,文件几 ...
Sqoop_具体总结使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出
一.使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYWFyb25oYWRvb3A=/ ...
hive之数据导入导出
hive数据导入导出一.导入数据4种方式建表语句 create table test( name string, friends array, children map<string, in ...
hive数据库导入与导出
原文连接:https://www.cnblogs.com/654wangzai321/p/9970321.html 把Hive表数据导入到本地 table->local file insert ...
将Hive统计分析结果导入到MySQL数据库表中（一）——Sqoop导入方式
https://blog.csdn.net/niityzu/article/details/45190787 交通流的数据分析,需求是对于海量的城市交通数据,需要使用MapReduce清洗后导入到HB ...

随机推荐

EL有11个隐含对象
EL有11个隐含对象: 隐含对象类型说明 ...
BeautifulReport 实现app UI自动化测试
修改了 BeautifulReport源码中的一些内容<附:BeautifulReport--适用于unittest自动化测试的可视化报告>; 1.生成截图时,原来的img文件夹必须在项目 ...
用pdf.js实现在移动端在线预览pdf文件
用pdf.js实现在移动端在线预览pdf文件1.下载pdf.js 官网地址:https://mozilla.github.io/pdf.js/ 2.配置下载下来的文件包,就是一个demo ...
4、网上收集Storm 讲解图
1.Storm与Kafka集成我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的, 而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情 ...
P4174 [NOI2006]最大获利（网络流）
P4174 [NOI2006]最大获利还是最大权闭合子图的题对于每个中转站$k$:$link(k,T,P_k)$ 对于每个用户$i$.中转站$A_i,B_i$.贡献$C_i$ $link(S,i, ...
CSC 172 (Data Structures and Algorithms)
Project #3 (STREET MAPPING)CSC 172 (Data Structures and Algorithms), Spring 2019,University of Roche ...
MySQL安装时MySQL server一直安装失败日志显示This application requires Visual Studio 2013 Redistributable
使用MySQL社区版的msi包进行安装,试了好多次,别的组件都能正常安装,只有MySQL server的安装状态显示为fail.删除所有安装的程序,包括所依赖的各种Microsoft发布的包,删除所有 ...
证明：对于一棵二叉树，若度为2的结点有n2个，叶子结点有n0个，则n0=n2+1
假设二叉树的0度,1度,2度结点数分别为$n_0$,$n_1$,$n_2$,总节点数为$T$ 则按照结点求和有 \[T=n_0+n_1+n_2 (1)\] 按照边求和,因为节点数等于边 ...
linux下ifconfig命令看不到IP centos7——ens33
当前环境VMware15+centos7 在终端输入ifconfig后没有开到IP地址: 解决方法:root用户执行命令 cd /etc/sysconfig/network-scripts/ vi ...
docker run -v参数
挂载目录(直接给例子吧) -v=[]:绑定挂载目录宿主机绑定: -v<host>:<container>:[rw|ro] 在Docker中新建一个共享的卷: -v /< ...

Hive分区表的导入与导出

Hive分区表数据的上传与导出

Hive分区表的导入与导出的更多相关文章

随机推荐

热门专题