【Hadoop】HIVE 数据表使用

3 使用

3.1 数据导入

3.1.1 可以使用命令行导入，也可以直接上传到HDFS的特定目录

3.1.2 格式问题

3.1.2.1 缺失/不合法字段默认值为NULL

3.1.2.2 最好数据是格式化的，不要缺失字段

3.1.3 从HDFS其他目录导入

3.1.3.1 hadoop fs -put order_ext.txt / load data inpath '/order_ext.txt' into table tbl_order;

3.1.3.2 自动移动数据到HDFS特定目录

3.2 数据表类型

3.2.1 MANAGED

3.2.1.1 默认TABLE类型

3.2.1.2 DROP

3.2.1.2.1 数据删除，整个目录删除

3.2.2 EXTERNAL

3.2.2.1 不要求数据放在特定目录，不影响业务系统的持续运行

3.2.2.2 示例

3.2.2.2.1 hadoop fs -mkdir -p /hive_ext hadoop fs -put order_ext.txt /hive_ext //////////////////////////////////////////////////////////////////////////////////////////////////////// create external table tbl_order_ext(id int, name string, size string, price double) row format delimited fields terminated by '\t' location '/hive_ext';

3.2.2.3 EXTERNAL类型TABLE在HDFS上没有新建特定目录，在HIVE的TBLS表中可以查询

3.2.2.4 DROP

3.2.2.4.1 只删除逻辑表(元数据)，数据不删除，不影响业务数据

3.2.3 临时表

3.2.3.1 CREATE AS

3.2.3.1.1 参考

3.2.3.1.1.1 http://blog.chinaunix.net/uid-451-id-3125462.html

3.2.3.1.2 示例

3.2.3.1.2.1 create table tbl_order_ctas as select id,name,price from tbl_order; //////////////////////////////////////////////////////////////////////////////////////////////////////// select * from tbl_order_ctas;

3.2.3.2 INSERT INTO/OVERWRITE

3.2.3.2.1 参考

3.2.3.2.1.1 http://www.cnblogs.com/RoadGY/archive/2011/07/22/2114088.html

3.2.3.2.2 示例

3.2.3.2.2.1 insert into tbl_order_ctas select id,name,price from tbl_order_ext;

3.2.4 PARTITION

3.2.4.1 示例

3.2.4.1.1 create table tbl_order_pt(id int, name string, size string, price double) partitioned by (month string) row format delimited fields terminated by '\t'; //////////////////////////////////////////////////////////////////////////////////////////////////////// load data local inpath 'order_new.txt' into table tbl_order_pt partition(month='201601'); load data local inpath 'order_broken.txt' into table tbl_order_pt partition(month='201602'); //////////////////////////////////////////////////////////////////////////////////////////////////////// select * from tbl_order_pt where month='201602';

【Hadoop】HIVE 数据表使用的更多相关文章

R语言读取Hive数据表
R通过RJDBC包连接Hive 目前Hive集群是可以通过跳板机来访问 HiveServer, 将Hive 中的批量数据读入R环境,并进行后续的模型和算法运算. 1. 登录跳板机后需要首先在Linux ...
数据存入hive数据表之前对.csv（数据集）文件的预处理以及数据的上传
对于数据集文件,在将其中的数据存入hive之前,需要将数据进行预处理. 1.删除文件第一行记录,即字段名称 sed -i '1d' raw_user //1d表示删除第1行,同理,3d表示删除第3行, ...
[Sqoop]将Hive数据表导出到Mysql
业务背景 mysql表YHD_CATEG_PRIOR的结构例如以下: -- Table "YHD_CATEG_PRIOR" DDL CREATE TABLE `YHD_CATEG_ ...
PHP+Hadoop+Hive+Thrift+Mysql实现数据统计分析
原址:http://www.cnblogs.com/wicub/p/6094045.html 安装 Hadoop安装: http://www.powerxing.com/install-hadoo ...
PHP+Hadoop实现数据统计分析
记一次完全独立完成的统计分析系统的搭建过程,主要用到了PHP+Hadoop+Hive+Thrift+Mysql实现安装 Hadoop安装: http://www.powerxing.com/inst ...
Hive数据导入——数据存储在Hadoop分布式文件系统中，往Hive表里面导入数据只是简单的将数据移动到表所在的目录中！
转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop ...
[Hadoop大数据]——Hive部署入门教程
Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的.只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api. ...
[Hadoop大数据]——Hive数据的导入导出
Hive作为大数据环境下的数据仓库工具,支持基于hadoop以sql的方式执行mapreduce的任务,非常适合对大量的数据进行全量的查询分析. 本文主要讲述下hive载cli中如何导入导出数据: 导 ...
从零自学Hadoop(16)：Hive数据导入导出，集群数据迁移上
阅读目录序导入文件到Hive 将其他表的查询结果导入表动态分区插入将SQL语句的值插入到表中模拟数据文件下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并 ...

随机推荐

swiper使用案例一
// 初始化函数 var mySwiper_a = new Swiper('.se3 .left', { direction: 'vertical', loop: true, autoplay: 50 ...
DLP与上网行为管理的差别总结
参考网康和深信服的上网行为管理手册,总结了一下DLP与上网行为管理的差别: DLP与上网行为管理在功能和使用目的上有很大不同.主要体现在: 上网行为管理主要是对用户访问目标URL过滤,应用端口限制,上 ...
Windows转移FSMO角色
转移 FSMO 角色若要使用 Ntdsutil 实用工具转移 FSMO 角色,请按照下列步骤操作:1.登录到基于 Windows 2000 Server 或基于 Windows Server 2003 ...
clips apache配置虚拟主机
>>单个虚拟主机一个一个的配置 1.httpd.conf文件里 Include conf/extra/httpd-vhosts.conf //取消#注释 2.httpd-vhosts.c ...
编写Shell脚本的最佳实践，规范一
随着写的SHELL程序越来越多,发现自己每次写都有不同的习惯或者定义了不同的东西,变量名定义得不一样,整个程序缩进不统一,没有注释等问题,等我回过头看这些程序的时候发现很麻烦.所以写了个shell代码 ...
hdu 5067(暴力搜索)
Harry And Dig Machine Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Ot ...
EntityFramework之迁移操作（五）
使用Code First的话对于实体字段或者表映射修改都需要使用迁移操作,下面列出操作具体步骤 1.创建映射类和实体,本文主要是讲解迁移步骤,其他代码则没有列出 public class Produc ...
EntityFramework之多对多关系（四）
上篇介绍了一对多关系,下面介绍下多对多关系代码编写. 1.新建model实体,User是用户类,Role是角色类,由于是多对多关系,必须得有一个中间类,所以产生了UserRole类 public cl ...
找出数字数组中最大的元素（使用Math.max函数）
从汤姆大叔的博客里看到了6个基础题目:本篇是第1题 - 找出数字数组中最大的元素(使用Match.max函数) 从要求上来看,不能将数组sort.不能遍历.只能使用Math.max,所以只能从java ...
Codeforces Beta Round #91 (Div. 2 Only) A. Lucky Division【暴力/判断是不是幸运数字4，7的倍数】
A. Lucky Division time limit per test 2 seconds memory limit per test 256 megabytes input standard i ...

【Hadoop】HIVE 数据表 使用

【Hadoop】HIVE 数据表 使用的更多相关文章

随机推荐

热门专题

【Hadoop】HIVE 数据表使用

【Hadoop】HIVE 数据表使用的更多相关文章