之前主要研究oracle与mysql,认为hive事实上就是一种数据仓库的框架,也没有太多另类,所以主要精力都在研究hadoop。hbase,sqoop,mahout,近期略微用心看了下hive。事实上hive还是比我想象中好用的多,心里有点点暗爽,不论是与hadoop的衔接,还是在对外查询分析,定期hsql生成报表方面,都很方便。能够不用mapreduce。直接用hive生成报表。

真是方便。

 Hive 提供两者表的两种使用方式,一种是内部表(托管表),第二种就是外部表。
对于两种表的使用场景,最基本的差别就是在于数据的存储位置,假设你没有仅仅是使用hive来调用者部分数据,那索性就用内部表。假设还有其它任务共享这批数据的话。那就用外部表,眼下我就是这么来做划分。

但我更倾向于使用外部表,由于我更在意一种特性就是灵活的拓展性!

外部表能够使用以后可能发生的数据使用上的变更。我一般都使用外部表方式。
外部表的分区:
下面就一个简单的案例来说一下外部表假设进行分区使用:
先上一下数据样本:
渠道 区服  角色名 唯一标识 等级  国家 vip等级 UID 注冊时间 最后登录时间 剩余充值金币  剩余系统金币 充值金消耗 系统金消耗 粮食消耗 镔铁消耗 银币消耗 点券剩余数量  日期
178 XXX_260 凯旋 178_263_1809 33 3 0 34191904 2014-12-05 15:33:23 2014-12-05 17:18:58225 0 0 0 0 0 0 2015-06-07
178 XXX_262 凯旋 178_264_801 33 2 0 34191904 2014-12-06 12:13:03 2014-12-06 14:12:51237 0 0 0 0 0 0 2015-06-07
178 XXX_274 【痴货】 178_276_2131 11 1 0 34308396 2014-12-18 15:39:34 2014-12-18 21:28:38 0 100 0 0 0 0 0 0 2015-06-07
178 XXX_286 七雨1 178_288_859 23 2 0 34016769 2014-12-30 12:46:18 2014-12-30 19:27:21100 0 0 0 0 0 0 2015-06-07
178 XXX_323 丿无极灬南蕾 178_324_1780 29 2 0 34645311 2015-02-04 13:42:59 2015-02-04 20:18:12 0 120 0 0 0 0 0 0 2015-06-07 创建数据库:
create database gcld;
use gcld; 创建分区外部表(依照天进行分区):
create external table gcldlog(coopid string,zoneid string,rolename string,uniquecode string,level string,country string,viplevel string,uid  string,regdate string,lastlogintime string,remain_reg_coin  bigint,remain_sys_coin bigint,cost_reg_coin bigint,cost_sys_coin bigint,cost_food bigint,cost_iron bigint,cost_silvercoin bigint,remain_coupon  bigint,datetime string) partitioned by (dt string)
row format delimited 
   fields  terminated by '\t'
   collection items terminated by '\002'  map keys terminated by  '\003'
   lines terminated by '\n' stored as textfile
  location  '/source/gcld/'; 给外部分区表添加分区:
alter table gcldlog add partition (dt='2015-06-07')  location '2015-06-07';
alter table gcldlog add partition (dt='2015-06-08')  location '2015-06-08';
alter table gcldlog add partition (dt='2015-06-09')  location '2015-06-09'; 往HDFS上传数据,hdfs文件夹结构应该例如以下:
/source/gcld/2015-06-07/xxx.log
/source/gcld/2015-06-08/xxx.log
/source/gcld/2015-06-09/xxx.log 创建分区相应的hdfs文件夹:
hadoop fs -mkdir -p /source/gcld/2015-06-07
hadoop fs -mkdir -p /source/gcld/2015-06-08
hadoop fs -mkdir -p /source/gcld/2015-06-09
将文件上传至hdfs文件夹:
hadoop  fs -put      local_log_dir/2015-06-07.log /source/gcld/2015-06-07/
hadoop  fs -put      local_log_dir/2015-06-08.log /source/gcld/2015-06-08/
hadoop  fs -put      local_log_dir/2015-06-09.log /source/gcld/2015-06-09/ 数据查询(使用分区方式查询):
Logging initialized using configuration in file:/etc/hive/conf.dist/hive-log4j.properties
hive> show databases;
OK
default
gcld
opensdkdb
tmp
Time taken: 1.754 seconds, Fetched: 4 row(s)
hive> use gcld;
OK
Time taken: 0.126 seconds
hive> show tables;
OK
gcldlog
Time taken: 0.114 seconds, Fetched: 1 row(s)
hive> select * from gcldlog t where t.dt='2015-06-08' limit 10;
OK
07073sy xxxx_220      叛逆者  07073sy_228_25641       37      3       0       140958  2015-04-30 09:08:54     2015-05-19 19:27:30590      0       0       0       0       0       0       2015-06-08      2015-06-08
07073sy xxxx_268      平台推广        07073sy_268_7017        18      1       0       13480   2014-12-27 16:38:51     2014-12-29 11:48:21 0       85      0       0       0       0       0       0       2015-06-08      2015-06-08</span>
07073sy xxxx_274      帝一    07073sy_276_147 6       2       0       6037    2014-12-18 10:59:35     2014-12-18 10:59:35     0  150      0       0       0       0       0       0       2015-06-08      2015-06-08</span>
07073sy xxxx_274      ? 青春℡ 07073sy_276_7459        22      2       0       10297   2014-12-19 09:01:54     2014-12-19 11:44:40100      0       0       0       0       0       0       2015-06-08      2015-06-08
07073sy xxxx_274      将军    07073sy_276_8065        2       2       0       11287   2014-12-19 20:01:06     2014-12-19 20:01:06100      0       0       0       0       0       0       2015-06-08      2015-06-08
07073sy xxxx_275      苏小梵丶        07073sy_277_226 18      2       0       10808   2014-12-19 11:07:14     2014-12-19 11:07:14100      0       0       0       0       0       0       2015-06-08      2015-06-08
07073sy xxxx_275      宁小之  07073sy_277_571 6       3       0       11132   2014-12-19 11:48:46     2014-12-19 11:48:46     0  150      0       0       0       0       0       0       2015-06-08      2015-06-08
07073sy xxxx_278      阿杰    07073sy_278_7297        36      1       1       11885   2014-12-21 01:54:01     2014-12-21 11:57:222015-06-08       2015-06-08
07073sy xxxx_273      恩恩额  07073sy_279_2403        18      3       0       12094   2014-12-21 15:21:43     2014-12-22 17:50:17100      0       0       0       0       0       0       2015-06-08      2015-06-08
07073sy xxxx_273      诸葛,无敌      07073sy_279_3152        9       1       0       12137   2014-12-21 17:00:53     2014-12-21 19:09:52 0       150     0       0       0       0       0       0       2015-06-08      2015-06-08
Time taken: 2.428 seconds, Fetched: 10 row(s)

Hive 外部表 分区表的更多相关文章

  1. HIVE外部表 分区表

    HIVE外部表 分区表    外部表        创建hive表,经过检查发现TBLS表中,hive表的类型为MANAGED_TABLE. 在真实开发中,很可能在hdfs中已经有了数据,希望通过hi ...

  2. Hive 外部表的练习(多表关联查询,以及分组,子查询)

    Hive 外部表的练习 hive创建库和表操作 hive加载数据,4种发放 1.数据放在Linux创建表结构 进行加载 2.先定义表结构.将一个查询select语句结果插入到表中 3.数据先放在hdf ...

  3. hive外部表删除遇到的一个坑

    hive外部表删除遇到的一个坑 操作步骤 创建某个表(create external table xxx location xxx) 插入数据(insert xxx select xxx from x ...

  4. hive外部表的建立与数据匹配

    1.建立hive的外部表匹配hdfs上的数据 出现如下报错: hive (solar)> ; OK Failed with exception java.io.IOException:java. ...

  5. Hive 外部表新增字段或者修改字段类型等不生效

    标题比较笼统,实际情况是: 对于Hive 的分区外部表的已有分区,在对表新增或者修改字段后,相关分区不生效. 原因是:表元数据虽然修改成功,但是分区也会对应列的元数据,这个地方不会随表的元数据修改而修 ...

  6. hive 外部表和内部表的区别和相互转换

    Hive内部表和外部表区别 1.创建内部表时,内部表的数据文件是保存在指定的路径的:如若创建外部表,则只记录数据所在的路径,不会对数据位置做改变. 2.删除表的时候,内部表元数据和数据会跟着一起删除. ...

  7. hive -- 外部表、内部表、临时表

    1.外部表 关键字:EXTERNAL 外部表创建时需要指定LOCATION 删除外部表时,数据不被删除 CREATE EXTERNAL TABLE page_view(viewTime INT, us ...

  8. hive外部表

    创建外部表.数据从HDFS获取  只是建立了链接,hdfs中的数据丢失,表中数据也丢失;hdfs数据增加,表中数据也增加 上传文件 创建外部表 删除文件 执行查询语句,发现少了

  9. hive学习笔记之三:内部表和外部表

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

随机推荐

  1. 【支付宝支付】扫码付和app支付,回调验证签名失败问题

    在检查了参数排序,编码解码,文件编码等问题后,发现还是签名失败,最后找出原因: 扫码付和app支付采用的支付宝公钥不一样   Pid和公钥管理里面:   开放平台密钥界面和开放平台应用界面的密钥应该一 ...

  2. (转)Duplicate Symbol链接错的原因总结和解决方法

    duplicate symbol是一种常见的链接错误,不像编译错误那样可以直接定位到问题的所在.但是经过一段时间的总结,发现这种错误总是有一些规律可以找的.例如,我们有如下的最简单的两个类代码: // ...

  3. Knockout v3.4.0 中文版教程-6-计算监控-可写的计算监控

    2.可写的计算监控 初学者可能想要跳过本节 - 可写的计算监控是相当高级的部分,在大多数情况下不是必需的. 通常,计算监控是一个通过其他监控值计算出的值,因此是只读的. 令人惊讶的是,可以使计算监控值 ...

  4. PYDay5- 数据类型set、三元运算、函数

    1.set set集合,是一个无序且不重复的元素集合 class set(object): """ set() -> new empty set object se ...

  5. STM32F407 I2C 个人笔记

    源代码;https://github.com/YuQiao0303/STM32F407-Examples/tree/master/24.IIC 概述 I2C (IIC, Inter-Integrate ...

  6. ActionProxy相关实现类

    package com.opensymphony.xwork2; import com.opensymphony.xwork2.config.Configuration; import com.ope ...

  7. 只操作git(cmd)就可以使用git将项目上传到github

    代码改变世界 使用git将项目上传到github(最简单方法) 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安装git工具, ...

  8. Python 频繁读取Mysql相关问题

    1.需要频繁select大量数据,时间长.消耗内存大,如何解决mysql性能问题? 如果对返回的结果数量没有要求,可以控制返回的数量: cursor.fetchmany(size=1000) 这样是只 ...

  9. Python之Monitor监控线程(干货)

    在日常工作中常遇到这样的情况,我们需要一个监控线程用于随时的获得其他进程的任务请求,或者我们需要监视某些资源等的变化,一个高效的Monitor程序如何使用python语言实现呢?为了解决上述问题,我将 ...

  10. 推荐两个不错的flink项目

    最近flink真是风生水起,但是浪院长看来这不过是阿里错过了创造spark影响力之后,想要在flink领域创建绝对的影响力.但是,不可否认flink在实时领域确实目前来看独树一帜,当然也有它不适合的地 ...