hive

1 table

查看 表
show tables;
查看表结构
desc table_name;

2 database 默认 default

创建database
create database_name;
查看 database
show databases;
使用 database
use database_name;
删除 database
drop database_name;

3 托管表

使用场景,数据的所有处理都由HIVE完成

创建表托管表
create table POI(id STRING,city STRING,name STRING,lon DOUBLE,lat DOUBLE,address STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
载入数据(将本地数据移动到 hdfs:/user/hive/warehourse,注意关键字 LOCAL)
LOAD DATA LOCAL INPATH '/tmp/hive.data' OVERWRITE INTO TABLE poi;
查看数据
select * from poi limit 10;
select count(id) from poi;
删除表
drop table POI

4 外部表
使用场景,如果要用HIVE和其他工具来处理同一个数据集,应该使用外部表

创建外部表 (创建 hdfs:/user/hive/external_talbe)
create external table external_table (dummy STRING) LOCATION '/user/hive/external_talbe' ;
载入数据 (将数据拷贝到 hdfs:/user/hive/external_talbe,)
LOAD DATA LOCAL inpath '/tmp/dummy.txt' into table external_table;
删除表(只会删除元数据,hdfs:/user/hive/external_talbe中数据无变化)
drop table external

5 分区
对表进行划分,分区在创建表时由PARTITIONED BY 子句定义。

创建表
create table logs(ts BIGINT ,line STRING) PARTITIONED BY (dt STRING,country STRING);
载入数据
LOAD DATA LOCAL INPATH '/tmp/partition.data' INTO TABLE logs PARTITION (dt='2010-01-02',country='CN');
查看数据
select * from logs where dt='2010-01-01';

文件存储结构
/user/hive/warehouse/logs
/user/hive/warehouse/logs/dt=2010-01-02
/user/hive/warehouse/logs/dt=2010-01-02/country=CN
/user/hive/warehouse/logs/dt=2010-01-02/country=CN/partition.data

6 分桶
获取更高的查询处理效率,map端连接
取样更高效

创建表
create table bucketed_poi(id STRING,city STRING,name STRING,lon DOUBLE,lat DOUBLE,address STRING) clustered by (id) sorted by(id asc ) into 4 buckets;
导入数据据
insert overwrite table bucketed_poi select * from poi;
取样
hive> select * from bucketed_poi tablesample (bucket 1 out of 4 on id);
hive> select * from bucketed_poi tablesample (bucket 1 out of 4 on rand());//未分桶

文件存储结构

/user/hive/warehouse/bucketed_poi
/user/hive/warehouse/bucketed_poi/000000_0
/user/hive/warehouse/bucketed_poi/000001_0
/user/hive/warehouse/bucketed_poi/000002_0
/user/hive/warehouse/bucketed_poi/000003_0

7 多表插入

FROM SOURCE
INSERT OVERWRITE TABLE TARGET1
SELECT C1,COUNT(C1), GROUPBY C1
INSERT OVERWRITE TABLE TARGET2
SELECT C2,COUNT(C2), GROUPBY C1
INSERT OVERWRITE TABLE TARGET3
SELECT C3,COUNT(C3), GROUPBY C3

8 表修改
重命名表,数据存放目录会改变
ALTER TABLE SOURCE RENAME TO TARGET;
添加列
ALTER TABLE SOURCE ALL COLUMNS (C8 STRING);

9 排序

全排序,解决只有一个reduce
FROM SOURCE
SELECT year,temperature
DISTRIBUTE BY year
SORT BY year ASC,temperature DESC;

10 连接

内连接,HIVE 只支持等值连接、只允许在FROM中出现一个表
SELECT a.* ,b.* FROM a join b on (a.bid = b.aid);
外连接 左外连接,右外连接,全外连接
SELECT a.* ,b.* FROM a LEFT|RIGTH|FULL OUTER JOIN b ON (a.bid = b.aid);
半连接
SELECT * FROM A LEFT SEMI JOIN B ON (A.id = b.id);
类是于 IN
SELECT * FROM A WHERE A.ID IN (SELECT id FROM B);

11 子查询
只支持子查询的出现在SELECT 语句的FROM 子句中

HIVE 简单总结的更多相关文章

  1. HIVE简单操作

    1.hive命令登录HIVE数据库后,执行show databases;命令可以看到hive数据库中有一个默认的default数据库. [root@hadoop hive]# hive Logging ...

  2. Hive入门笔记---1.Hive简单介绍

    1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案.由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性.这是来自官方的解 ...

  3. hive简单的项目实战

    解压user.zip [root@hadoop1 test]# unzip user.zip -d /test/bigdatacase/dataset Archive: user.zip inflat ...

  4. Hive简单优化;workflow调试

    1. 定义job名字 SET mapred.job.name='customer_rfm_analysis_L1'; 这样在job任务列表里可以第一眼找到自己的任务. 2. 少用distinct, 尽 ...

  5. Hive简单安装

    数据库的创建 Hive1版本 在此之前要安装好JDK,HADOOP,下载解压Hive 在root下安装mysql:yum install mysql-server mysql-client //一般M ...

  6. Hive简单编程实践-词频统计

    一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.ed ...

  7. Hive—简单窗口分析函数

    hive 窗口分析函数 : jdbc:hive2:> select * from t_access; +----------------+---------------------------- ...

  8. hive简单学习---1

    ---------------------------------------------------------------------------------------------------- ...

  9. hive简单数据分析

    简单查询分析 select brand_id from user_log limit 10; -- 查看日志前10数据 好像也没啥,和SQL相同,,limit取前多少条  , as取别名 查询条数统计 ...

随机推荐

  1. IOS 基于TCP的socket通信详解(原创)

    最近在整理通信层相关知识,这篇文章是边整理边写的,有些地方可能不够准确,还请各位路过的大牛专家指出来.这次整理的socket通信是基于TCP的,实现方式是GCD形式,以下记录的都是些理论知识,方便自己 ...

  2. live555—VS2010/VS2013 下live555编译、使用及测试(转载)

    Ⅰ live555简介 Live555 是一个为流媒体提供解决方案的跨平台的C++开源项目,它实现了对标准流媒体传输协议如RTP/RTCP.RTSP.SIP等 的支持.Live555实现了对多种音视频 ...

  3. JQUERY 轮播插件

    闲来无事,写个轮播插件,项目中用到的时候就无需在写了,不然会累死宝宝的 废话少说 代码上 html部分 <div class="lunbo"> <ul> & ...

  4. concurrent实用类

    improt java.util.concurrent.atomic.AtomicLong; import java.util.concurrent.RejectedExecutionHandler; ...

  5. 一个挺好用的任务提示小软件 Rainlendar2

    Rainlendar2 可以把任务列出来放到桌面上.

  6. python修炼6

    文件操作 注:不能把open语句放在try块里,因为当打开文件出现异常时,文件对象file_object无法执行close()方法. 1.打开文件 (相当于桌面的快捷方式)f=open(文件名,模式默 ...

  7. icon的使用

    在前端页面设计时,不免使用的就是图标,下面就我使用图标icon分享一下经验 1.icon插件,现在比较好的是bootstrap自带的,fontawesome,链接地址:http://fontaweso ...

  8. JS实现点击弹出对应的索引

    如果这样写的话 ,弹出来一直是2,原因 这个i ,循环已经结束,i 的值已经是2了,所以需要再前面添加: items[i].index=i;    //添加一个属性  ,技术一下 这个索引值 aler ...

  9. AUC计算方法总结

    一.roc曲线 1.roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性. 横轴:负正类率(false pos ...

  10. 友元(友元函数、友元类和友元成员函数) C++

    有些情况下,允许特定的非成员函数访问一个类的私有成员,同时仍阻止一般的访问,这是很方便做到的.例如被重载的操作符,如输入或输出操作符,经常需要访问类的私有数据成员. 友元(frend)机制允许一个类将 ...