Hive编程指南_学习笔记01

第四章： HQl的数据定义

1：创建数据库

create database financials;

create database if not exists financials;

2: 查看数据库

show databases;

模糊查询数据库

show databases like 'h.*' ;

3：创建数据库改动数据库的默认位置

create database financials localtion '/my/preferred/directory'

4：添加数据库的描写叙述信息

create database financials comment 'holds all financials tables'

5: 显示数据库的描写叙述的信息

describe database financials;

6：添加一些和相关属性的键-值对属性信息

create database financials

with dbproperties ('create'= 'Mark Moneybags', 'data'='2012-12-12');

describe database extended financials;



7:没有命令提示让用户查看当前所在的是那个数据库。能够反复使用use

use financials。

能够通过设置一个属性值来在提示符里面显示当前所在的数据库

set hive.cli.print.current.db = true;

set hive.cli.print.current.db= false;



8:删除数据库

drop database if exists financials;

Hive是不同意删除一个包括表的数据库。

当时假设加上keyword： cascade。就能够了，hive自己主动删除数据库中的表

drop database if exists financials cascade;

9：改动数据库，设置dbproperties键值对属性值

alert database financials set dbproperties('edited-by'='joe dba');

10:创建表：

create table if not exists employees (

name string comment 'employee name',

salary float comment 'employee salary ',

subordinates array<string> comment 'employee name of subordinates ' ,

deductions Map<string,FLOAT>,

address struct<street:string,city:string,state:String,zip：int>

)

comment ' description of the table '

tblproperties ('creater'= 'me', 'created_at'='2012-12-12');

location '/user/hive/warehouse/mydb.db/employees'



-- tblproperties 的主要作用是：按键-值对的格式为表添加额外的文档说明



11: 列举某个表的tblproperties 属性信息

show tblproperties employees;

12：拷贝表

create table if not exists mydb.employees2 like mydb.employees2

13：选择数据库

use mydb

显示表

show tables;

show tables IN mydb;

14：查看这个表的具体结果信息

describe extended mydb.employees

使用formatted keyword取代 extended

describe formatted mydb.employees

15：管理表：内部表：删除表时，会删除这个表的数据

创建一个外部表：其能够读取全部位于/data/stocks文件夹下的以逗号切割的数据

create external table if not exists stocks(

exchange string,

symbol string,

ymd String,

price_open float,

price_hight float,

price_low float,

price_close float,

volume int,price_adj_close float)

row format delimited fields terminated by ','

location '/data/stocks'

16：查看表是否是管理表还是外部表

describe extended tablename

输出信息：

tableType.managed_table--管理表

tableType.external_table--外部表

-- 复制表但不会复制数据

create table if not exists mydb.employees3(新表)

like mydb.employees2(原表) location '/data/stocks'

17：创建分区表

create table employees (

name string,

salary float,

subordinates array<string>,

deductions Map<string,FLOAT>,

address struct<street:string,city:string,state:String,zip：int>

)

partitioned by (country String,state string);

分区自段：

country String,state string 和普通字段一样。相当于索引字段。

依据分区字段查询，提交效率。提高查询性能



18： set hive.mapred.mode=strict;

假设对分区表进行查询而where子句没有加分区过滤的话，

将会禁止提交这个任务。

能够设置为：nostrict



19：查看表中存在的全部分区

show partitions employees;

20：查看是否存储某个特定分区键的分区的话

show partitions employees partition(country='US');

describe extended employees 命令也会显示分区键

管理大型生产数据集最常见的情况：使用外部分区表

21：在管理表中用户能够通过加载数据的方式创建分区：

load data local inpath '/home/hive/California-employees'

INTO table employees

partition(country='US',state='CA');

hive 将会创建这个分区相应的文件夹..../employees/country=US/state=CA

22:创建外部分区表

create table if not exists log_messages (

hms int,

severity string,

server string,

process_id int,

message string

)

partitioned by (year int,month int,day int)

row format delimited fields terminated by '\t'

1:order by 会对输入做全局排序

2: sort能够控制每一个reduce产生的文件都是排序。再对多个排序的好的文件做二次归并排序。

sort by 特点例如以下：

1) . sort by 基本受hive.mapred.mode是否为strict、nonstrict的影响，但若有分区须要指定分区。

2). sort by 的数据在同一个reduce中数据是按指定字段排序。

3). sort by 能够指定运行的reduce个数，如：set mapred.reduce.tasks=5 ,对输出的数据再运行归并排序。即能够得到所有结果。

结果说明：严格模式下，sort by 不指定limit 数，能够正常运行。

sort by 受hive.mapred.mode=sctrict 的影响较小。

3:distribute by

distribute by 是控制在map端怎样拆分给reduce端。

依据distribute by 后面的列及reduce个数进行数据分发，默认採用hash算法。distribute能够使用length方法会依据string类型的长度划分到不同的reduce中。终于输出到不同的文件里。 length 是内建函数，也能够指定其它的函数或这使用自己定义函数。

4: cluster by

cluster by 除了distribute by 的功能外，还会对该字段进行排序，所以cluster by = distribute by +sort by

Hive编程指南_学习笔记01的更多相关文章

《高质量C++&C 编程指南》学习笔记
这本电子书是在国科大上课时候,老师在课件资源里边提供的.之所以会重视这个文件,是因为本科时候,有个老师提到过:那个学生遍的代码很整齐,看起来让人舒服,我就知道工大留不下他.因此,我就格外注意这件事,但 ...
《Hive编程指南》读书笔记 | 一文看懂Hive的数据类型和文件格式
Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型. 和大多数数据库相比,Hive具有一个独特的功能,那就是其对于数据在文件中的编码方式具有非常大的灵活 ...
javascriptDOM编程艺术_学习笔记_知识点动态创建标记
传统技术:document.write 和 innerHTML 深入剖析DOM方法:createElement.createTextNode.appendChild 和 insertBefore ...
javascriptDOM编程艺术_学习笔记_知识点 DOM
第三章 getElementById 返回一个与那个有着给定id属性值的元素节点对应的对象. document.getElementById(id) 下面一个例子: document.get ...
软件测试之loadrunner学习笔记-01事务
loadrunner学习笔记-01事务<转载至网络> 事务又称为Transaction,事务是一个点为了衡量某个action的性能,需要在开始和结束位置插入一个范围,定义这样一个事务. 作 ...
SaToken学习笔记-01
SaToken学习笔记-01 SaToken版本为1.18 如果有排版方面的错误,请查看:传送门 springboot集成根据官网步骤maven导入依赖 <dependency> < ...
hive编程指南--employees表数据定义
hive编程指南中有个employees表,默认的分隔符比較繁杂,编辑起来不太方便(普通编辑器编辑的控制字符^A等被当成字符串处理了,没有起到分隔符的作用). 收集的解决方式例如以下: http:// ...
《jQuery权威指南》学习笔记之第2章 jQuery选择器
2.1 jQuery选择器概述 2.1.1 什么使选择器 2.1.2 选择器的优势: 代码更简单,完善的检测机制 1.代码更简单示例2-1 使用javascript实现隔行变色 < ...
《JavaScript面向对象编程指南》读书笔记②
概述 <JavaScript面向对象编程指南>读书笔记① 这里只记录一下我看JavaScript面向对象编程指南记录下的一些东西.那些简单的知识我没有记录,我只记录几个容易遗漏的或者精彩的 ...

随机推荐

Unity3D摄像机尾随人物
这里的镜头主要是从人物的背后尾随的. 首先新建一个C#脚本,命名为MyFollow,然后把下面代码粘贴进去.保存: using UnityEngine; using System.Collection ...
HDU 4912 lca贪心
Paths on the tree Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Othe ...
ZOJ 3633 Alice's present RMQ
Alice's present Description As a doll master, Alice owns a wide range of dolls, and each of them ha ...
java 用JNA调用dll 参考文档
1 Java调用C语言动态库(JNA方式):回调函数.结构体数组传参.结构体数组返回 2jna结构体数组 JNA结构体数组 3JNA调用C语言动态链接库学习实践总结 4 Java 通过 JNA 调 ...
NEU 1006 Intermediary
1006: Intermediary 时间限制: 1 Sec 内存限制: 128 MB提交: 261 解决: 25[提交][状态][讨论版] 题目描述 It is widely known tha ...
Java-MyBatis-杂项： MyBatis 中 in 的用法2
ylbtech-Java-MyBatis-杂项: MyBatis 中 in 的用法2 1.返回顶部 1. 一.简介在SQL语法中如果我们想使用in的话直接可以像如下一样使用: select * fr ...
wamp openssl
在这一章节里, 我记录了一下如何在 wamp 环境下配置 ssl 前提条件在设置 Apache + SSL 之前, 需要确认 Apache 已经安装并可以正常工作. 并且 ssl 需要的文件在如下的 ...
IPv6系列-入门指南
本文是<IPv6系列>文章的第一篇<入门指南>,用于快速了解并上手IPv6. 小慢哥的原创文章,欢迎转载目录 ▪ 一. 为什么要了解IPv6 ▪ 二. 顾虑:IPv6地址太复 ...
SparkSQL 与 Spark Core的关系
不多说,直接上干货! SparkSQL 与 Spark Core的关系 Spark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL). Spark SQL在Spark C ...
APUE学习笔记5——信号、信号集和进程信号屏蔽字
1 信号传递过程当引发信号的事件发生时(如软硬件异常.软件定时.终端产生信号或调用kill函数等等),会产生信号,内核会发送给目标进程. 在信号产生到信号传递给目标进程之间的时间间隔内,称该信号为未 ...

Hive编程指南_学习笔记01

Hive编程指南_学习笔记01的更多相关文章

随机推荐

热门专题