hive Tutorial

hive数据单元按照粒度从大到小，依次为

1、数据库database：可以用show databases; 命令查看所有的数据库，并用use d1; 命令来选中d1数据库，接下来就可以操作d1数据库中的表了。

2、表table：可以用show tables; 命令查看当前库中所有的表。

3、分区partition：每一个表都可以有一个或者多个分区key，这些分区key决定了数据的存储方式。分区，除了作为存储单元外，还允许用户有效地识别满足特定标准的行。分区key的每一个值都定义了该表的一个分区。例如，某表有一个string类型的date_partition和一个string类型的country_partition，则"2009-12-23"中的所有"US"数据属于该表的同一个分区。因此，如果仅对"2009-12-23"的"US"数据进行分析，则只会在表的相关分区上运行查询，从而显著加快分析速度。分区列是虚拟列，它们不是数据本身的一部分，而是在加载时派生的。

4、桶bucket：每个分区中的数据又可以基于表的某些列的hash值被划分为桶。桶可用于有效地采样数据。

值得注意的是，表分区和桶不是必须的，但这些可以使得系统在查询处理期间过滤掉大量数据，从而加快查询执行速度。

Hive字段支持原始类型及复杂类型：

原始类型：

整型，有tinyint(1字节整数)、smallint(2字节整数)、int(4字节整数)、bigint(8字节整数)；

boolean类型，true或者false；

浮点数，有float(单精度)和double(双精度)；

定点数(fixed point number)，decimal；

字符串类型，有string、varchar、char；

日期和时间类型，有timestamp和date；

二进制类型(binary type)，binary(字节序列)。

需要额外注意的是，string类型可以被隐式转为double类型。

复杂类型：

struct：如column c的类型是struct {a int; b int}，则a的值可以通过c.a得到

map：

array：里面的元素类型必须相同。如column a的类型是array，则可以通过a[0]、a[1]获取第一、二个元素

内建的运算符和函数

可以在beeline命令行使用show functions; 命令查看所有的运算符和函数。

还可以用describe function function_name; 命令查看某运算符或函数的用法解释。

实际发现，大多数运算符和函数都和java中的运算符和方法作用一样，遇到不一样的，再describe function 查看具体用法即可。

聚合函数返回值类型：

除count返回bigint类型外，sum、avg、min和max都返回double类型。

Hive SQL能做什么？

1、常规的DDL语句，create、drop、alter

2、常规的DML语句，load、insert、update、delete、select、where、join、group by、union

3、把查询结果存储到另外一个表中、hdfs中

4、把hive表的内容下载到本地目录

5、Ability to plug in custom scripts in the language of choice for custom map/reduce jobs

hive Tutorial的更多相关文章

Hive Tutorial（上）（Hive 入门指导）
用户指导 Hive 指导 Hive指导概念 Hive是什么 Hive不是什么获得和开始数据单元类型系统内置操作符和方法语言性能用法和例子(在<下>里面) 概念 Hive是什么 ...
[Hive - Tutorial] Type System 数据类型
数据类型Type System Hive supports primitive and complex data types, as described below. See Hive Data Ty ...
Hive Tutorial 阅读记录
Hive Tutorial 目录 Hive Tutorial 1.Concepts 1.1.What Is Hive 1.2.What Hive Is NOT 1.3.Getting Started ...
[Hive - Tutorial] Built In Operators and Functions 内置操作符与内置函数
Built-in Operators Relational Operators The following operators compare the passed operands and gene ...
[Hive - Tutorial] Querying and Inserting Data 查询和插入数据
Querying and Inserting Data Simple Query Partition Based Query Joins Aggregations Multi Table/File I ...
[Hive - Tutorial] Creating, Showing, Altering, and Dropping Tables
Creating, Showing, Altering, and Dropping Tables See Hive Data Definition Language for detailed info ...
[Hive - Tutorial] Data Units 数据存储单位
Data Units In the order of granularity - Hive data is organized into: 数据库.表.分区.桶 Databases: Namespac ...
Hive官方手册翻译(Getting Started)
翻译Hive官方文档系列,文中括号中包含注: 字样的,为我自行标注的,水平有限,翻译不是完美无缺的.如有疑问,请参照Hive官方文档对照查看. 内容列表 Cloudera制作的Hive介绍视频 ...
【hive】——Hive sql语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查 ...

随机推荐

Centos6 hadoop2.6.0安装笔记
系统环境: linux:Centos6-64bit hadoop:hadoop2.6.0 jdk:1.6.45 集群方式安装一台master,3台slave master 192.168.111.1 ...
mybatis和spring mvc整合
1.环境 a. jar包 (mybatis+spring mvc运行包+两者整合包mybatis-spring.jar) b.工程目录 c. 配置文件 mybatis:SqlMapConfig.xm ...
设计模式6---代理模式（Proxy Pattern）
代理设计模式定义:为其他对象提供一种代理以控制对这个对象的访问. 1. 静态代理静态代理在使用时,需要定义接口或者父类,被代理对象与代理对象都实现相同的接口或者是继承相同父类. 接口:IUser ...
快速搭建windows服务器的可视化运维环境
开发好的程序部署在服务器上,如何对服务器的基本指标进行监控呢?最近对一套工具进行了研究,可以快速搭建服务器监管环境,很是强大,最重要的是它还很酷炫. 原理:数据采集+时序数据库+可视化,下面记录一下搭 ...
select2 模糊查询远程数据
详细:http://www.cnblogs.com/linJie1930906722/p/6060370.html $("#name").select2({ language: & ...
nginx location 与 rewrite详解（转）
点我
iOS应用开发权限请求处理
1.写在前面 APP开发避免不开系统权限的问题,如何在APP以更加友好的方式向用户展示系统权限,似乎也是开发过程中值得深思的一件事: 那如何提高APP获取iOS系统权限的通过率呢?有以下几种方式: 1 ...
927. Three Equal Parts
Given an array A of 0s and 1s, divide the array into 3 non-empty parts such that all of these parts ...
深入了解java虚拟机（JVM）第三章内存区域----堆空间
一.堆的含义 jvm堆的区域主要是用来存放对象的实例,它的空间大小是JVM内存区域中占比重最大的,也是jvm最大的内存管理模块,最重要的是,这个区域是垃圾收集器主要管理的区域,这意味着我们在考虑垃圾回 ...
excel的公式:查找匹配某个值的单元格--MATCH()
这个非常简单,没啥说的,D1位置是显示这个值所在的行数,如果是跨表,就在匹配区域前面加上 sheetName!

hive Tutorial

hive Tutorial的更多相关文章

随机推荐

热门专题