1.Hive中的数据库:

它是表的一个目录或者命名空间,用来避免表命名冲突,我们通常使用数据库来将生产表组织成逻辑组。

基本命令:

(1)创建一个数据库(如果不存在该数据库):

create database if not exists time;

(2)查看Hive中所包含的所有数据库:

show databases;

注:Hive会为每个数据库创建一个目录,数据库中的表将会以这个数据库目录的子目录形式存储,有一个例外是default数据库中的表,default目录中的表会默认直接存储在hive.metastore.warehouse.dir之下。

我们可以设置属性hive.cli.print.current.db=true来让hive的CLI显示的指出当前工作在哪一个数据库下:

如上,先是在default目录下,使用use time;命令后切换到time数据库下。

2. Hive中数据的保存:

分为元数据、“真实”数据和日志:

(1)元数据:默认情况下,Hive元数据保存在内置的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试。为了支持多用户多会

话,则需要一个独立的元数据库,笔者使用 MySQL 作为元数据库,Hive 内部对 MySQL 提供了很好的支持。

我们可以进入mysql中查看hive中表的元数据:

默认的元数据的表有:

其中主要涉及的表有:

例如:我们在mysql中查看hive元数据信息的TBLS表:

作为对照,我们查看hive中是否存在log表和hive_test表:

注:在hive的安装过程中有三种模式:

内置模式:元数据保持在内嵌的Derby模式,只允许一个会话连接

本地独立模式:在本地安装Mysql,把元数据放到Mysql内

远程模式:元数据放置在远程的Mysql数据库

(2)“真实”数据:存在hdfs上。

(3)日志:存在本地/tmp/${user_name}/hive.log (例如:/tmp/hadoop/hive.log 是笔者的存放路径)

3. Hive中的表:分为内部表(又叫管理表)和外部表。

(1)若创建内部表,会将数据移动到数据仓库指向的路径。在删除内部表的时候,内部表的元数据和数据会被一起删除;

(2)若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变(即数据已经存在hdfs上,新创建的表指向它)。外部表只删除元数据,不删除数据。这样外部表相对来

说更加安全些,数据组织也更加灵活,方便共享源数据。

4. 对表进行分区:

(1)在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因

此建表时引入了partition概念——>更快的查询,提高性能!

(2)分区表指的是在创建表时指定的partition的分区空间。如果需要创建有分区的表,需要在create表的时候调用可选参

partitioned by。

eg:create table employees (name string , salary string) partitioned by (country string , state string);

此时我们只是声明了employees表有分区结构,但还没有创建分区,我们可以通过载入数据的方式创建分区,也可以通过alter命令增加、修改、删除分区。如下笔者使用第一种方法创建分区并上传数据:

eg:load data local inpath '/home/hadoop/extend/data_employees' into table employees partition (country='US',state='CA');

Hive会创建这个分区对应的目录,并上传文件到这个目录下。

注:Hive并不会验证用户装载的数据和表的模式是否匹配。然而,Hive会验证文件格式是否和表结构定义的一致,即如果在表创建时定义的存储格式是SEQUENCEFILE,那么装载进去的文件也必须是sequencefile格式。

【转】HiveQL:对数据定义的学习的更多相关文章

  1. Python学习记录----数据定义

    摘要: 描述Python中数据定义格式,需要注意的东东. 一 数据声明 Python木有一般语言的具体数据类型,像char,int,string这些通通木有.这有点像javascript,但又不同,j ...

  2. SQL语言学习-数据定义语言

    Sql语言至今已经有6个版本.SQL查询语言包括了所有对数据的操作命令,这些操作可分为四类:数据定义语言(DDL).数据操纵语言(DML).数据控制语言(DCL)和嵌入式SQL语言. 数据定义语言(D ...

  3. oracle学习笔记(三) DCL 数据控制语言与 DDL 数据定义语言

    DCL 数据控制语言 Data control language 之前说过的授权和收权利语句 grant, revoke DDL 数据定义语言 Data define language create ...

  4. 【大数据】Hive学习笔记

    第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...

  5. Hive 官方手册翻译 -- Hive DDL(数据定义语言)

    Hive DDL(数据定义语言) Confluence Administrator创建, Janaki Lahorani修改于 2018年9月19日 原文链接 https://cwiki.apache ...

  6. ClickHouse数据库数据定义手记之数据类型

    前提 前边一篇文章详细分析了如何在Windows10系统下搭建ClickHouse的开发环境,接着需要详细学习一下此数据库的数据定义,包括数据类型.DDL和DML.ClickHouse作为一款完备的D ...

  7. Oracle language types(语言种类) 表的相关操作 DDL数据定义语言

    数据定义语言 Data Definition Language Statements(DDL)数据操纵语言 Data Manipulation Language(DML) Statements事务控制 ...

  8. 《how to design programs》15章 相互引用的数据定义

    由结构体组成的表与结构体中的表. 在用追溯形式建立家家谱树时,我们通常从某个后代除法,依次处理它的父母,组父母等.而构建树时,我们会不断添加谁是谁的孩子,而不是写出谁是谁的父母,从而建立一颗后代家谱树 ...

  9. 今天在研究jquery用ajax提交form表单中得数据时,学习到了一种新的提交方式

    今天在研究jquery用ajax提交form表单中得数据时,学习到了一种新的提交方式 jquery中的serialize() 方法 该方法通过序列化表单值,创建 URL 编码文本字符串 序列化的值可在 ...

随机推荐

  1. 重温Servlet学习笔记--request对象

    request和response是一对搭档,一个负责请求一个负责响应,都是Servlet.service()方法的参数,response的知识点前面梳理过了,这里只说一下request,在客户端发出每 ...

  2. WebGIS中解决使用Lucene进行兴趣点搜索排序的两种思路

    文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/. 1.背景 目前跟信息采集相关的一个项目提出了这样的一个需求:中国银行等 ...

  3. SQL Server 执行计划利用统计信息对数据行的预估原理以及SQL Server 2014中预估策略的改变

    前提  本文仅讨论SQL Server查询时, 对于非复合统计信息,也即每个字段的统计信息只包含当前列的数据分布的情况下, 在用多个字段进行组合查询的时候,如何根据统计信息去预估行数的. 利用不同字段 ...

  4. Linux上的SQL Server——预告片

    大家可能都听说了,微软在几个星期前宣布发布可以在Linux上完整运行的SQL Server!如果你想看下在Linux上SQL Server如何运行,进行查询是什么样的体验,可以看下下面的视频.

  5. 开始编写CSS

    本文由大漠根据Krasimir Tsonev的<Starting to Write CSS>所译,整个译文带有我们自己的理解与思想,如果译得不好或不对之处还请同行朋友指点.如需转载此译文, ...

  6. 【Bug】看不见的分隔符: Zero-width space

    今天在调试一段代码的时候,有一个输入不能为空的库函数抛出了异常(为空就会抛出异常,就是这么傲娇).自己暗骂了自己一番,怎么这么大意,于是追溯源头,开始寻找输入控制的地方.但是当我找到时我惊呆了,我明明 ...

  7. HTML元素坐标定位,这些知识点得掌握

    文档坐标和视口坐标 视口坐标是相对于窗口的坐标,而文档坐标是相对于整个文档而言.例如,在文档坐标中如果一个元素的相对于文档的Y坐标是200px,并且用户已经把浏览器向下滚动了75px,那么视口坐标中元 ...

  8. WPF数据验证

    当填写表单时,需要对填写的内容进行验证,检查数据是否符合要求,比如字符串的长度.日期的格式.数字等.WPF支持自定义验证规则,并提供可视化反馈,以便在输入无效值时向用户发出通知. 下面的示例将演示一个 ...

  9. NanUI for Winform 使用示例【第一集】——山寨个代码编辑器

    NanUI for Winform从昨天写博客发布到现在获得了和多朋友的关注,首先感谢大家的关注和支持!请看昨天本人的博文<NanUI for Winform发布,让Winform界面设计拥有无 ...

  10. java Io流输出指定文件的内容

    package com.hp.io; import java.io.*; public class  BufferedReaderTest{ /** *@param   想想 */ public st ...