Hive的基本操作

1.3HIve的表操作（接着昨天的继续学习）

1.3.2 显示表

show tables;

show tables like 'u*';

desc t_person;

desc formatted students; // 更加详细

1.3.3 加载数据

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

2、使用 load data

下列命令需要在hive shell里执行

create table IF NOT EXISTS students2

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

// 将HDFS上的/input1目录下面的数据 移动至 students表对应的HDFS目录下，注意是 **移动、移动、移动**

load data inpath '/input1/students.txt' into table students;

注意：使用hdfs导入数据至hive，使用的是剪切操作，即原hdfs路径下的文件在被导入到hive中之后，原路径下的文件就不复存在

// 清空表

truncate table students;

// 加上 local 关键字 可以将Linux本地目录下的文件 上传到 hive表对应HDFS 目录下 **原文件不会被删除,是复制，不是移动**

load data local inpath '/usr/local/soft/data/students.txt' into table students;

// overwrite 覆盖加载

load data local inpath '/usr/local/soft/data/students.txt' overwrite into table students;

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句（没有as）

create table IF NOT EXISTS students3

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

// 将 students表的数据插入到students2 这是复制 不是移动 students表中的数据不会丢失

insert into table students2 select * from students;

// 覆盖插入 把into 换成 overwrite

insert overwrite table students2 select * from students;

1.3.4 修改列

查询表结构

desc students2;

添加列

alter table students2 add columns (education string);

添加列之后，查询表的数据，新增的那一列是没有具体的数据进行映射的，所以全是null
当向其中插入新的数据时，新的数据和原先的数据在HDFS中看似是分开的，但是其实就是一个表数据，
注意的是新的数据插入之后不会影响之前的数据，在HDFS中没有对应的数据，就相当于没有映射过来就是null

查询表结构

desc students2;

更新列

alter table stduents2 change education educationnew string;

1.3.5 删除表

drop table students2;

1.4 Hive内外部表

面试题：内部表和外部表的区别？如何创建外部表？工作中使用外部表

1.4.1 hive内部表

当创建好表的时候，HDFS会在当前表所属的库中创建一个文件夹

当设置表路径的时候，如果直接指向一个已有的路径,可以直接去使用文件夹中的数据

当load数据的时候，就会将数据文件存放到表对应的文件夹中

而且数据一旦被load，就不能被修改

我们查询数据也是查询文件中的文件,这些数据最终都会存放到HDFS

当我们删除表的时候，表对应的文件夹会被删除，同时数据也会被删除

默认建表的类型就是内部表

// 内部表

create table students_internal

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/input2';

hive> dfs -put /usr/local/soft/data/students.txt /input2/;

1.4.1 Hive外部表

外部表说明

外部表因为是指定其他的hdfs路径的数据加载到表中来，所以hive会认为自己不完全独占这份数据

删除hive表的时候，数据仍然保存在hdfs中，不会删除。

删除外部表只会删除hive中的映射出来的数据表，以及存在MySQL中的数据的元数据信息。

// 外部表

create external table students_external

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/hive_test/input3';

hive> dfs -put /usr/local/soft/data/students.txt /input3/;

删除表测试一下：

hive> drop table students_internal;

Moved: 'hdfs://master:9000/input2' to trash at: hdfs://master:9000/user/root/.Trash/Current

OK

Time taken: 0.474 seconds

hive> drop table students_external;

OK

Time taken: 0.09 seconds

hive>

一般在公司中，使用外部表多一点，因为数据可以需要被多个程序使用，避免误删，通常外部表会结合location一起使用

外部表还可以将其他数据源中的数据映射到 hive中，比如说：hbase，ElasticSearch......

设计外部表的初衷就是让表的元数据与数据解耦

操作案例: 分别创建dept，emp，salgrade。并加载数据。

创建数据文件存放的目录

hdfs dfs -mkdir -p /bigdata/hive_test1/dept

hdfs dfs -mkdir -p /bigdata/hive_test1/emp

hdfs dfs -mkdir -p /bigdata/hive_test1/salgrade

创建dept表

CREATE EXTERNAL TABLE IF NOT EXISTS dept (

  DEPTNO int,

  DNAME string,

  LOC string

) row format delimited fields terminated by ','

location '/hive_test/dept';

10,ACCOUNTING,NEW YORK

20,RESEARCH,DALLAS

30,SALES,CHICAGO

40,OPERATIONS,BOSTON

创建emp表

CREATE EXTERNAL TABLE IF NOT EXISTS emp (

   EMPNO int,

   ENAME string,

   JOB string,

   MGR int,

   HIREDATE date,

   SAL int,

   COMM int,

   DEPTNO int

 ) row format delimited fields terminated by ','

 location '/hive_test/emp';

7369,SMITH,CLERK,7902,1980-12-17,800,null,20

7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30

7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30

7566,JONES,MANAGER,7839,1981-04-02,2975,null,20

7654,MARTIN,SALESMAN,7698,1981-09-28,1250,1400,30

7698,BLAKE,MANAGER,7839,1981-05-01,2850,null,30

7782,CLARK,MANAGER,7839,1981-06-09,2450,null,10

7788,SCOTT,ANALYST,7566,1987-07-13,3000,null,20

7839,KING,PRESIDENT,null,1981-11-17,5000,null,10

7844,TURNER,SALESMAN,7698,1981-09-08,1500,0,30

7876,ADAMS,CLERK,7788,1987-07-13,1100,null,20

7900,JAMES,CLERK,7698,1981-12-03,950,null,30

7902,FORD,ANALYST,7566,1981-12-03,3000,null,20

7934,MILLER,CLERK,7782,1982-01-23,1300,null,10

创建salgrade表

CREATE EXTERNAL TABLE IF NOT EXISTS salgrade (

  GRADE int,

  LOSAL int,

  HISAL int

) row format delimited fields terminated by ','

location '/hive_test/salgrade';

1,700,1200

2,1201,1400

3,1401,2000

4,2001,3000

5,3001,9999

1.5 Hive导出数据

将表中的数据备份

将查询结果存放到本地

//创建存放数据的目录

mkdir -p /usr/local/soft/bigdata

//导出查询结果的数据(导出到Node01上)

insert overwrite local directory '/usr/local/soft/bigdata/person_data' select * from t_person;

按照指定的方式将数据输出到本地

-- 创建存放数据的目录

mkdir -p /usr/local/soft/bigdata

-- 导出查询结果的数据

insert overwrite local directory '/usr/local/soft/bigdata/hive_test1/person'

ROW FORMAT DELIMITED fields terminated by ','

collection items terminated by '-'

map keys terminated by ':'

lines terminated by '\n'

select * from t_person;

insert overwrite local directory '/usr/local/soft/bigdata/hive_test1/stu'

ROW FORMAT DELIMITED fields terminated by ','

lines terminated by '\n'

select clazz,count(1) as count from students group by clazz;

将查询结果输出到HDFS

将sql语句的查询结果输出到HDFS中时，在HDFS上是直接将该结果存放在指定的文件夹里。

-- 创建存放数据的目录

hdfs dfs -mkdir -p /bigdata/hive_test1/copy

-- 导出查询结果的数据

insert overwrite directory '/bigdata/copy2' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select * from students

直接使用HDFS命令保存表对应的文件夹

// 创建存放数据的目录

hdfs dfs -mkdir -p /bigdata/person

// 使用HDFS命令拷贝文件到其他目录

hdfs dfs -cp /hive/warehouse/t_person/*  /bigdata/person

将表结构和数据同时备份
将数据导出到HDFS

将数据导出到HDFS中时，会在指定的文件目录下产生一个该数据的元数据文件信息_metadata和一个用于存放真实数据的文件夹 data，在该文件夹下面才是数据文件

//创建存放数据的目录

hdfs dfs -mkdir -p /bigdata/copy

//导出查询结果的数据

export table t_person to '/bigdata/copy';

删除表结构

drop table t_person;

恢复表结构和数据

import from '/bigdata;

注意：时间不同步，会导致导入导出失败

数据仓库建模工具之一——Hive学习第四天的更多相关文章

大数据之路week07--day05 （一个基于Hadoop的数据仓库建模工具之一 HIve）
什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark). 2:hive可以使用类sql方言,对存储在hdfs上的数据进 ...
hive 学习系列四（用户自定义函数）
如果入参是简单的数据类型,直接继承UDF,实现一个或者多个evaluate 方法. 具体流程如下: 1,实现大写字符转换成小写字符的UDF package com.example.hive.udf; ...
Hive -- 基于Hadoop的数据仓库分析工具
Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库 ...
基于hadoop的数据仓库工具：Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...
[转帖]Hive学习之路（一）Hive初识
Hive学习之路 (一)Hive初识 https://www.cnblogs.com/qingyunzong/p/8707885.html 讨论QQ:1586558083 目录 Hive 简介什么是 ...
数仓建模—建模工具PdMan(CHINER)介绍
数据仓库系列文章(持续更新) 数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模-宽表的设计数仓建模-指标体系数据仓库之拉链表数仓-数据集成数仓-数据集市数仓-商业智能系统数仓-埋 ...
HBase学习（四）二级索引 rowkey设计
HBase学习(四) 一.HBase的读写流程画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeepe ...
hive学习
大数据的仓库Hive学习 10期-崔晓光 2016-06-20 大数据 hadoop 10原文链接我们接着之前学习的大数据来学习.之前说到了NoSql的HBase数据库以及Hadoop中 ...
Hive学习路线图(转)
Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig ...
【转】Hive学习路线图
原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Ha ...

随机推荐

Istio(四)：创建部署Gateway并使用网关暴露服务
目录一.模块概览二.系统环境三.Gateway网关 3.1 使用 Gateway 四.实战:使用Gateway发布服务 4.1 创建部署并使用网关暴露 4.2 清理一.模块概览在Kubern ...
linux 文件扩展权限ACL（访问控制列表）
目录一.关于文件扩展权限ACL 二.给文件加扩展权限三.给目录加扩展权限四.给目录下所有文件都加扩展权限五.去掉单个acl权限六.去掉所有acl权限一.关于文件扩展权限ACL 在linux ...
c# 获得变量名称
string GetVariableName<T>(Expression<Func<T>> expr) { var body = ...
[COCI2008-2009 #2] PERKET
传送锚点:https://www.luogu.com.cn/problem/P2036 题目描述 Perket 是一种流行的美食.为了做好 Perket,厨师必须谨慎选择食材,以在保持传统风味的同时尽 ...
音视频-YUV数据格式
一.YUV格式 1)kCVPixelFormatType_420YpCbCr8PlanarFullRange = 'f420' 对应YUV I420格式 2)kCVPixelFormatType_42 ...
js 判断闰年
首先,我们需要了解闰年的判断方式 1.能被4整除 2.并且不能被100整除 3.或者被400整除的其次我们再来回顾下函数封装的知识,所谓的函数封装就是将一段函数封装成一个工具,有人用到了拿过来就可以 ...
Linux 提权-Cron Jobs
本文通过 Google 翻译 Cron Jobs – Linux Privilege Escalation - Juggernaut-Sec 这篇文章所产生,本人仅是对机器翻译中部分表达别扭的字词进行 ...
LeetCode 37. Sudoku Solver II 解数独 (C++/Java)
题目: Write a program to solve a Sudoku puzzle by filling the empty cells. A sudoku solution must sati ...
支付宝支付jemter 插件，导入到高版本jmeter 中使用
官方支付宝压力测试文档中: 蚂蚁金服开放平台 - 文档中心 (alipay.com) 有个 temp.jmx 文件(http://p.tb.cn/rmsportal_10157_temp.jmx.zi ...
说一下 session 的工作原理？
session 的工作原理是客户端登录完成之后,服务器会创建对应的 session,session 创建完之后,会把 session 的 id 发送给客户端,客户端再存储到浏览器中.这样客户端每次访问 ...

数据仓库建模工具之一——Hive学习第四天

Hive的基本操作

1.3HIve的表操作（接着昨天的继续学习）

1.3.2 显示表

1.3.3 加载数据

1、使用hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'

2、使用 load data

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句 （没有as）

1.3.4 修改列

1.3.5 删除表

1.4 Hive内外部表

1.4.1 hive内部表

1.4.1 Hive外部表

1.5 Hive导出数据

数据仓库建模工具之一——Hive学习第四天的更多相关文章

随机推荐

热门专题

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

4、insert into table xxxx SQL语句（没有as）