hive的简单使用
一、一些说明
1.支持的操作
hive 默认不支持updata 和 delete操作 insert也是执行缓慢,主要用于数据的计算
hive 数据类型---字符串,大部分与java一致。 2.内外表的区别
内部表:完全交给hive管理,数据会存储在hive所在路径,删除时删掉源文件。
外部表:增加hive管理的表,创表时记录数据所在路径,不移动数据,删除时不删除源文件,只删除路径链接。
二、简单的命令
show databases; 显示数据库
create database dbName; 创建数据库
drop database [IF EXISTS] dbName [cascade] 有则强制删除
use {databaseName}; 使用某一数据库 desc tabName 查看表结构
show tables; 查看当前库下的表
show tables [like '*'] [in dbName] 查看某库某些表
create table tabName{columnName columnType,...} 建(内部)表(需指定分隔符)
create external table tabName {同上} 建(外部)表
location 'hdfs.path'; 指定外部表源数据路径
row format delimited fields terminated by '*'; 直接写在创表语句末尾。
lines terminated by '\n'; 航分隔符默认"\n",暂时也只支持这一个
map keys terminated by
alter table tabName RENAME TO newName; 重命名表名
alter table tabName ADD COLUMNS (N T); 向已有表中添加列
insert into tabName(columnName)values(data); 向表中添加数据
drop table tbname; 删除表结构及数据 HIVE的数据导入的两种范式:
从linux上导入
load data local inpath 'linux根目录下写' into table dbName.tabName;
从HDFS的某一目录导入
load data inpath 'hdfs根目录下开始写' into table dbName.tabName;
--------------------------------- --->此方式上传会删除源文件,相当于将数据剪切 hadoop job -kill {job_id} 结束失败job的命令
三、HIVE的JDBC
//1.加载驱动
Class.forName("org.apache.hive.jdbc.HiveDriver");
//2.打开连接
Connection conn = DriverManager.getConnection("jdbc:hive2://sz01:10010/test");
//mysql连接仅此处不同,三个参数
//jdbc--->(url = jdbc:mysql://IP:3306/dbName, u,p)
//3.获得操作会话对象
Statement statement = conn.createStatement();
//4.操作hive
String sql = "select * from test1 ";
//5.接受结果
ResultSet rSet = statement.executeQuery(sql);
while (rSet.next()) {
System.out.println(rSet.getInt(1)+"\t"+rSet.getString(2));
}
//6.关闭连接
rSet.close();
statement.close();
conn.close();
四、常用的建表语句
- 直接建表法: create table table_name(col_name data_type);
- 查询建表法: create table table-name as (查询sql)------------------------->有数据,会执行MR过程
- like建表: create table t2 like t1;------------------------------------------------>无数据,不执行MR过程
创建时一般需指定表的结构等信息
row format delimited
fields terminated by ',' 列分隔符,行分隔符默认为"\n",一般不配置
collection items terminated by '-'
map keys terminated by ':'
location '/user/t2' 数据文件的位置(linux系统上的)----外部表
stored as textfile; 数据格式默认为文本类型
存储格式 | 存储方式 | 特点 |
---|---|---|
TextFile | 行存储 | 存储空间消耗比较大,并且压缩的text 无法分割和合并 查询的效率最低,可以直接存储,加载数据的速度最高 |
SequenceFile | 行存储 | 存储空间消耗最大,压缩的文件可以分割和合并 查询效率高,需要通过text文件转化来加载 |
RCFile | 数据按行分块 每块按照列存储 |
存储空间最小,
查询的效率最高 ,
需要通过text文件转化来加载,
加载的速度最低。
压缩快 快速列存取。
读记录尽量涉及到的block最少
读取需要的列只需要读取每个row group 的头部定义。
读取全量数据的操作 性能可能比sequencefile没有明显的优势
|
ORCFile | 数据按行分块 每块按照列存储 | 压缩快,快速列存取 ,效率比rcfile高,是rcfile的改良版本 |
Parquet | 列存储 | 相对于PRC,Parquet压缩比较低,查询效率较低,不支持update、insert和ACID.但是Parquet支持Impala查询引擎 |
五、保存hive表查询结果的方法
1.保存到hdfs 在hdfs上运行
hive -e "sql" >> /output/out.txt 一定要双引号
hive -f hive.sql > /output/out.txt
2.保存到hdfs上 hive中执行
insert overwrite dirctory /output/a.txt sql
不支持 insert into 导出
3.保存到linux上
insert overwrite local directory /tmp/a.txt sql 4.保存到hive表上
insert into table tName SQL 追加导入
insert overwrite table tName SQL 覆盖导入
5.创表保存数据
create table tName as sql
hive的简单使用的更多相关文章
- Hive 的简单使用及调优参考文档
Hive 的简单使用及调优参考文档 HIVE的使用 命令行界面 使用一下命令查看hive的命令行页面, hive --help --service cli 简化命令为hive –h 会输出下面的这 ...
- [转]Hive:简单查询不启用Mapreduce job而启用Fetch task
转自:http://www.iteblog.com/archives/831 如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下: hive> SEL ...
- hive中简单介绍分区表
所介绍内容基本上是翻译官方文档,比较肤浅,如有错误,请指正! hive中创建分区表没有什么复杂的分区类型(范围分区.列表分区.hash分区.混合分区等).分区列也不是表中的一个实际的字段,而是一个或者 ...
- [Hive_add_3] Hive 进行简单数据处理
0. 说明 通过 Hive 对 duowan 数据进行简单处理 1. 操作流程 1.1 建表 create table duowan(id int, name string, pass string, ...
- hive 中简单的udf函数编写
.注册函数,使用using jar方式在hdfs上引用udf库. $hive.注销函数,只需要删除mysql的hive数据记录即可. delete from func_ru ; delete from ...
- hive中简单介绍分区表(partition table)——动态分区(dynamic partition)、静态分区(static partition)
一.基本概念 hive中分区表分为:范围分区.列表分区.hash分区.混合分区等. 分区列:分区列不是表中的一个实际的字段,而是一个或者多个伪列.翻译一下是:“在表的数据文件中实际上并不保存分区列的信 ...
- Hive之简单查询不启用MapReduce
假设你想查询某个表的某一列.Hive默认是会启用MapReduce Job来完毕这个任务,例如以下: 01 hive> SELECT id, money FROM m limit 10; 02 ...
- hadoop生态系统学习之路(六)hive的简单使用
一.hive的基本概念与原理 Hive是基于Hadoop之上的数据仓库,能够存储.查询和分析存储在 Hadoop 中的大规模数据. Hive 定义了简单的类 SQL 查询语言,称为 HQL.它同意熟悉 ...
- hive的简单理解--笔记
Hive的理解 数据仓库的工具 Hive仅仅是在hadoop上面包装了SQL: Hive的数据存储在hadoop上 Hive的计算由MR进行 Hive批量处理数据 Hive的特点 1 可扩展性(h ...
随机推荐
- PAT——1025. 反转链表
给定一个常数K以及一个单链表L,请编写程序将L中每K个结点反转.例如:给定L为1→2→3→4→5→6,K为3,则输出应该为3→2→1→6→5→4:如果K为4,则输出应该为4→3→2→1→5→6,即最后 ...
- 怎样实现一个简单的jQuery编程
第一步:在head中载入jQuery框架 <script type="text/javascript" src="jQuery文档所在的绝对路径"> ...
- Office365学习笔记—Lookup类型加载条目过多解决方案
1,随着接触的项目越来越多,遇到的各种奇葩的问题也越来越多,不得不说,SharePoint是个好东西,提高了开发效率,简化了很多基础的功能.但是令人头疼的问题是,当你想做个稍微复杂点的功能,就不得不研 ...
- Mybatis-smart(Mybatis最终优化方案)
Hibernate: 我用了Hibernate一年多,可以说是饱经风雨,感受极深,Hibernate看似一个很好的框架,我简单说一下它的使用痛点, 1.作为开发人员,我们应该全新全意关注我们的功能业务 ...
- React简单实现双向数据绑定
import React, { Component } from 'react' import ReactDOM from 'react-dom' class App extends Componen ...
- MySQL——安装
1. 下载源: http://repo.mysql.com/yum/mysql-8.0-community/el/7/x86_64/mysql80-community-release-el7-2.no ...
- PHP-----PHP程序设计基础教程----第三章函数
3.1 初识函数 3.1.1 函数的定义 语法: function 函数名([参数1,参数2,......]) { 函数体 } (1)function:在声明函数时必须使用的关键字 (2)函数名:创建 ...
- 完美解决 Cydia 不能上网
国行手机比美版.港版.韩版手机新增了网络授权的功能,iOS 10 及以上系统版本,任何应用首次打开,如果有请求网络的行为,都会提示网络请求授权的对话框. 首次打开 Cydia 并没有提示网络请求授权的 ...
- 大专生自学html5到找到工作的心得
先做个自我介绍,我13年考上一所很烂专科民办的学校,学的是生物专业,具体的学校名称我就不说出来献丑了.13年我就辍学了,我在那样的学校,一年学费要1万多,但是根本没有人学习,我实在看不到希望,我就退学 ...
- FLINK流计算拓扑任务代码分析<一>
我打算以 flink 官方的 例子 <<Monitoring the Wikipedia Edit Stream>> 作为示例,进行 flink 流计算任务 的源码解析说明. ...