Hive数据仓库笔记(一)
Hive建表:
CREATE TABLE records (year STRING,temperature INT, quality INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
每行三列数据通过tab分隔,数据如果是以tab分隔的可被hive直接识别。
查看表结构信息:
desc records;
加载数据:
LOAD DATA LOCAL INPATH'/home/data/sample.txt'
OVERWRITE INTO TABLE records;
将linux本地的文本数据导入到hive的数据仓库目录(/user/hive/warehouse/records)
该命令会覆盖掉数据,准确说,它会先删除目录里的老文件,添加新的文件。
原始数据:
导入到hive里的数据:
存数据的表在hive里是个文件,存在仓库里,仓库目录由hive.metastore.warehouse.dir属性控制。
执行查询:
hive> SELECT year, MAX(temperature) FROMrecords WHERE temperature <> 9999 AND quality IN (0, 1, 4, 5, 9) GROUP BYyear;
Hive 里的不等于不支持!=,其正确的表达式应该为<>。
Hive配置设置:
% hive --config /Users/tom/dev/hive-conf
指定hive在不同的目录里hive-site.xml配置文件以针对不同的集群。
% hive -hiveconffs.defaultFS=hdfs://localhost \
-hiveconf mapreduce.framework.name=yarn \
-hiveconfyarn.resourcemanager.address=localhost:8032
设置会话期间的属性。
% hadoop fs -mkdir /tmp
% hadoop fs -chmod a+w /tmp
% hadoop fs -mkdir -p /user/hive/warehouse
% hadoop fs -chmod a+w /user/hive/warehouse
给hive所有用户写权限。
hive> SET hive.enforce.bucketing=true;
可以在会话期间改变设置。之后又恢复。
Hive执行引擎:
Hive默认的执行引擎是MR,现在支持Tez和Spark。
Tez和spark可以避免中间结果输出到HDFS,甚至是存储在内存中的开销。
SET hive.execution.engine=tez; 设置执行引擎为Tez。
日志路径设置:
% hive -hiveconfhive.log.dir='/tmp/${user.name}'
日志级别,输出位置
% hive -hiveconfhive.root.logger=DEBUG,console
Hive架构:
Metastore configurations:
最常用的选择是用MySQL。
设置:配置文件
javax.jdo.option.ConnectionURL : jdbc:mysql://host/dbname?createDataba
seIfNotExist=true
javax.jdo.option.ConnectionDriverName :com.mysql.jdbc.Driver
用户名和密码也得设置。MySQL 驱动放置Hive的lib目录下。
Hive的替代物:
Cloudera Impala 交互式查询,性能比Hive有数量级地提升。
Presto from Facebook
Apache Drill
Spark SQL
Apache Phoenix 底层是HBase
Hive基本数据类型:
BOOLEAN TINYINT,SMALLINT, INT, and BIGINT FLOAT and DOUBLE
DECIMAL 可以设置精度DECIMAL(5,2) 精度值最大为38
STRING 理论上可以存储2G的数据,实际可能达不到这个值
VARCHAR :VARCHAR(100) CHAR:CHAR(100) 固定长度的字符串,如果有必要会有空格填充。
BINARY 存储可变长度的二进制数据
TIMESTAMP DATE年月日
复杂数据类型:
ARRAY, MAP, STRUCT, and UNION
STRUCT:类型组合
UNION:类型里选择一种类型
CREATE TABLE complex (
c1 ARRAY<INT>,
c2 MAP<STRING, INT>,
c3 STRUCT<a:STRING, b:INT, c:DOUBLE>,
c4 UNION<STRING, INT>
)
操作和功能:
SHOW FUNCTIONS 列出hive支持功能
hive> DESCRIBE FUNCTION length; 功能的具体描述
length(str | binary) - Returns the lengthof str or number of bytes in binary
data
外部表和内部表:
CREATE TABLE managed_table (dummy STRING);
LOAD DATA INPATH '/user/tom/data.txt' INTOtable managed_table;
移动hdfs://user/tom/data.txt 到hive的数据仓库目录下。
删除表:DROP TABLE managed_table;
外部表:
CREATE EXTERNAL TABLE external_table (dummy STRING)
LOCATION '/user/tom/external_table';
LOAD DATA INPATH'/user/tom/data.txt' INTO TABLE external_table;
外部表可以指定数据存储的路径。EXTERNAL关键字下,hive不检查在定义的时的外部位置是否存在,意味着可以先创建表在创建这些数据。
删除外部表仅删除元数据信息,数据还存在。
Hive数据仓库笔记(一)的更多相关文章
- Hive数据仓库笔记(三)
Joins: Inner joins: hive> SELECT * FROM sales; Joe 2 Hank 4 Ali 0 Eve 3 Hank 2 hive> SELECT * ...
- Hive数据仓库笔记(二)
分区和桶: 分区:可以提高查询的效率,只扫描固定范围数据,不用全部扫描 CREATE TABLE logs (ts BIGINT, lineSTRING) PARTITIONED BY (dt S ...
- hive学习笔记之一:基本数据类型
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- Hive数据仓库工具安装
一.Hive介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单SQL查询功能,SQL语句转换为MapReduce任务进行运行. 优点是可以通过类S ...
- 【大数据】Hive学习笔记
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...
- Hive—学习笔记(一)
主要内容: 1.Hive的基本工能机制和概念 2.hive的安装和基本使用 3.HQL 4.hive的脚本化运行使用方式 5.hive的基本语法--建表语法 6.hive的基本语法--内部表和外部表. ...
- HIVE—数据仓库
1. hive是什么? Hive是基于 Hadoop 的一个数据仓库工具: 1. hive本身不提供数据存储功能,使用HDFS做数据存储: 2. hive也不分布式计算框架,h ...
- hive数据仓库建设
hive数据仓库建设 1.设计原生日志表 原生日志表用来存放上报的原始日志,数据经过清洗加工后会进入到各个日志表中. 1.1 创建数据库 #创建数据库 $hive>create database ...
- 高速查询hive数据仓库表中的总条数
Author: kwu 高速查询hive数据仓库中的条数.在查询hive表的条数,通常使用count(*).可是数据量大的时候,mr跑count(*)往往须要几分钟的时间. 1.传统方式获得总条数例如 ...
随机推荐
- win10+anaconda+cuda配置dlib,使用GPU对dlib的深度学习算法进行加速(以人脸检测为例)
在计算机视觉和机器学习方向有一个特别好用但是比较低调的库,也就是dlib,与opencv相比其包含了很多最新的算法,尤其是深度学习方面的,因此很有必要学习一下.恰好最近换了一台笔记本,内含一块GTX1 ...
- git ssh 配置
创建并切换到 ~/.ssh(存在就直接切换过去) 运行 ssh-keygen 创建 rsa 文件 复制 .pub 的文件内容,添加到网站的公钥列表 Git\etc\ssh\ssh_config 中添加 ...
- js中的回调函数
1.你定义的 2.你没有调用 3.但是最终他执行了 例子: 定时器回调函数 setTimeout(function(){ },100); dom元素的回调函数 document.getElementB ...
- acm水题3个:1.求最大公约数;2.水仙花数;3.判断完数
//7.求两个整数的最大公约数#include<stdio.h>//用穷举法求出最大公约数int gcd1(int m,int n){ int min = m > n ? n : m ...
- mysql忘记密码解决的办法
[很管用]忘记mysql root密码解决办法 1.编辑MySQL配置文件: 首先停止mysql服务, 然后开始编辑mysql配置文件:vi /etc/my.cnf在[mysqld]配置段添加如下一行 ...
- Spark源码编译(未完待续)
在这里我们不需要搭建独立的Spark集群,利用Yarn Client调用Hadoop集群的计算资源. Spark源码编译生成配置包: 解压源码,在根去根目录下执行以下命令(sbt编译我没尝试) ./m ...
- openstack-ocata-镜像服务3
一. 镜像服务概述 镜像服务(glance)使用户能够发现.登记,并检索虚拟机镜像.它提供了一个REST API,使您可以查询虚拟机镜像元数据和检索一个实际的形象.可以存储虚拟机镜像通过镜像服务在不同 ...
- java 8 Lambda表达式(翻译自Stackoverflow)
(原文链接)Lambda只能作用于一个只有一个抽象方法的函数式接口(Function Interface),不过函数式接口可以有任意数量default或static修饰的方法(因此,它们有时也被当做单 ...
- java中servletContextListener、httpSessionListener和servletRequestListener使用整理
在java web应用中,listener监听器似乎是必不可少的,常常用来监听servletContext.httpSession.servletRequest等域对象的创建.销毁以及属性的变化等等, ...
- 利用squid 搭建简单的透明代理服务器
环境介绍 虚拟主机1: ip eth0192.168.0.100/24 eth1: 200.168.0.100/24 虚拟主机2(模拟外网) 200.168.0.109/24 (运行web serve ...