Hive——简介

Hive 是基于 Hadoop 构建的一套数据仓库分析系统，它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能.可以将 SQL 语句转换为 MapReduce 任务进行运行，通过自己的 SQL 去查询分析需要的内容，这套 SQL 简称 Hive SQL。

Hive的产生背景及介绍

产生背景

1)MapReduce编程的不便性（MapReduce编程十分繁琐，而且不方便修改）

2)HDFS上缺少Schema

Hive是什么

1)由FaceBook开源，最初用于解决海量结构化的日志数据统计问题

2)构建在hadoop上的数据仓库

3)Hive定义了一种类SQL查询语言：HQL(类似sql但不完全相同)

4)通常用于进行离线数据处理(早期底层采用mapreduce)

5)底层支持多种不同执行引擎

6)支持多种不同的压缩格式、存储格式以及自定义函数

（Hive现在的底层执行引擎支持很多包括spark(Hive on spark)，mapreduce(Hive on mapreduce)、Tez(Hive on Tez)）

为什么要用Hive（Hive的优势）

1)简单、容易上手（提供了类似sql查询语言hql）

2)为超大数据集设计的计算/存储扩展能力（MR计算，HDFS存储）

3)统一的元数据管理（可于Presto/Impala/SparkSQL等共享数据）

Hive的发展历程

在Hive的发展历程中，不得不提的就是Stinger

Stinger分了几个阶段来做：Phase 1、2、3 ，Stringer.next；这几个阶段对Hive性能的提升是非常至关重要的

07/08 facebook

13/05 hive-0.11 Stinger Phase 1 加入了ORC/HiveServer2

13/10 hive-0.12 Stinger Phase 2 ORC improvement(对ORC做了些改善)

14/04 hive-0.13 Stinger Phase 3 Tez/Vectorized query engine(加入了Tez和支持向量化的查询)

14/11 hive-0.14 Stinger.next Phase 1 Cost-based optimizer(Cost-based简称CBO)

(The Stinger Initiative making Apache Hive 100 times faster)

Hive系统架构

Command-line shell：shell操作客户端

Trift/JDBC：Thrift代表一种协议/服务端启起来，客户端可以通过JDBC的方式去访问

Driver:接收sql做相应的分析处理：

1）首先将SQL语句转换成抽象语法树(抽象语法树拿到是不能执行的)

2）将抽象语法树转换成逻辑执行计划

3）对逻辑执行计划进行优化，形成物理执行计划，优化之后才能够变成作业去运行

MapReduce:底层执行引擎

HadoopStorage:计算结果输出存储

Metastore:元数据存储

1）metastore默认是存放在derby库中，通常现实中部署都是存放在mysql库中。其中生产上存储metastore的mysql要做HA.

2）metastore包括的内容：

1>：database: name,location,owner,name

2>：table: name,owner,location,column name/type/index,createtime

3）hive的metastore是和Spark/impala通用的，例如在hive中创建一张表，在Spark/impala中也能使用，反之Spark/impala创建的表在hive中也能使用。

Hive部署架构

注意点：1）生产上部署时Hive的元数据存储的数据库要做主备。

2）Hive不需要部署在每台机器上，一台就行，他就是一个客户端，解析你的sql生成mr交给yarn运行

Hive——简介的更多相关文章

Hive入门学习--HIve简介
现在想要应聘大数据分析或者数据挖掘岗位,很多都需要会使用Hive,Mapreduce,Hadoop等这些大数据分析技术.为了充实自己就先从简单的Hive开始吧.接下来的几篇文章是记录我如何入门学习Hi ...
大数据 Hive 简介
第一部分:Hive简介什么是Hive •Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. •本质是将SQL转换为MapReduce程序 ...
Hive简介及使用
一.Hive简介 1.hive概述 Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集. 可以将结构投影到已存储的数据中.提供了命令行工具和JDBC驱动 ...
Hadoop入门第五篇:Hive简介以及部署
标签(空格分隔): Hadoop Hive hwi 1.Hive简介之前我一直在Maxcompute上进行大数据开发,所以对数仓这块还算比较了解,在接受Hive的时候基本上没什么大的障碍.所以, ...
数据仓库Hive（一）——hive简介，产生，安装
1.Hive简介数据仓库解释器.编译器.优化器等运行时,元数据存储在关系型数据库里面 1.1数据库和数据仓库的区别数据库需要立即返回结果,数据仓库不需要数据仓库能收纳各种数据源,而数据库只能 ...
Hive简介
实验简介我们本节课程主要介绍 Hive 的相关知识,将会涉及以下内容: Hive 的定义 Hive 的体系结构 Hive 与关系数据库的区别 Hive 的应用场景 Hive 的存储一.什么是 Hi ...
【Hive学习之一】Hive简介
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...
HIVE简介及安装
一.简介百度百科HIVE定义: hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运 ...
Apache Hive 简介及安装
简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能. 本质是将 SQL 转换为 MapReduce 程序. 主要用途:用来 ...

随机推荐

目标检测中特征融合技术（YOLO v4）（下）
目标检测中特征融合技术(YOLO v4)(下) ASFF:自适应特征融合方式 ASFF来自论文:<Learning Spatial Fusion for Single-Shot Object D ...
java后端知识点梳理——多线程与高并发
进程与线程进程是一个"执行中的程序",是系统进行资源分配和调度的一个独立单位线程是进程的一个实体,一个进程中一般拥有多个线程. 线程和进程的区别进程是操作系统分配资源的最小单 ...
使用regulator_get时的一个小注意事项
Linux kernel 使用 regulator 框架来管理电源,比如 PMIC 芯片上常见的LDO.使用 regulator 的常规流程如以下代码所示: void set_vbus_voltage ...
Python OpenCV图片转视频工具贴(三)
Python OpenCV图片转视频粘贴即用,注意使用时最好把自己的文件按照数字顺序命名.按照引导输入操作. # 一键傻瓜式引导图片串成视频 # 注意使用前最好把文件命名为数字顺序格式 import ...
【NX二次开发】获取视图当前的剪辑边界UF_VIEW_ask_current_xy_clip()
UF_VIEW_ask_current_xy_clip()这个函数网上还没有详细的说明,我花了一点时间,详细得理解了一下函数返回的4个值的意思,作为一个猜想,希望有人能验证一下. 获取视图当前的剪辑边 ...
【NX二次开发】基准特征
创建基准特征UF_MODL_create_fixed_daxis 创建一个固定的基准轴特征,方向由点1指向点2UF_MODL_create_fixed_dplane 创建一个固定的基准面特征,输入点和 ...
guavacache源码阅读笔记
guavacache源码阅读笔记官方文档: https://github.com/google/guava/wiki/CachesExplained 中文版: https://www.jianshu ...
Java 垃圾回收机制，13张图给你讲清楚
什么是自动垃圾回收? 第一步:标记第二步:清除压缩为什么需要分代垃圾收集? JVM 分代世代垃圾收集过程什么是自动垃圾回收? 自动垃圾回收是一种在堆内存中找出哪些对象在被使用,还有哪些对象没 ...
题解 P3232 [HNOI2013]游走
洛谷P3232[NOI2013]游走题目描述给定一个 n 个点 m 条边的无向连通图,顶点从 1 编号到 n,边从 1 编号到 m. 小 Z 在该图上进行随机游走,初始时小 Z 在 1 号顶点,每 ...
some requirement checks failed
1.执行安装数据库软件时报错(./runInstaller): 解决:(1)su - root 执行: x host+ 然后 su - oracle 执行:./runIstal ...

Hive——简介

Hive——简介的更多相关文章

随机推荐

热门专题