hive学习

1.构建在Hadoop之上的数据仓库(数据计算使用MR，数据存储使用HDFS)

2.Hive定义了一种类SQL查询语言----HQL

3.通常用于进行离线数据处理(非实时)

4.一个ETL工具

5.可认为是一个HQL到MapReduce的语言翻译器，将HQL转化成MP来执行

6.多维度数据分析

7.大部分互联网公司使用Hive进行日志分析

8.海量结构化数据离线分析，低成本进行数据分析(不直接编写MR)

HDFS 存储数据

YARN 资源管理

MapReduce 处理数据

Hive是什么？

* 处理的数据存储在HDFS

* 分析数据底层的实现MapReduce

* 执行程序运行的YARN

1、由Facebook开源用于解决海量结构化日志的数据统计；

2、Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能；

3、构建在Hadoop之上的数据仓库；

使用HQL作为查询接口；

使用HDFS存储；

使用MapReduce计算；

本质是：将HQL转化成MapReduce程序

Hive 架构(a、b、c、d)

a: 用户接口：Client

CLI(hive shell)、JDBC/ODBC(java访问hive),WEBUI(浏览器访问hive)

b:元数据：Metastore（通常存储在关系型数据库中，比如MySql）

元数据包括：表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录(该表对应的数据文件存储位置)等；

默认存储在自带的derby数据库中，推荐使用采用MySQL存储Metastore；

c:Hadoop

使用HDFS进行存储，使用MapReduce进行计算；

d:驱动器：Driver

包含：解析器、编译器、优化器、执行器；

解析器：将sql字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、sql语义是否有误(比如select中被判定为聚合的字段在group by中是否有出现)；

编译器：将AST编译生成逻辑执行计划；

优化器：对逻辑执行计划进行优化；

执行器：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/TEZ/Spark；

Hive优点

1、操作接口采用类SQL语法，提供快速开发的能力(简单、容易上手)；

2、避免了去写MapReduce，减少开发人员的学习成本；

3、统一的元数据管理，可与impala/spark等共享元数据；

4、易扩展(HDFS+MapReduce：可以扩展集群规模；支持自定义函数)；

Hive使用场景

1、数据的离线处理；比如：日志分析，海量数据化数据离线分析。。。

2、Hive的执行延迟比较高，因此hive常用于数据分析的，对实时性要求不高的场合；

3、Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。

RDBMS关系型数据库表的概念

SQL on Hadoop---HiveQL hql

ETL

官网： http://hive.apache.org

https://github.com/apache/hive

文档： https://cwiki.apache.org/confluence/display/Hive/GettingStarted

https://cwiki.apache.org/confluence/display/Hive/Home

下载： http://archive.apache.org/dist/hive/

hive学习_01的更多相关文章

hive学习
大数据的仓库Hive学习 10期-崔晓光 2016-06-20 大数据 hadoop 10原文链接我们接着之前学习的大数据来学习.之前说到了NoSql的HBase数据库以及Hadoop中 ...
Hive学习路线图(转)
Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig ...
【转】Hive学习路线图
原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Ha ...
Hive学习之六《Hive进阶— —hive jdbc》详解
接Hive学习五 http://www.cnblogs.com/invban/p/5331159.html 一.配置环境变量 hive jdbc的开发,在开发环境中,配置Java环境变量修改/etc ...
C++基础学习_01
C++基础学习_01 基础知识:1.命名空间,2.IO流(输入输入),3.参数缺省,4.函数重载 1.命名空间作用:对标识符的名称进行本地化,避免命名冲突定义:namaspace space_na ...
Hive学习路线图--张丹老师
前言 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作 ...
Hive学习系列博客
原 Hive作业优化原 Hive学习六:HIVE日志分析(用户画像) 原 Hive学习五--日志案例分析原 Hive学习三原 Hive学习二原 Hive学习一博客来源,https://blo ...
hive学习路线
hive学习路线图:
Hive学习之修改表、分区、列
Hive学习之修改表.分区.列 https://blog.csdn.net/skywalker_only/article/details/30224309 https://www.cnblogs.co ...

随机推荐

sysstat安装升级
背景: sysstat是什么?? Sysstat,一种常用在Linux系统服务器中的软件工具包,可以用来监控服务器的性能.比如可以监控CPU.硬盘.网络等数据, sysstat提供了Linux性能监控 ...
jQuery 源码学习 - 02 - jQuery.fn.extend 与 jQuery.extend
参考资料:[深入浅出jQuery]源码浅析--整体架构,备用地址:chokcoco/jQuery-. extend 方法在 jQuery 中是一个很重要的方法.jQuery 内部用它来拓展静态方法或者 ...
python标准库：ftplib模块
ftplib模块包含了文件传输协议(FTP)客户端的实现. 下面的例子展示了如何登入和获取进入目录的列表,dir函数传入一个回调函数,该回调函数在服务器相应时每一行调用一次.ftplib模块默认的回调 ...
HBase完全分布式集群搭建
HBase完全分布式集群搭建 hbase和hadoop一样也分为单机版,伪分布式版和完全分布式集群版,此文介绍如何搭建完全分布式集群环境搭建.hbase依赖于hadoop环境,搭建habase之前首先 ...
分布式ID生成策略 · fossi
分布式环境下如何保证ID的不重复呢?一般我们可能会想到用UUID来实现嘛.但是UUID一般可以获取当前时间的毫秒数再加点随机数,但是在高并发下仍然可能重复.最重要的是,如果我要用这种UUID来生成分表 ...
Hexo之旅(四)：文章编写技巧
hexo 编写文章可以使用以下命令创建hexo new "文件名" #创建的文章会在_pots目录下文章的后缀名是以md命名的文件格式,遵循markdown语法,所以编写文章可以使 ...
学习HEXO的历程
前言: 简介开始搭建命令 API测试逛github相关的帖子时,发现了hexo.正好想要做一个个人的博客,用来记录自己的各类感悟,所以花一些时间学习学习,以后博客可以放github,省得去注册c ...
java.lang.SecurityException: class "javax.servlet.AsyncContext"'s signer information does not match signer information of other classes in the same package
最近在写个Http协议的压测挡板时,遇到以下错误. 2018-03-08 10:34:07.808:INFO:oejs.Server:jetty-8.1.9.v20130131 2018-03-08 ...
Python 中的集合 --set
前言在Python中,我们用[]来表示列表list,用()来表示元组tuple,那{}呢?{}不光可用来定义字典dict,还可以用来表示集合set. 集合 set 集合(set)是一个无序的不重复元 ...
echarts 图点击事件
有三种方式,介绍一下,大家学习哈 1.利用tooltip记录信息,使用zr 监听事件,进行事件处理. 这种方法是利用showTip方法或者tooltip的formatter函数记录选中的数据信息,并在 ...

hive学习_01

hive学习_01的更多相关文章

随机推荐

热门专题