Hive 口袋手册
2019-04-01
关键字:Hive 学习总结、Hive 基础 、 Hive 进阶 、Hive 调优 、 Hive 入门手册、Hive PDF 下载
本篇文章系本人就目前所掌握的知识对 Apache Hive 的各种零碎知识点汇总而成的一篇小册子,不保证文章的绝对、完全正确性。
前段时间在整理我的笔记时,发现自己之前在学习 Hive 的过程中做了不少笔记。但是这些笔记真是既杂乱又无章,我相信就这些笔记,我这辈子都很难有到回去翻看的念头。一时间 “整理癖” 发作,且想着借笔记整理的过程再好好回顾一下 Hive 的各个知识点,于是就整理出了这篇 《Hive 口袋手册》。
《Hive 口袋手册》是笔者根据自己对 Apache Hive 的知识点的理解汇总而成的小册子。这本小册子的撰写宗旨就两点 1. 常用;2. 概要。 这就注定了这本小册子并不是一本 “全面”、“详尽” 的书籍,它是一个对常用知识点的概括性总结,或者也可以称之为 “备忘录”。它适合于对 Hive 已经有一定了解的人群,亦或是作为面试前的知识回顾手册。
写这本册子的初衷一是为了总结自己关于 Hive 的学习过程,二是为了将自己学习过程中七零八乱的笔记做个整理、汇总。
这本小册子目前最新版本为 : v20190401002 ,该版本共有 28K 字。
这本小册子有别于传统的教材书籍中每讲到一个知识点都直接从入门讲到高级知识的方式,而是采用 基础、进阶、调优 的方式来安排内容。这就意味着,同一个知识点,可能在不同的章节都会讲一下,但这个知识点在每一处所涉及到的深度都是不一样的。
以下贴出的是本册子的目录,感兴趣的小伙伴们可以从文章底部给出的链接中选择一个来阅读
1、基础
1.1、Hive 简介
1.1.1、什么是 Hive
1.1.2、为什么使用 Hive
1.1.3、Hive 的特点
1.1.4、Hive 与 Hadoop 的关系
1.1.5、Hive 与传统数据库的对比
1.1.6、Hive 的数据存储
1.2、Hive 的架构
1.3、Hive 的安装与配置
1.3.1、前提条件
1.3.2、Hive 的安装
1.3.3、Hive 工作模式的选择
1.3.4、Hive 的配置
1.4、Hive Shell
1.4.1、Hive 中执行 Bash 命令
1.4.2、变量与属性
1.4.3、操作 HDFS
1.5、Hive DDL
1.5.1、数据类型
1.5.2、操作库
1.5.3、操作表
1.6、Hive DML
1.6.1、导入数据
1.6.2、导出数据
1.7、Hive 函数
1.7.1、数学函数
1.7.2、集合函数
1.7.3、类型转换函数
1.7.4、日期函数
1.7.5、条件函数
1.7.6、字符串函数
1.7.7、聚合函数
1.7.8、表生成函数
1.7.9、自定义函数
1.8、Hive 操作符
1.9、Hive 查询
1.9.1、普通查询
1.9.2、嵌套查询
1.9.3、连接查询
1.9.4、分组与排序
1.9.5、合并查询
1.9.6、如何避免触发 MapReduce
2、进阶
2.1、软件配置
2.1.1、常用属性
2.1.2、hiveserver2
2.2、存储规划
2.2.1、Hive 的数据存储格式
2.2.2、内部表与外部表
2.2.3、分区与分桶
2.2.4、视图与索引
2.2.5、压缩与归档
2.2.6、字符集设置
2.2.7、SerDe
2.3、查询技巧
2.3.1、Hive 的读时模式
2.3.2、一次性查询与脚本查询
2.3.3、查看表详细信息
2.3.4、beeline
2.3.5、排序
2.3.6、去重
2.3.7、其它
2.4、运行原理
2.4.1、HQL 的执行过程
2.4.2、load 数据的原理
2.5、JDBC 编程
3、调优
3.1、EXPLAIN
3.2、连接查询
3.2.1、左半连接查询
3.2.2、map 端连接查询
3.2.3、连接查询的优化
3.3、使用本地查询
3.4、严格模式
3.5、数据倾斜
3.6、关于 MapReduce
3.6.1、控制 map, reduce 任务数量
3.6.2、合并 MapReduce 作业
3.6.3、合并小文件
这本小册子并不是最终版本,以后如果有机会的话,还会更新内容的,或修正错误或新增内容。
目前共提供两种阅读方式
1. 在线阅读
2. 离线 PDF
在线阅读: http://a7082273.wiz03.com/share/s/2D229P0BMQAh2nyO0L1350Wn10WVL12dmQF62b9ZdI1KVLVO
百度云盘: https://pan.baidu.com/s/1hCUnmHiWKl9tmXAcQC97JA 提取码: e51f
Hive 口袋手册的更多相关文章
- Hive官方手册翻译(Getting Started)
翻译Hive官方文档系列,文中括号中包含 注: 字样的,为我自行标注的,水平有限,翻译不是完美无缺的.如有疑问,请参照Hive官方文档对照查看. 内容列表 Cloudera制作的Hive介绍视频 ...
- Hive官方手册翻译(Getting Started)(转)
原文:http://slaytanic.blog.51cto.com/2057708/939950 翻译Hive官方文档系列,文中括号中包含 注: 字样的,为我自行标注的,水平有限,翻译不是完美无缺的 ...
- hive部署手册
安装环境: 机器 只需要安装一台机器 操作系统:Ubuntu 11.04 64操作系统 hadoop:版本是1.0.2,安装在/usr/local/hadoop sun ...
- Hive 官方手册翻译 -- Hive Transactions (Hive 事务)
由 Alan Gates创建, 最终由 Andrew Sherman修改于2018年8月7日 原文链接:https://cwiki.apache.org/confluence/display/Hive ...
- Hive 官方手册翻译 -- Hive DML(数据操纵语言)
由 Confluence Administrator创建, 最终由 Lars Francke修改于 八月 15, 2018 原文链接 https://cwiki.apache.org/confluen ...
- Hive 官方手册翻译 -- Hive DDL(数据定义语言)
Hive DDL(数据定义语言) Confluence Administrator创建, Janaki Lahorani修改于 2018年9月19日 原文链接 https://cwiki.apache ...
- Apache Hudi 与 Hive 集成手册
1. Hudi表对应的Hive外部表介绍 Hudi源表对应一份HDFS数据,可以通过Spark,Flink 组件或者Hudi客户端将Hudi表的数据映射为Hive外部表,基于该外部表, Hive可以方 ...
- 【Hive学习之二】Hive SQL
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...
- Hadoop Hive概念学习系列之hive里的扩展接口(CLI、Beeline、JDBC)(十六)
<Spark最佳实战 陈欢>写的这本书,关于此知识点,非常好,在94页. hive里的扩展接口,主要包括CLI(控制命令行接口).Beeline和JDBC等方式访问Hive. CLI和B ...
随机推荐
- CRM之分页
分页简介 分页功能在网页中是非常常见的一个功能,其作用也就是将数据分割成多个页面来进行显示. 使用场景: 当取到的数据量达到一定的时候,就需要使用分页来进行数据分割. 当我们不使用分页功能的时候,会面 ...
- Fragment已经被added了导致的异常。
java.lang.IllegalStateException: Fragment already added: ******Effect 出现的原因是commit方法提交是异步的,所以容易出现,判 ...
- C++析构函数可虚性探究
C++虚析构函数 析构函数是用来释放对象所申请的资源的函数. 当类内没有自定义的析构函数时,系统会自动调用默认的析构函数. 那么析构函数能否为虚函数呢? 虚函数的意义在于实现“多态性”.即:不同的个体 ...
- 缓存ABC
缓存ABC Intro 缓存是一种比较常见的用来将提高系统性能的方式.从线程缓存.进程缓存.到内存缓存再到分布式缓存再到CDN,都是属于缓存的范畴. 缓存的本质是空间换时间以提高读的效率,牺牲一些内存 ...
- Redis数据库云端最佳技术实践
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯云数据库 TencentDB发表于云+社区专栏 邹鹏,腾讯高级工程师,腾讯云数据库Redis负责人,多年数据库.网络安全研发经验. ...
- 【重新发布,代码开源】FPGA设计千兆以太网MAC(1)——通过MDIO接口配置与检测PHY芯片
原创博客,转载请注明出处:[重新发布,代码开源]FPGA设计千兆以太网MAC(1)——通过MDIO接口配置与检测PHY芯片 - 没落骑士 - 博客园 https://www.cnblogs.com/m ...
- awk、grep、sed是linux操作文本的三大利器,也是必须掌握的linux命令之一
awk.grep.sed是linux操作文本的三大利器,也是必须掌握的linux命令之一.三者的功能都是处理文本,但侧重点各不相同,其中属awk功能最强大,但也最复杂.grep更适合单纯的查找或匹配文 ...
- 一天一个Linux命令--dhclient
dhclient -r #用于释放ip地址2 dhclient #获取IP地址 主要针对只有命令行的Linux机器,临时改变了网络环境,事先手动设置的ip地址 看一下自带的解释 root@ubuntu ...
- MFC桌面电子时钟的设计与实现
目录 核心技术 需求分析 程序设计 程序展示 (一)核心技术 MFC(Micosoft Foundation Class Libay,微基础类库)是微基于Windows平台下的C++类库集合,MFC包 ...
- hello随笔
初次来到博客园,都试一下 我明白了,随笔就是博客咯.日记自对自己可见.再试试分类吧