hive 0.10 0.11新增特性综述

我们的hive版本升迁经历了0.7.1 -> 0.8.1 -> 0.9.0，并且线上shark所依赖的hive版本也停留在0.9.0上，在这些版本上有我们自己的bug fix patch和feature enhancement。但是Hive的版本升级很快，新版本中修复了大量bug，新增了很多功能，非常令人兴奋，其中包括对未来hadoop升级为YARN的支持。所以我们准备将hive版本升级为0.11(最近看到mailist上0.12版本也快呼之欲出了，但是保险起见，还是先升级为0.11), 另外shark的github上也已经拉出了hive 0.11分支来支持新版本。

因为是从0.9一下跳过0.10跨越到0.11，所以调研和测试会cover掉hive 0.10和0.11

从hive的release note上，0.10新加的feature和bug fix如下：
1. 支持Cube, Grouping and Rollup语法，可以进行多级group by
https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation,+Cube,+Grouping+and+Rollup

2. 对于简单的不需要聚合的类似SELECT <col> from <table> LIMIT 20语句，不需要起MapReduce job，直接通过Fetch task获取数据
https://issues.apache.org/jira/browse/HIVE-887

3. 新增"Explain dependency"语法，以json格式输出执行语句会读取的input table和input partition信息，这样debug语句会读取那些表就很方便了
https://issues.apache.org/jira/browse/HIVE-3610

hive (default)> explain dependency select count(1) from abc;
OK
Explain
{"input_partitions":[],"input_tables":[{"tablename":"default@abc","tabletype":"MANAGED_TABLE"}]}
Time taken: 0.095 seconds, Fetched: 1 row(s)

4. 新增"show create table"语法，这样能知道是如何创建表的。之前我们很暴力，直接读取metastore dababase信息来重建表结构信息，如果一旦metastore schema升级，就很容易出问题，这次hive应该是通过metastore client api实现了这个功能，非常靠谱。

https://issues.apache.org/jira/browse/HIVE-967

5. HWI用bootstrap前端框架重写了一边，这个对我们帮助不大，因为我们已经有Hive web了

6. Hadoop 2 - YARN的兼容性支持

7. List Bucketing Table，优化处理有数据倾斜的表
https://cwiki.apache.org/confluence/display/Hive/ListBucketing

8. Union优化，如果Union语句的parent是mapreduce job，那么它会先将结果写入临时文件中，Union再读取这些临时文件写入最终目录，上层语句再读取最终目录，这样导致结果文件读了两遍。优化策略就是结果数据直接往最终目录上写
https://cwiki.apache.org/confluence/display/Hive/Union+Optimization

9. skew join 优化
https://cwiki.apache.org/confluence/display/Hive/Skewed+Join+Optimization

10. metastore支持在server side做authorization验证
https://issues.apache.org/jira/browse/HIVE-3705

11. metastore thrift reconnect支持，当metastore client链接一台metastore thrift server抛出异常，如果用户在conf之指定了多个metastore uris，hive会重新对另外一个建立链接，这个对用户端是透明的
https://issues.apache.org/jira/browse/HIVE-3400

12. 记录column统计信息, analyze语句会统计hive table partitions column信息到metastore里面（比如记录long类型column的low value, high value, num nulls, numDVs），同时提供了metastore api接口来访问这些信息，目前的hive优化策略都是基于rule-based的，而有了这些统计信息有助于未来建立cost-based 执行计划策略
语法如下：
analyze table t [partition p] compute statistics for [columns c,...];
https://cwiki.apache.org/confluence/display/Hive/Column+Statistics+in+Hive

13. 支持cross join语法
https://issues.apache.org/jira/browse/HIVE-2549

14. 支持SHOW TBLPROPERTIES语法
https://issues.apache.org/jira/browse/HIVE-2530

----------------------------------------------------不是那么华丽的分割线--------------------------------------------------

Hortonworks发布了一个叫stinger的项目计划，分阶段逐步改善Hive的性能，包括优化器的改进，ORCFile支持，基于DAG的Tez，向量执行引擎，0.11其实就是stinger phase one的产物

0.11 新增的Feature:
1. 把Hcatalog整合到hive里面了，而不是独立的项目

2. 支持ORCFile文件格式，基于列存储，文件内置有inline index，可以基于文件做predicate pushdown，根据stripe的元数据来选择是否跳过stripe，大大降低input size
https://cwiki.apache.org/Hive/languagemanual-orc.html

3. 支持windowing和analytics方法，比如lead/lag, row_number, rank, first, last函数
https://cwiki.apache.org/Hive/languagemanual-windowingandanalytics.html

4. Join优化，包括broadcast join和SMB join，对于在多个相同列上做join的表(star join)已经不依赖于用户指定的hint token了，可以自动转化多个MapReduce job为一个MapReduce job
https://issues.apache.org/jira/browse/HIVE-3403

5. unset TBLPROPERTY
ALTER TABLE tableName UNSET TBLPROPERTIES IF EXISTS (key1, key2, ...)

6. group by 语法增强，group by除了可以跟column alias，也可以跟column position
比如：select f1(col1), f2(col2), f3(col3), count(1) group by f1(col1), f2(col2), f3(col3);可以写成select f1(col1), f2(col2), f3(col3), count(1) group by 1, 2, 3;
https://issues.apache.org/jira/browse/HIVE-581

7. 增加decimal data格式
https://issues.apache.org/jira/browse/HIVE-2693

8. 支持truncate语法，truncate会删除表和分区下的所有数据，但是metadata信息会保留

9. 新增Hive Server 2，解决之前存在的security和concurrency问题。同时新增加了Beeline CLI（基于SQLLine），可以在command-line中以交互式的访问Hive Server 2
https://issues.apache.org/jira/browse/HIVE-2935

10. 增强Query Plan优化策略，会删除冗余的operator
https://issues.apache.org/jira/browse/HIVE-948

接下来会重点对几个新增特性，比如Hive Server 2, ORCFile, SMB join等做更深入的调研和测试

本文链接http://blog.csdn.net/lalaguozhe/article/details/11730817，转载请注明

hive 0.10 0.11新增特性综述的更多相关文章

（数据科学学习手札129）geopandas 0.10版本重要新特性一览
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介就在前不久,我们非常熟悉的Python地理 ...
Java SE 11 新增特性
Java SE 11 新增特性作者:Grey 原文地址:Java SE 11 新增特性源码源仓库: Github:java_new_features 镜像仓库: GitCode:java_new ...
kafka0.9.0及0.10.0配置属性
问题导读1.borker包含哪些属性?2.Producer包含哪些属性?3.Consumer如何配置?borker(0.9.0及0.10.0)配置Kafka日志本身是由多个日志段组成(log segm ...
Kafka 0.10.0
2.1 Producer API We encourage all new development to use the new Java producer. This client is produ ...
Kafka： Producer （0.10.0.0）
转自:http://www.cnblogs.com/f1194361820/p/6048429.html 通过前面的架构简述,知道了Producer是用来产生消息记录,并将消息以异步的方式发送给指定的 ...
Kafka版本升级 ( 0.10.0 -> 0.10.2 )
升级Kafka集群的版本其实很简单,核心步骤只需要4步,但是我们需要在升级的过程中确保每一步操作都不会“打扰”到producer和consumer的正常运转.为此,笔者在本机搭了一个测试环境进行实际的 ...
Java 5，6，7，8，9，10，11新特性
转自https://it18monkey.github.io java5 泛型 (Generics) List<Integer> list=new ArrayList<Integer ...
Java 5，6，7，8，9，10，11新特性吐血总结
作者:拔剑少年简书地址:https://www.jianshu.com/u/dad4d9675892 博客地址:https://it18monkey.github.io 转载请注明出处 java5 ...
Structured Streaming + Kafka Integration Guide 结构化流+Kafka集成指南 (Kafka broker version 0.10.0 or higher)
用于Kafka 0.10的结构化流集成从Kafka读取数据并将数据写入到Kafka. 1. Linking 对于使用SBT/Maven项目定义的Scala/Java应用程序,用以下工件artifact ...

随机推荐

Scala学习之for 循环和 yield 的例子
for循环中的 yield 会把当前的元素记下来,保存在集合中,循环结束后将返回该集合.Scala中for循环是有返回值的.如果被循环的是Map,返回的就是Map,被循环的是List,返回的就是Lis ...
linux使用wget纯命令下载JDK的方法(凑字数）
linux使用wget纯命令下载JDK的方法 linux使用wget纯命令下载JDK的方法 Oracle官网上下载jdk,需要点击accept licence的才能下载,所以一般的直接使用wget下载 ...
javascript小练习—记住密码提示框
px/px solid redpxpx]; var oTips = document.getElementById("tips"); oP.onmousemove = functi ...
Exception in MessageQueue callback: handleReceiveCallback
07-20 14:27:11.477: E/InputEventReceiver(7209): Exception dispatching input event. 07-20 14:27:11.47 ...
codeforces 633C. Spy Syndrome 2 hash
题目链接 C. Spy Syndrome 2 time limit per test 2 seconds memory limit per test 256 megabytes input stand ...
用python 10min手写一个简易的实时内存监控系统
简易的内存监控系统本文需要有一定的python和前端基础,如果没基础的,请关注我后续的基础教程系列博客文章github源地址,还可以看到具体的代码,喜欢请在原链接右上角加个star 腾讯视频链接 ...
为SQL Server 增加链接到SQL Server 的链接服务器
整体的分析一下好有一个思路.我们的目的是完成一个到远程服务器的链接. 第一:我们要知道这台服务器在哪(也就是要知道它的IP地址,如果是在同一个网络中知道它的计算机名也是可以的.因为一台服务器上可以安装 ...
AAU账号分割
import win.ui; import fsys.dlg; import string.list; /*DSG{{*/ var winform = win.form(text="aard ...
Azure Traffic Manager 现可与 Azure 网站集成！
编辑人员注释:本文章由 WindowsAzure 网站团队高级专家级工程师 Jim Cheshire撰写. AzureTraffic Manager 已经推出有一段时间,这是一种跨多个区域管理网 ...
利用BP神经网络预测水道浅滩演变
论文 <基于现代技术的河道浅滩演变研究> 利用BP神经网络来预测浅滩演变 BP输出因子:浅滩的年平均淤积厚度以及浅滩上最小水深,是反映浅滩变化的两个基本指标,是确定浅滩航道尺度能否满足航行 ...

hive 0.10 0.11新增特性综述

hive 0.10 0.11新增特性综述的更多相关文章

随机推荐

热门专题