Hive Query生命周期 —— 钩子（Hook）函数篇

无论你通过哪种方式连接Hive（如Hive Cli、HiveServer2），一个HQL语句都要经过Driver的解析和执行，主要涉及HQL解析、编译、优化器处理、执行器执行四个方面。

以Hive目前原生支持计算引擎MapReduce为例，具体处理流程如下：

HQL解析生成AST语法树Antlr定义SQL的语法规则，完成SQL词法和语法解析，将SQL转化为抽象语法树AST Tree
语法分析得到QueryBlock遍历AST Tree，抽象出查询的基本组成单元QueryBlock
生成逻辑执行计划遍历QueryBlock，翻译为执行操作树Operator Tree
Logical Optimizer Operator进行逻辑优化逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量
生成物理执行计划Task Plan遍历Operator Tree，翻译为MapReduce任务
物理优化Task Tree，构建执行计划QueryPlan物理层优化器进行MapReduce任务的变换，生成最终的执行计划
表以及其他操作鉴权
执行引擎执行

在Hive Query整个生命周期中，会有如下钩子函数被执行：

HiveDriverRunHook的preDriverRun

该钩子函数由参数hive.exec.driver.run.hooks控制，决定要运行的pre hooks，多个钩子实现类以逗号间隔，钩子需实现 org.apache.hadoop.hive.ql.HiveDriverRunHook接口。

HiveSemanticAnalyzerHook的preAnalyze

在Driver开始run之前，HQL经过解析会进入编译阶段的语法分析，而在语法分析前会经过钩子HiveSemanticAnalyzerHook的preAnalyze方法处理。该钩子函数由hive.semantic.analyzer.hook配置，钩子需实现org.apache.hadoop.hive.ql.parse.HiveSemanticAnalyzerHook接口。

HiveSemanticAnalyzerHook的postAnalyze

与preAnalyze同属于一个钩子类，配置参数相同，会执行所有配置的语义分析hooks，但它位于Hive的语法分析之后，可以获取HQL的输入和输出表及分区信息，以及语法分析得到的task信息，由此可以判断是否是需要分布式执行的任务，以及执行引擎是什么。

生成执行计划之前的redactor钩子

该钩子由hive.exec.query.redactor.hooks配置，多个实现类以逗号间隔，钩子需继承org.apache.hadoop.hive.ql.hooks.Redactor抽象类，并替换redactQuery方法。

这个钩子函数是在语法分析之后，生成QueryPlan之前，所以执行它的时候语法分析已完成，具体要跑的任务已定，这个钩子的目的在于完成QueryString的替换，比如QueryString中包含敏感的表或字段信息，在这里都可以完成替换，从而在Yarn的RM界面或其他方式查询该任务的时候，会显示经过替换后的HQL。

task执行前的preExecutionHook

在执行计划QueryPlan生成完，并通过鉴权后，就会执行具体的task，而task执行之前会经过一个钩子函数，钩子函数由hive.exec.pre.hooks配置，多个钩子实现类以逗号间隔。实现方式：

1）实现org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext

通过实现该接口的run方法，执行所有的pre-execution hooks

// Pre/Post Execute Hook can run with the HookContext

public interface ExecuteWithHookContext extends Hook {

/** hookContext: The hook context passed to each hooks.

   *  HookContext带有执行计划、Hive的配置信息、Lineage、UGI、提交的用户以及输入输出表等信息

   */

void run(HookContext hookContext) throws Exception;

}

2）实现org.apache.hadoop.hive.ql.hooks.PreExecute

该接口的run方法已经标注为过时，并且相对于ExecuteWithHookContext，PreExecute提供的信息可能不能完全满足我们的业务需求。

public interface PreExecute extends Hook {

/**

   * The run command that is called just before the execution of the query.

   * SessionState、UGI、HQL输入表及分区信息，HQL输出表、分区以及本地和hdfs文件目录信息

   */

@Deprecated

public void run(SessionState sess, Set<ReadEntity> inputs,Set<WriteEntity> outputs, UserGroupInformation ugi) throws Exception;

}

task执行失败时的ON_FAILURE_HOOKS

task执行失败时，Hive会调用这个hook执行一些处理措施。该钩子由参数hive.exec.failure.hooks配置，多个钩子实现类以逗号间隔。需实实现org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext接口。

task执行完成时的postExecutionHook

在task任务执行完成后执行。如果task失败，会先执行ON_FAILURE_HOOKS，之后执行postExecutionHook，该钩子由参数hive.exec.post.hooks指定的hooks（多个钩子实现类以逗号间隔）执行post execution hooks。实现方式：

1）实现org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext

2）实现org.apache.hadoop.hive.ql.hooks.PostExecute

ExecuteWithHookContext和PostExecute跟分别与上述task执行前的preExecutionHook、PreExecute对应，这里不再赘述。

HiveDriverRunHook的postDriverRun

在查询完成运行之后以及将结果返回给客户端之前执行，与preDriverRun对应。

此外，Hive中已经有一些内置实现的hook，下面举一些例子以及它们的主要作用：

ATSHook：实现了ExecuteWithHookContext，将查询和计划信息推送到Yarn App Timeline Server。

DriverTestHook：实现了HiveDriverRunHook的preDriverRun方法（对postDriverRun是空实现），用于打印输出的命令。

EnforceReadOnlyTables：pre execute hook，实现了ExecuteWithHookContext，用于阻止修改只读表。

LineageLogger：实现了ExecuteWithHookContext，它将查询的血统信息记录到日志文件中。LineageInfo包含有关query血统的所有信息。

PreExecutePrinter和PostExecutePrinter：pre和post hook的示例，它将参数打印输出。

PostExecTezSummaryPrinter：post execution hook，实现了ExecuteWithHookContext，可以打印Hive Tez计数器的相关信息。

PostExecOrcFileDump：post execution hook，实现了ExecuteWithHookContext，用于打印ORC文件信息。

UpdateInputAccessTimeHook：pre execution hook，可在运行查询之前更新所有输入表的访问时间。

特别强调一下LineageLogger和LineageInfo，对于做Hive血缘关系分析很有参考价值，当然Hive血缘分析不是本篇文章的重点，这里先不做展开。

通过对上面Hive中hook的执行"位置"和作用，以及Hive本身实现的一些Hook，分析可知：自定义hook，比如实现一个pre execution hook。

首先在maven的pom中引入hive-exec的依赖，如：

<dependency>

            <groupId>org.apache.hive</groupId>

            <artifactId>hive-exec</artifactId>

            <version>2.1.0</version>

</dependency>

此外，还需创建一个实现ExecuteWithHookContext的类，实现其中的run方法，并设置相应的参数，使自定义的hook类生效。

最后，通过一张图，来对Hive Hook做个总结：

关联文章：
Hive Join优化
 Apache Hive

Hive Query生命周期 —— 钩子（Hook）函数篇的更多相关文章

Vue的钩子函数[路由导航守卫、keep-alive、生命周期钩子]
前言说到Vue的钩子函数,可能很多人只停留在一些很简单常用的钩子(created,mounted),而且对于里面的区别,什么时候该用什么钩子,并没有仔细的去研究过,且Vue的生命周期在面试中也算是比 ...
vue之生命周期钩子函数之运用
一.什么是生命周期钩子函数: 每个 Vue 实例在被创建时都要经过一系列的初始化过程——例如,需要设置数据监听.编译模板.将实例挂载到 DOM 并在数据变化时更新 DOM 等.同时在这个过程中也会运行 ...
Vue生命周期钩子函数和组件传值
Vue生命周期钩子函数每个 Vue 实例在被创建时都要经过一系列的初始化过程——例如,需要设置数据监听.编译模板.将实例挂载到 DOM 并在数据变化时更新 DOM 等. 同时在这个过程中也会运行一 ...
vue-实例生命周期钩子(不太明白)
每个 Vue 应用都是通过用 Vue 函数创建一个新的 Vue 实例开始的: var vm = new Vue({ // 选项}) 每个 Vue 实例在被创建时都要经过一系列的初始化过程——例如,需要 ...
vue生命周期图示中英文版Vue实例生命周期钩子
vue生命周期图示中英文版Vue实例生命周期钩子知乎上近日有人发起了一个 “react 是不是比 vue 牛皮,为什么?” 的问题,Vue.js 作者尤雨溪12月4日正面回应了该问题.以下是尤雨溪回复 ...
vue学习三:生命周期钩子
生命周期钩子介绍: 每个 Vue 实例在被创建时都要经过一系列的初始化过程——例如,需要设置数据监听.编译模板.将实例挂载到 DOM 并在数据变化时更新 DOM 等.同时在这个过程中也会运行一些叫做生 ...
Vue学习之生命周期钩子小结（四）
一.生命周期钩子(函数): 1.每个 Vue 实例在被创建时都要经过一系列的初始化过程——例如,需要设置数据监听.编译模板.将实例挂载到 DOM 并在数据变化时更新 DOM 等.同时在这个过程中也会运 ...
Vue_(组件)实例生命周期钩子
Vue生命周期中文文档传送门 Vue生命周期:Vue实例从创建到销毁的过程,称为Vue的生命周期: Vue生命周期钩子:又称为Vue生命周期钩子方法/函数,是Vue为开发者提供的方法,我们可以通过这 ...
前端（二十）—— vue介绍：引用vue、vue实例、实例生命周期钩子
vue 一.认识Vue 定义:一个构建数据驱动的 web 界面的渐进式框架优点: 1.可以完全通过客户端浏览器渲染页面,服务器端只提供数据 2.方便构建单页面应用程序(SPA) 3.数据驱动 =&g ...

随机推荐

ftp之filezilla使用记录
1.550 can't access file错误我们在客户端查看文件时,有些文件被另外的程序占用了,就会出现这个错误.比如,log日志文件.解决办法:在server端,找到settings设置,找 ...
使用MySQL乐观锁解决超卖问题
在秒杀系统设计中,超卖是一个经典.常见的问题,任何商品都会有数量上限,如何避免成功下订单买到商品的人数不超过商品数量的上限,这是每个抢购活动都要面临的难点. 1 超卖问题描述在多个用户同时发起对同一 ...
Jmeter（1）下载和安装
一.Jmeter工具安装 1.jmeter安装包下载地址:http://jmeter.apache.org/,下载Binaries包,使用jmeter需要先安装jdk 2.解压后打开/bin目录下的j ...
封装事件订阅来进行非父子组件的传值(React)
const list={} // 将事件名和事件函数装进事件池里 function $on(name,func) { if(!name || !func) return; if(!Object.key ...
小米k30 pro刷国际版rom
时间:2020.8.20 最新的是miui12但是普遍反映耗电量巨大,所以还是刷miui11了. 知乎上有个教程:https://zhuanlan.zhihu.com/p/86160027 但是是针对 ...
MySQL PXC集群安装配置
1.关闭防火墙 [root@node04 ~]#systemctl disable firewalld [root@node04 ~]#systemctl stop firewalld [root@n ...
rman恢复实践
1) Loss of system DATAFILE 2) Loss of non-system DATAFILE 3) Loss of a DATAFILE without Backup 4) Lo ...
ubuntu20.04 系统初始化与美化
ubuntu20.04 系统初始化与美化参考博客:https://mp.weixin.qq.com/s/JowjHrs9GMVlolaoaSGiEg 参考博客:https://www.linuxmi ...
winform判断程序是否运行，且只能运行一个实例
前言判断程序是否已经运行,使程序只能运行一个实例有很多方法,下面记录两种. 目前使用的是第一种方法. 方法1:线程互斥 static class Program { private static S ...
vSphere Esxi 6.x 常用序列号
以下资料转载于互联网公开资料,不得用于商业用途,仅做学习交流. vSphere 6 Enterprise Plus1F6XH-8VJ9L-481Y9-L835P-CFHHA1G28U-AW18P-08 ...

Hive Query生命周期 —— 钩子（Hook）函数篇

Hive Query生命周期 —— 钩子（Hook）函数篇的更多相关文章

随机推荐

热门专题