引言

 
数据平台目前通过Hive SQL的方式提供数据分析服务,系统使用多台HiveServer(JDBCServer)接收客户端连接请求,实际使用场景中频频出现HiveServer内存消耗过多导致机器Swap过高,需要重启HiveServer来缓解问题,但在某些任务比较集中的时间段往往会导致大量任务执行失败(我们配备了相应的任务重试机制,但也会带来一定的影响)。
 
在与运维同学的流通过程中,偶然提到是否可能某台HiveServer接收的连接请求过多,执行过程中负担过重引起的(暂不考虑其它可能因素),引出如下思考:
 
(1)目前平台内置两种HiveServer选择算法:随机选择器(通过随机数对HiveServer数目取余)、哈希选择器(通过UUID的哈希值对HiveServer数目取余),目前采用随机选择器;
(2)目前平台两个模块需要与HiveServer频繁交互:作业管理、数据查询,随着业务发展还会有其它逐步衍生其它模块;
 
问题:随机(哈希)选择算法仅仅考虑单个模块内连接的均衡,而且没有考虑HiveServer正在执行的语句条数(表示繁忙程度,粒度比较粗),在这样的场景下确实可能会出现某台HiveServer在特殊时段内负担相对较重。
 
思路
 
当需要与HiveServer建立连接时,应该有一个接口能够给出当前所有HiveServer各自的工作负载情况(根据当前正在执行的SQL语句条数判断),选择工作负载最低的HiveServer进行连接。
 
因为一次连接存在期间,可以执行多条SQL语句,而且多个模块的存在,在每个模块内置入代码是非常不方便的,因此考虑在HiveServer内部实现。
 
实现
 
要给出当前所有HiveServer各自的工作负载情况,就需要有数据源提供当前所有HiveServer各自正在执行哪些SQL语句(条数),因此HiveServer在执行语句之前、之后需要能够给出相应通知,并持久化到数据源,依据该数据源中的实时数据,即可计算工作负载。
 
假设数据源为MySQL,我们至少需要这样的一张表:
 
server HiveServer名称,同一台机器可以开启多个HiveServer实例
hook PRE_EXEC_HOOK、POST_EXEC_HOOK,分别表示语句执行开始之前、执行线束之后
queryId HiveServer内部语句唯一ID
queryStr 具体执行语句,可根据语句复杂度计算工作负载
jobName 平台自己设置,我们仅仅考虑会转化为MR任务的语句,jobName即为MR JobName
preTime 语句执行之前的时间戳
postTime 语句执行之后的时间戳
 
问题:HiveServer如何在执行语句之前、之后发出相应的通知?
 
我们使用Hive Hook机制,需要实出接口ExecuteWithHookContext,核心代码如下:
 
         QueryPlan queryPlan = hookContext.getQueryPlan();

		HiveConf conf = hookContext.getConf();

		String queryId = queryPlan.getQueryId();

		if (StringUtils.isEmpty(queryId)) {
LOGGER.warn("queryId is null or empty, return"); return;
} LOGGER.info("queryId: " + queryId); String queryStr = URLEncoder.encode(queryPlan.getQueryStr(),
CharEncoding.UTF_8); if (StringUtils.isEmpty(queryStr)) {
LOGGER.warn("queryStr is null or empty, return"); return;
} LOGGER.info("queryStr: " + queryStr); String jobName = conf.getVar(HiveConf.ConfVars.HADOOPJOBNAME); LOGGER.info("jobName: " + jobName); if (StringUtils.isEmpty(jobName)) {
LOGGER.warn("jobName is null or empty, return"); return;
} String server = conf.get("hiveserver.execute.hook.server"); if (StringUtils.isEmpty(server)) {
LOGGER.warn("server is null or empty, return"); return;
} LOGGER.info("server: " + server); String rest = conf.get("hiveserver.execute.hook.rest"); LOGGER.info("rest: " + rest); if (StringUtils.isEmpty(rest)) {
LOGGER.warn("rest is null or empty, return"); return;
} Map<String, String> params = new HashMap<String, String>(); params.put("server", server); params.put("hook", hookContext.getHookType().toString()); params.put("queryId", queryId); params.put("queryStr", queryStr); params.put("jobName", jobName); params.put("timestamp", String.valueOf(DatetimeUtil.now())); try {
HttpClientUtil.doPost(rest, params);
} catch (Exception e) {
LOGGER.error("do post error: "
+ ExceptionUtils.getFullStackTrace(e));
}

  

 
可以看出,该Hook同时可以用于PreHook与PostHook,而且为了保持代码的“轻量级”,并没有直接进行数据的持久化,而是通过Rest API交由外部模块处理。
 
此外需要在hive-site.xml文件中进行相应的设置,如下:
 
 
启动HiveServer时,需要指定该实例的名称与具体的Rest API地址,如下:
 
hive --service hiveserver --hiveconf hiveserver.execute.hook.server=localhost:10000 --hiveconf hiveserver.execute.hook.rest=http://localhost:8088/rest/hiveserver/send
 
总结
 
通过以上的机制可以获取到所有(指定)HiveServer当前(时段内)正在执行的语句条数(如果只有PreTime值,而PostTime值为Null,则表示该条语句正在执行),依此可以计算各自的工作负载,从而选取工作负载最小的HiveServer进行连接。
 
后期进一步优化时还可以充分利用JobName,平台每次执行查询任务时均会设置mapred.job.name属性,用以统计一次查询(可以有多条SQL语句)所处理的数据量、消耗的时间等信息,可以利用这些历史数据信息,用于估计当前正在执行的SQL语句的可能消耗时间,进行优化工作负载的计算。

HiveServer连接优化的更多相关文章

  1. mysql优化之连接优化(open-files-limit与table_open_cache)

    MySQL打开的文件描述符限制 Can't open file: '.\test\mytable.frm' (errno: 24) OS error code : Too many open file ...

  2. mysql优化之连接优化

    Posted by Money Talks on 2012/02/23 | 第一篇 序章第二篇 连接优化第三篇 索引优化第四篇 查询优化第五篇 到实战中去 连接优化 连接优化主要指客户端连接数据库以及 ...

  3. MySQL优化二(连接优化和缓存优化)

    body { font-family: Helvetica, arial, sans-serif; font-size: 14px; line-height: 1.6; padding-top: 10 ...

  4. 百度APP移动端网络深度优化实践分享(二):网络连接优化篇

    本文由百度技术团队“蔡锐”原创发表于“百度App技术”公众号,原题为<百度App网络深度优化系列<二>连接优化>,感谢原作者的无私分享. 一.前言 在<百度APP移动端网 ...

  5. 【mysql 优化 5】左连接和右连接优化

    原文地址:8.2.1.8 Left Join and Right Join Optimization mysql以下列方式实现一个A left join B 连接条件: 1,表B设置为依赖于表A和A所 ...

  6. MySQL实验 内连接优化order by+limit 以及添加索引再次改进

    MySQL实验 内连接优化order by+limit 以及添加索引再次改进 在进行子查询优化双参数limit时我萌生了测试更加符合实际生产需要的ORDER BY + LIMIT的想法,或许我们也可以 ...

  7. 网络编程Netty IoT百万长连接优化

    目录 IoT推送系统 IoT是什么 IoT推送系统的设计 心跳检测机制 简述心跳检测 心跳检测机制代码示例 百万长连接优化 连接优化代码示例 TCP连接四元组 配置优化 IoT推送系统 IoT是什么 ...

  8. http连接优化

    http连接的性能优化 并行连接(能够同一时候和多台server建立HTTP连接) 持久连接 管道化连接 复用的连接 并行连接 长处: 并行连接能够在带宽资源充足的情况下同一时候建立多个HTTP连接, ...

  9. 【mysql 优化 4】嵌套连接优化

    原文地址:Nested Join Optimization 与SQL标准相比,table_factor的语法被扩展.后者仅接受table_reference,而不是一对括号内的列表.如果我们将tabl ...

随机推荐

  1. poj 3735 大数量反复操作问题(矩阵高速幂)

    题意:一个一维数组,3种操作: a:  第i个数+1,b: 第i个数=0 ,c::交换某俩处的数.  由三种基本操作构成一组序列,反复该序列m次(m<10^9),问结果 属于一种综合操作反复型: ...

  2. 再回首,Java温故知新(八):Java基础之字符串

    字符串是Java中使用频率最高的类,但是它却不属于基本类型,而是预定义了String类来表示.从String类的源码可以看到,String是基于char[]实现的,而且Java中的String是不可变 ...

  3. 第二篇:R语言数据可视化之数据塑形技术

    前言 绘制统计图形时,半数以上的时间会花在调用绘图命令之前的数据塑型操作上.因为在把数据送进绘图函数前,还得将数据框转换为适当格式才行. 本文将给出使用R语言进行数据塑型的一些基本的技巧,更多技术细节 ...

  4. chmod -x chmod的N种解法

    声明:该文章摘自陈皓的酷壳. 问题: 如果某天你的Unix/Linux系统上的chomd命令被某人去掉了x属性(执行属性),那么,你如何恢复呢? 参考答案: 1)重新安装.对于Debian的系统: s ...

  5. 模仿ios下的coverflow

    Android高级图片滚动控件,编写3D版的图片轮播器 http://blog.csdn.net/guolin_blog/article/details/17482089 A cool Open So ...

  6. Android系统移植与驱动开发--第三章 Git使用入门及在学习中有感

    第三章 Git使用入门 使用Git的目的是减少各种版本的Linux的压缩大小,提供源代码在Linux上进行编译. 在这一个章节中,其实就是关键步骤的操作,虽然Git与我们学习的android没有很大的 ...

  7. 如何解决eclipse上的Android程序“Please ensure that adb is correctly located at 'D:\eclipse\sdk\platform-tools\adb.exe' and can be executed.”小问题?

    首先,把运行的Android模拟器和eclipse一块儿关了, 然后win+R,cmd, 下面输入adb kill_server 再输入adb start_server 之后重新运行项目,不出意外的话 ...

  8. win7/win8 64位系统注册TeeChart8.ocx 控件---以及dllregisterserver调用失败问题解决办法

    TeeChart控件就不多介绍了,很多朋友不知道开始怎么注册使用,尤其是在64位系统下如何注册的问题,具体如下: win7.win8  64位系统问题所在: 64位的系统一般都是可以安装32位程序的 ...

  9. (转)Css样式兼容IE6,IE7,FIREFOX的写法

    根据FF和IE对一些符号识别的差异,我们可以单独对FF以及IE定义样式,例子: 区别IE6与FF:          background:orange;*background:blue;   区别I ...

  10. css.day04

    1. box   盒子模型 <p>   <span>   <hr/>   <div> css+   div  p  span css+  xhtml b ...