Hive简单优化；workflow调试

Suckseedeva 2024-09-24 21:01:12 原文

1. 定义job名字

SET mapred.job.name='customer_rfm_analysis_L1';

这样在job任务列表里可以第一眼找到自己的任务。

2. 少用distinct, 尽量用group by

因为会把数据弄在一个reduce中，造成数据倾斜。distinct数据数量大于1000条时。

3. join时小表最好放左边

否则会引起磁盘和内存的大量消耗

4. 小表和超大的表join时，可以使用map join

能把小表写入内存中，便于多次读写。

5. 如果union all的部分个数大于2

或者每个union部分数据量大，应该拆成多个insert into 语句

6. SQL里的通用设置

--每个sql的代码都一样
SET mapred.max.split.size=256000000;
SET hive.exec.compress.output=true;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
SET mapred.output.compression.type=BLOCK;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
set mapreduce.map.output.compress=true;
set mapred.map.output.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
set mapreduce.reduce.shuffle.input.buffer.percent =0.6;
set mapreduce.reduce.shuffle.parallelcopies = 5;
set hive.exec.max.created.files=655350;
set hive.exec.max.dynamic.partitions=10000000;
set hive.exec.max.dynamic.partitions.pernode=10000000;

7. workflow

1) coordinator 动态日期获取

${coord:formatTime(coord:dateOffset(coord:nominalTime(),-2,'DAY'), 'yyyy-MM-dd')}

表示取当天的两天之前的日期（格式是 yyyy-MM-dd）

${coord:formatTime(coord:nominalTime(), 'yyyy-MM-dd')}

表示取当天的日期（格式是 yyyy-MM-dd）

注意： 当修改workflow后，需要重新提交coordinator才会生效。

2) coordinator 时间设置

要选用utc时区；

设置时间为需求的执行时间 - 8 hours；

3) coordinator 可以自动识别出 workflow中调用的参数，赋值给它即可。

SQL中的参数要设置成 ${参数名这种}，如果是字符串，'${字符串名}'

workflow中设置参数为 ${参数名}，不需要引号。

4）workflow 参数可以上传一个文件。文件该是什么格式？？

5) 半路结束，状态为failed。

Halting due to Out Of Memory Error...

GC overhead limit exceeded

尝试方法：调大oozie的heapsize，解决！

6）并发子workflow相互不能执行成功，状态为Succeeded。但实际上任务并未完成。是因为有相邻子workflow出现错误

GC overhead limit exceeded

Closing: 0: jdbc:hive2://spark-02:10000/default

Intercepting System.exit(2)

Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.Hive2Main], exit code [2]

8 oozie 可以调用 Hive QL，Spark， Java，Shell

9 Bundle 跟workflow, coordinator 在同一个设置区。

可以把多个coordinator打包成一个。

Hive简单优化；workflow调试的更多相关文章

GCC(警告.优化以及调试选项）
GCC(警告.优化以及调试选项) [介绍] gcc and g++分别是gnu的c & c++编译器 gcc/g++在执行编译工作的时候,总共需要4步 1.预处理,生成.i的文件预处 ...
Hive 常用优化参数
常用调优测试语句 : ①显示当前hive环境的参数值: set 参数名; 如: hive> set mapred.map.tasks;mapred.map.tasks; ②设置hi ...
Hive SQL 优化面试题整理
Hive优化目标在有限的资源下,执行效率更高常见问题: 数据倾斜 map数设置 reduce数设置其他 Hive执行 HQL --> Job --> Map/Reduce 执行计划 ...
Serverless 工程实践 | Serverless 应用优化与调试秘诀
作者|刘宇前言:本文将以阿里云函数计算为例,提供了在线调试.本地调试等多种应用优化与调试方案. Serverless 应用调试秘诀在应用开发过程中,或者应用开发完成,所执行结果不符合预期时,我 ...
一次千万级别的SQL查询简单优化体验
背景:从两张有关联的表查询数据,A表数据量1400万,B表数据量8000万.A与B通过ID逻辑关联,没有实际的外键.B表是后来扩展出来的. 问题:根据某个ID查询时超时,运行时跑不出结果. 原因:使用 ...
Hive性能优化
1.概述继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍首先 ...
双数组trie树的基本构造及简单优化
一基本构造 Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现.它本质上是一个确定的有限状 ...
[mysql] 2进制安装和简单优化
##################################mysql 2进制安装和简单优化################################################## ...
Hive篇---Hive使用优化
一.前述本节主要描述Hive的优化使用,Hive的优化着重强调一个把Hive SQL 当做Mapreduce程序去优化二.主要优化点 1.Hive运行方式:本地模式集群模式本地模式开启本地模式 ...

随机推荐

使用Android Studio搭建Android集成开发环境（图文教程）
[声明] 欢迎转载,但请保留文章原始出处→_→ 生命壹号:http://www.cnblogs.com/smyhvae/ 文章来源:http://www.cnblogs.com/smyhvae/p/ ...
Jira－Clone与发邮件的使用
1.克隆问题包括两部分,先进行Clone,再进行移动 a.选择要克隆的问题,点击More Actions-Clone,在弹出框“复制问题”中,点击“创建”按钮即克隆成功 b.移动问题,点击More ...
Android ant自动打包 crunch 报错
解决办法: 修改SDK_HOME/tool/ant/build.xml. <property name="aapt.ignore.assets" value="&l ...
文件泄露&php代码审计
这道题,还是很不错的.卡在了token绕过那里,不得已看了别人的writeUp,才做出来,惭愧! 但还是想写写WriteUp做一下记录! 首先是打开题目,习惯性查看源码,发现了点蛛丝马迹知道了,管理 ...
08Spring_Spring和junit测试集成
第一步: 在项目导入 spring-test-3.2.0.RELEASE.jar 第二步: 编写测试类
redmine Windows装配
原文:http://www.myexception.cn/windows/1219064.html redmine Windows安装官方地址:http://www.redmine.org/ 所需环 ...
PHP版本VC6和VC9、Non Thread Safe和Thread Safe的区别
链接:http://www.cnblogs.com/neve/articles/1863853.html 想更新个PHP的版本,PHP的windows版本已经分离出来了,见http://windows ...
Spring Batch实践
Spring Batch在大型企业中的最佳实践在大型企业中,由于业务复杂.数据量大.数据格式不同.数据交互格式繁杂,并非所有的操作都能通过交互界面进行处理.而有一些操作需要定期读取大批量的数据,然后 ...
web前端开发资源整理
webpack中文文档 http://webpackdoc.com/index.html 饿了么UI http://mint-ui.github.io/#!/zh-cn http://element. ...
JS案例之7——瀑布流布局(2)
这个例子与上一篇类似,唯一的区别是排序的方式有差别.上一篇是在高度最小的列里插入内容,这个案例是按顺序放置内容. 两种方法各有优缺点.第一种需要在图片内容加载完成的情况下有效.这个例子不需要在wind ...