hive中笛卡尔积的优化

由于一个业务，必须要进行笛卡尔积，但是速度太慢了，left join时左表大概4万条数据，右表大概 3000多条数据，这样大概就是一亿多条数据，

这在大数据领域其实不算很大的数据量，但是hive中跑的特别慢。因为hive对笛卡尔积支持的不是很好，由于是全局的操作，所以只能在一个reduce中执行，导致速度比较慢。

然后想优化一下，尝试了一些方法。

比较直接能想到的解决方案是使用mapjoin，hive较高版本中是默认开启mapjoin的，在开启状态下会自动判断是否使用mapjoin，

我看了一下我的任务，是开启了mapjoin的

但是还是很慢，不知道是不是mapjoin没有生效。我关了自动mapjoin试了一下，发现更慢了。。。。看来mapjoin还是有用的。。。。。

所以尝试了一位网友的建议，很巧妙的一个想法：

注意使用这个最好把默认的自动mapjoin关掉，set hive.auto.convert.join=false，另外就是最好手动设置一下reduce的数量，若复制十倍，set mapred.reduce.tasks = 10，这样比较保险，但是reduce数量也不是越大越好。

修改之后从mapjoin的600秒降到了不到300秒,大任务上可能效果明显。

hive中笛卡尔积的优化的更多相关文章

hive中not in优化
比如:A,B两表,找到ID字段中,存在A表,但不存在B表的数据. A表共13w,去重后3w,B表共2W,且有索引方法一 not in,易理解,效率低,时间:1.395s )
hive中的优化问题
一.fetch抓取 fetch 抓取是指,hive中对某些情况的查询可以不必使用MapReduce计算.(1)把hive.fetch.task.conversion 设置成none,然后执行查询语句, ...
hive工作中的一些优化策略
1.hive抓取策略 hive.fetch.task.conversion = more/none more不走mr,none走mr 2.explain 显示执行计划 3.设置 ...
深入浅出数据仓库中SQL性能优化之Hive篇
转自:http://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,R ...
【SQL系列】深入浅出数据仓库中SQL性能优化之Hive篇
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[SQL系列]深入浅出数据仓库中SQL性能优化之 ...
写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...
Hive中Join的类型和用法
关键字:Hive Join.Hive LEFT|RIGTH|FULL OUTER JOIN.Hive LEFT SEMI JOIN.Hive Cross Join Hive中除了支持和传统数据库中一样 ...
HIVE中join、semi join、outer join
补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或 ...
hive查询注意及优化tips
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具.使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数 ...

随机推荐

Visual Studio 连接 SQL Server 关键代码
首先先把Visual Studio 上面工具打开-->连接数据库-->选择Microsoft SQL Server进入(有两种验证方式:1.windows验证方式[就是本机验证]:2.SQ ...
色相偏移 HueShift ASE
色相偏移可以改变颜色色调,unity ASE没有参考UE4写个,原理很简单,将颜色向量绕(1,1,1)旋转,就可以得到不同色调的颜色. https://zhuanlan.zhihu.com/p/677 ...
Spring Boot系列八、集成Kafka
一.引入依赖 <dependency> <groupId>org.springframework.kafka</groupId> <artifactId> ...
第15.37节 PyQt(Python+Qt)入门学习：containers容器类部件QMdiArea多文档界面部件详解及编程开发案例
专栏:Python基础教程目录专栏:使用PyQt开发图形界面Python应用专栏:PyQt入门学习老猿Python博文目录一.引言老猿在前期学习PyQt相关知识时,对每个组件的属性及方法都研 ...
第11.5节 Python正则表达式搜索任意字符匹配及元字符“.”（点）功能介绍
在re模块中,任意字符匹配使用"."(点)来表示, 在默认模式下,点匹配除了换行的任意字符.如果指定了搜索标记re.DOTALL ,它将匹配包括换行符的任意字符.关于搜索标记的含义 ...
APP软件系统测试
1.功能模块测试 2.交叉事件测试 3.压力测试存储压力测试边界压力测试响应能力压力测试网络流量测试 4.容量测试 5.安装卸载测试 6.易用性.用户体验测试 7.UI界面测试
自动化运维工具之Puppet master/agent模型、站点清单和puppet多环境设定
前文我们了解了puppe中模块的使用,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/14086315.html:今天我来了解下puppet的master/age ...
web安全~文件包含总结
文章来自freebuf,作者总结的很好,所以拿来做笔记用!!! 0×01 文件包含简介服务器执行PHP文件时,可以通过文件包含函数加载另一个文件中的PHP代码,并且当PHP来执行,这会为开发者节省大 ...
[ACTF2020 新生赛]BackupFile && [ACTF2020 新生赛]Upload &&[GYCTF2020]Blacklist
[ACTF2020 新生赛]BackupFile 尝试找到源代码,加上题目是备份文件,猜测备份文件里面有网站的源代码,御剑扫描一下,就扫到index.php 访问index.php.bak 下载源代码 ...
let和var变量的思考
刚学JavaScript,纠结全局变量用var 还是 let. 这篇文章[来源于知乎]表示在定义全局变量时,var 和 let 的作用相同. 那么现在基本遵守ES6规范的前提下,函数变量还是for循 ...

hive中笛卡尔积的优化

hive中笛卡尔积的优化的更多相关文章

随机推荐

热门专题