hive优化-数据倾斜优化

数据倾斜解决方法，通常从以下几个方面进行考量：

业务上丢弃

• 不参与关联：在on条件上直接过滤
• 随机数打散：比如 null、空格、0等“Other”性质的特殊值

倾斜键记录单独处理

• Join：找出倾斜key，把对应数据插入临时表，如果该表是小表，使用map join解决；
• Group by： set hive.groupby.skewindata = true

数据重分布

• 语法：Distribute By
• 场景：为下一个Stage的Map输入做负载均衡
• 代价：多一个Job

举个栗子：count distinct

--count(distinct ),在数据量大的情况下，效率较低，如果是多count(distinct )效率更低，因为count(distinct)是按group by 字段分组，按distinct字段排序，一般这种分布方式是很倾斜的。

*淘宝一天30亿的pv，按性别分组，分配2个reduce,每个reduce处理15亿数据。

*58房产一天1.5亿的pv，统计全国分二手房、租房等业务线的详情页pv、uv等指标，采用多case when的方式，仅分配一个reduce。

消除count disitnct，可以尝试“用户标签”法。

hive优化-数据倾斜优化的更多相关文章

Hive：数据倾斜
数据倾斜问题数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎.很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题. 数 ...
Hive数据倾斜优化
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平 ...
Spark性能优化--数据倾斜调优与shuffle调优
一.数据倾斜发生的原理原理:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作.此时如果某个key对应的数据量特 ...
spark 性能优化数据倾斜故障排除
版本:V2.0 第一章 Spark 性能调优 1.1 常规性能调优 1.1.1 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围 ...
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的 Counters是整个Job的总和,优化是基于这些Counters得出的 ...
Hive 大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些 Counters得出 ...
Hive学习之路（十九）Hive的数据倾斜
1.什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2.Hadoop 框架的特性 A.不怕数据大,怕数据倾斜 B.Jobs 数比较多的作业运行效率相对比较低,如子查询比较 ...
Hive的数据倾斜
目录什么是数据倾斜 Hadoop框架的特性主要表现容易数据倾斜的情况产生数据清洗的原因业务场景空值产生的数据倾斜不同数据类型关联产生数据倾斜大小表关联查询产生数据倾斜一.什么是数据倾 ...
写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...

随机推荐

deb文件怎么安装
deb 是 ubuntu .debian 的格式.rpm 是 redhat .fedora .suse 的格式.deb是debian发行版的软件包ubuntu是基于debian 发行的所有可以用.d ...
css best practice for big team and project
推荐查看以下文章: https://segmentfault.com/a/1190000000704006 关于BEM,SMACSS,OOCSS的通俗易懂的介绍 http://philipwalton ...
Studying TCP's Throughput and Goodput using NS
Studying TCP's Throughput and Goodput using NS What is Throughput Throughput is the amount of data r ...
Eclipse 中 SVN 提交过滤
QT样式
最近在写QT的UI 分享一个助手网页 http://doc.qt.io/qt-4.8/stylesheet-examples.html
ZT 七大寡头
网易评论人才辈出啊!!!看下面 http://comment.news.163.com/news_guoji2_bbs/9GRIIJA90001121M.html 关注关注他的微博yftyfm ...
electricity meter就是电表
英式英语metre意思是度量衡里面的单位:米美式英语拼为 meter 除了“米”,还有一个意思是“计量器”,比如 parking meter就是是路边停车投币计时器,cab meter就是出租车的计 ...
[EffectiveC++]item34：区分接口继承和实现继承
[EffectiveC++]item34:区分接口继承和实现继承
SAP成都研究院2018年总共87篇技术文章合集
2018年很快就要结束了.Jerry在2017年年底准备开始写这个公众号时,给自己定的目标是:2018年至少保证每周发布一篇高质量的文章.如今2018年就快过去了,高质量与否需要大家来反馈,至少从量上 ...
「C语言」在Windows平台搭建C语言开发环境的多种方式
新接触C语言,如何在Windows下进行C语言开发环境的搭建值得思考并整理. 以下多种开发方式择一即可(DEV C++无须环境准备). 注:本文知识来源于 Windows 平台搭建C语言集成开发环境 ...

hive优化-数据倾斜优化

hive优化-数据倾斜优化的更多相关文章

随机推荐

热门专题