hive2

4.hive优化

1)跑sql的时候会出现的参数：

In order to change the average load for a reducer (in bytes):

  set hive.exec.reducers.bytes.per.reducer=<number>

  如果大于<number>，就会多生成一个reduce

  <number> =1024    <1k 一个reduce

  1m 10个reduce

  set hive.exec.reducers.bytes.per.reducer=20000;

  select user_id,count(1) as order_cnt

  from orders group by user_id limit 10;

--结果number of mappers: 1; number of reducers: 1009  

In order to limit the maximum number of reducers:

  set hive.exec.reducers.max=<number>

  set hive.exec.reducers.max=10;

 -- number of mappers: 1; number of reducers: 10 

In order to set a constant number of reducers:

  set mapreduce.job.reduces=<number>

  set mapreduce.job.reduces=5;

  --number of mappers: 1; number of reducers: 5

  set mapreduce.job.reduces=15;

  --number of mappers: 1; number of reducers: 15

  对你当前窗口，或者执行任务（脚本）过程中生效

  2)where条件使得group by冗余

  map 和 reduce执行过程是一个同步的过程

  同步：打电话

  异步：发短信

  1：map执行完 reduce在执行       1+2=》3：reduce

  2：map reduce

  map 60%  reduce=3%

  3）只有一个reduce

  a.没有group by

  set mapreduce.job.reduces=5;

  select count(1) from orders where order_dow='0';

  --number of mappers: 1; number of reducers: 1

  b.order by

  set mapreduce.job.reduces=5;

  select user_id,order_dow

  from orders where order_dow='0'

  order by user_id

  limit 10;

  -- number of mappers: 1; number of reducers: 1

  c.笛卡尔积 cross product

  tmp_d

1

2

3

4

5

select * from tmp_d

join (select * from tmp_d)t

where tmp_d.user_id=t.user_id; --相当于on

join没有on的字段关联

1   1

2    1

3    1

1    2

2    2

3    2

1    3

2    3

3    3

user product(库中所有商品中调小部分觉得这个用户喜欢 召回(match) 候选集1000)  top10

users 母婴类 products

要同时考虑users和products信息来给它们做一个筛选（粗粒度）

5）map join

select /*+ MAPJOIN(aisles) */ a.aisle as aisle,p.product_id as product_id

from aisles a join product p

on a.aisle_id=p.aisle_id limit 10;

dict  hashMap  {aisle_id : aisle}

for line in products:

    ss = line.split('\t')

    aisle_id = ss[0]

    product_id = ss[1]

    aisle = dict[aisle_id]

    print '%s\t%s'%(aisle,product_id)

6)union all + distinct   == union

--运行时间：74.712 seconds 2job

select count( *) c

from (

select order_id,user_id,order_dow from orders where order_dow='0' union all

select order_id,user_id,order_dow from orders where order_dow='0' union all

select order_id,user_id,order_dow from orders where order_dow='1'

)t;

--运行时间122.996 seconds 3 job

select *

from(

select order_id,user_id,order_dow from orders where order_dow='0'

union

select order_id,user_id,order_dow from orders where order_dow='0'

union

select order_id,user_id,order_dow from orders where order_dow='1')t;

7)

set hive.groupby.skewindata=true;

将一个map reduce拆分成两个map reduce

‘-’（‘’，-1,0,null）1亿条 到一个reduce上面，

1个reduce处理6000w ‘-’ 1%     200w求和 =》1条

29 reduce处理剩余的4000w 99%

1.随机分发到不同的reduce节点，进行聚合（count）

2. 最终的一个reduce做最终结果的聚合（200w求和 =》1条）

select add_to_cart_order,count(1) as cnt

from order_products_prior

group by add_to_cart_order

limit 10; 

select user_id,count(1) as cnt

from order_products_prior

group by user_id

limit 10; 

-- 没指定set hive.groupby.skewindata=true;

--Launching Job 1 out of 1

-- 1m 41s

--指定了set hive.groupby.skewindata=true;

--Launching Job 1 out of 2

-- 2m 50s

如果在不导致reduce一直失败起不来的时候，就不用这个变量

如果确实出现了其中一个reduce的处理数据量太多，导致任务一直出问题，运行时间长。这种情况需要设置这个变量。

凌晨定时任务，近一周报表，跑了3个小时。

洗出来的基础表，3点出来，7点出来，后面接了70任务 

  8）MR的数量

 --Launching Job 1 out of 1

 select

 ord.order_id order_id,

 tra.product_id product_id,

 pri.reordered reordered

from orders ord

join train tra on ord.order_id=tra.order_id

join order_products_prior pri on ord.order_id=pri.order_id

limit 10;

--两个MR任务

 select

 ord.order_id,

 tra.product_id,

 pro.aisle_id

from orders ord

join trains tra on ord.order_id=tra.order_id

join products pro on tra.product_id=pro.product_id

limit 10;

9）/*+ STREAMTABLE(a) */ a是大表

类似map join 放到select中的，区别：它是指定大表

select /*+STREAMTABLE(pr)*/ ord.order_id,pr.product_id,pro.aisle_id

from orders ord

join order_products_prior pr on ord.order_id=pr.order_id

join products pro on pr.product_id=pro.product_id

limit 10;

10)LEFT OUTER JOIN

select od.user_id,

od.order_id,

tr.product_id

from

(select user_id,order_id,order_dow from orders limit 100)od

left outer join

(select order_id,product_id,reordered from train)tr

on (od.order_id=tr.order_id and od.order_dow='0' and tr.reordered=1)

limit 30;

--join默认是inner

11)set hive.exec.parallel=true

1：map执行完 reduce在执行       1+2=》3：reduce

2：map reduce

12)

1. '-' ,where age<>'-' 直接丢掉这个数据

select age,count(1) group by age where age<>'-'

1_-  2_- 3_-

怎么定位具体哪几个key发生倾斜？

sample

SELECT COUNT(1) FROM (SELECT * FROM lxw1 TABLESAMPLE (200 ROWS)) x;

SELECT * FROM udata TABLESAMPLE (50 PERCENT);

select * from table_name where col=xxx order by rand() limit num;

SELECT * FROM lxw1 TABLESAMPLE (30M);

长尾数据

hive2的更多相关文章

hive2.1.0安装
下载hive(http://mirrors.cnnic.cn/apache/hive/) 或者 http://archive.apache.org/dist/hive/(hive历史版本) 在本地进行 ...
CentOS7安装hive-2.1.0
环境: CentOS7 Hadoop-2.6.4,配置两个节点:master.slave1 mysql-server 过程: 下载.解压hive-2.1.0到/usr/hadoop-2.6.4/thi ...
Hive2 jdbc test
package andes; import java.io.BufferedWriter; import java.io.FileOutputStream; import java.io.IOExce ...
Hive 8、Hive2 beeline 和 Hive jdbc
1.Hive2 beeline Beeline 要与HiveServer2配合使用,支持嵌入模式和远程模式启动beeline 打开两个Shell窗口,一个启动Hive2 一个beeline连接hi ...
通过 Sqoop1.4.7 将 Mysql5.7、Hive2.3.4、Hbase1.4.9 之间的数据导入导出
目录目录 1.什么是 Sqoop? 2.下载应用程序及配置环境变量 2.1.下载 Sqoop 1.4.7 2.2.设置环境变量 2.3.设置安装所需环境 3.安装 Sqoop 1.4.7 3.1.修 ...
Hadoop 3.1.2(HA)+Zookeeper3.4.13+Hbase1.4.9(HA)+Hive2.3.4+Spark2.4.0(HA)高可用集群搭建
目录目录 1.前言 1.1.什么是 Hadoop? 1.1.1.什么是 YARN? 1.2.什么是 Zookeeper? 1.3.什么是 Hbase? 1.4.什么是 Hive 1.5.什么是 Sp ...
【原创】大数据基础之Drill（2）Drill1.14+Hive2.1.1运行
问题 Drill最新版本是1.14,从1.13开始Drill支持hive的版本升级到2.3.2,详见1.13的release notes The Hive client for Drill is up ...
【原创】大叔经验分享（18）hive2.0以后通过beeline执行sql没有进度信息
一问题在hive1.2中使用hive或者beeline执行sql都有进度信息,但是升级到hive2.0以后,只有hive执行sql还有进度信息,beeline执行sql完全silence,在等待结 ...
hive2.3.2安装使用
hive的安装简单一些,使用也比较简单,基础hadoop搭建好之后,只要初始化一些目录和数据库就好了安装需要做几件事: 1.设立一个数据源作为元数据存储的地方,默认是derby内嵌数据库,不过不允许 ...
初次安装hive-2.1.0启动报错问题解决方法
首次安装hive-2.1.0,通过bin/hive登录hive shell命令行,报错如下: [hadoop@db03 hive-2.1.0]$ bin/hive which: no hbase in ...

随机推荐

第15.15节 PyQt(Python+Qt)入门学习：Designer的menu菜单、toolBar工具栏和Action动作详解
老猿Python博文目录老猿Python博客地址一.引言 Qt Designer中的部件栏并没有菜单.toolBar以及Action相关的部件,仅在MainWindow类型窗口提供了menu.to ...
python 保存list，map方法
1. 保存list import numpy as np a = [1,2,3,4,5] np.save("number.npy", a) k = np.load("nu ...
剑指offer二刷——数组专题——构建乘积数组
构建乘积数组题目描述给定一个数组A[0,1,...,n-1],请构建一个数组B[0,1,...,n-1],其中B中的元素B[i]=A[0]*A[1]*...*A[i-1]*A[i+1]*...*A ...
javascript编写原则
1.不要在同一行声明多个变量2.使用===或!==来比较3.使用字面量的方式来创建对象.数组,替代new Array这种形式4.switch语句必须要带default分支5.fon-in循环中的变量, ...
js-enter提交表单导致页面刷新问题
问题:当页面只有一个文本框时,使用键盘enter操作执行提交表单的时候,会导致页面进行刷新,并且参数也会自动添加到url中. 解决办法: 1.给form添加onsubmit=return false; ...
Redis存储对象(序列化和反序列化)
代码以及实例: package com.hp.test; import redis.clients.jedis.Jedis; import java.io.*; public class Test3 ...
Int，String，Integer，double之间的类型的相互转换
Int整数,String字符串之间的类型的转换 int转成String 结果为: String转成int类型结果为: double转成String 结果为: String转成double 结果为: ...
有了Git这个功能，再也不需要依赖IDE了！
大家好,今天给大家介绍一个隐藏的功能--搜索. 我们在写代码的时候经常遇到的一种情况就是,我们想要知道某一个函数是怎么定义的,这样我们才能知道该如何调用它.如果代码少的话我们当然可以自己人肉查找,但是 ...
MongoDB加索引DB崩溃的问题
项目原因,最近在对MongoDB进行数据存储优化原有问题: 日志数据量比较大,存到一张表,需要手工定时删除数据,且删除数据时间按天算数据会定时打包到HDFS,查询时间很慢,需要优化机器内存占 ...
Docker(二)：Docker镜像仓库Harbor搭建
安装docker-compose 因为docker-compose下载容易失败, 所以选择从github下载方式安装. [root@harbor ~]# mv docker-compose-Linux ...

hive2

hive2的更多相关文章

随机推荐

热门专题