项目中使用的hive版本低于0.11,无法使用hive在0.11中新加的开窗分析函数。

在项目中需要使用到row_number()函数的地方,有人写了udf来实现这个功能。

new java project, BuildPath add hadoop-core..jar and hive-exec…jar。

package myudf;

import java.util.Arrays;

import org.apache.hadoop.hive.ql.exec.UDF;

public final class rank extends UDF {
private int counter; private String[] _paras = null; public int evaluate(String... paras) {
if (_paras != null && Arrays.equals(_paras, paras)) {
this.counter++;
} else {
this.counter = 1;
//_paras = paras;
            copy(paras);
}
return this.counter;
}
   
 void copy(String[] paras)
 {
   if(null == paras){_paras=null;}
else {_paras= new String[paras.length];
for(int i=;i<paras.length;i++)
  _paras[i]=paras[i];
    }
 } }

创建辅助表的数据文件:

i=0;
while [ $i -ne 1000 ]
do
echo -e "$i" >>nums.txt;
i=$(($i +1));
done

这个数字辅助表在辅助生成数据时比较有用。

在hive中创建nums表并加载刚才创建的示例数据;

hive -e "create table nums(num int) row format delimited stored as textfile;"
hive -e "load data local inpath '/home/hadoop/data/nums.txt' overwrite into table nums;"

使用辅助表生成数据:

hive -e "create table myaccount as select 'account1' as account, 'evan' as maker, rand()*10000 as trans_amount from nums a join nums b;"

insert overwrite  table myaccount
select a.*
from myaccount a
join
(select * from nums where num <10) b;
--check file has how many blocks
insert overwrite table myaccount
select a.*
from myaccount a order by account,maker;

这样这个表的数据大概有三百M左右了。

默认情况下使用hive跑就要使用2个maper来处理了。

把刚才的java project打包并上传到HDFS 以供hive使用,

hadoop fs -mkdir /user/hive/warehouse/udf/;
hadoop fs -copyFromLocal /home/hadoop/jar/myhiveudf.jar /user/hive/warehouse/udf/;
add jar hdfs:/user/hive/warehouse/udf/myhiveudf.jar;
create temporary function myrank as "myudf.rank";

使用hive的udf进行数据测试:

create table myaccountrank as select account,maker,trans_amount,myrank(account,maker) as rank1 from myaccount;

按我们的数据情况来看,我们想要的结果是max(rank1)=1000000;但是实际结果却是:8348163;

原因是在执行create table的时候,使用了两个mapper去处理结果,这样相同的account 和 maker 被拆分给两个map task去处理,这样算出来的结果就是有问题的。

问题是hive udf是如何确定执行在map phase还是reduce phase呢?

udf分为udaf,udtf和普通的udf,现在看来我们普通的udf直接就在map阶段完成了,而udfa应该会在reduce阶段完成。

同样的需求,如果我们正确地去做,可以使用hive自带的row_number去做,如下:

create table myaccountrank2 as select account,maker,trans_amount,row_number() over(partition by account,maker order by account,maker ) as rank1 from myaccount;
执行的时候,显示需要两个mapper,一个reduce来处理。第一次处理的时候报了java heap space error.
set mapred.child.java.opts;  --default 200M
调整此参数至1G:set mapred.child.java.opts =  -Xmx1024m;
再次执行完成。
其他常用参数:
set mapred.max.split.size; ---256M
hive.merge.mapfiles = true; --是否和并 Map 输出文件,默认为 True
set hive.merge.mapredfiles;
hive.merge.mapredfiles = false; --是否合并 Reduce 输出文件,默认为 False
set hive.merge.size.per.task;
hive.merge.size.per.task = 256*1000*1000; --合并文件的大小
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

set hive.input.format;
hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat :default value

查看全部的参数可以使用命令:set –v;

网上找到的其他的hive tips,未测试,需要在实践中修正,引用如下:

1.尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段

2.尽量原子化操作,尽量避免一个SQL包含复杂逻辑,可以使用中间表来完成复杂的逻辑  
3.join操作  小表要注意放在join的左边.可以指定使用map join,如果有小表。

4.如果union all的部分个数大于2,或者每个union部分数据量大,应该拆成多个insert into 语句,实际测试过程中,执行时间能提升50%

5.写SQL要先了解数据本身的特点,如果有join ,group操作的话,要注意是否会有数据倾斜

Hive UDF 实验1的更多相关文章

  1. Hive UDF初探

    1. 引言 在前一篇中,解决了Hive表中复杂数据结构平铺化以导入Kylin的问题,但是平铺之后计算广告日志的曝光PV是翻倍的,因为一个用户对应于多个标签.所以,为了计算曝光PV,我们得另外创建视图. ...

  2. hive UDF添加方式

    hive UDF添加的方式 1.添加临时函数,只能在此会话中生效,退出hive自动失效 hive> add jar /home/jtdata/hiveUDF/out0.jar; Added [/ ...

  3. DeveloperGuide Hive UDF

    Creating Custom UDFs First, you need to create a new class that extends UDF, with one or more method ...

  4. [转]HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板

    FROM : http://hugh-wangp.iteye.com/blog/1472371 自己写代码时候的利用到的模板   UDF步骤: 1.必须继承org.apache.hadoop.hive ...

  5. 2、Hive UDF编程实例

    Hive的UDF包括3种:UDF(User-Defined Function).UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Tabl ...

  6. Hive UDF 用户自定义函数 编程及使用

    首先创建工程编写UDF 代码,示例如下: 1. 新建Maven项目 udf 本机Hadoop版本为2.7.7, Hive版本为1.2.2,所以选择对应版本的jar ,其它版本也不影响编译. 2. po ...

  7. Hive UDF开发-简介

    Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. Hive的UDF开发只需要重构UDF类的evaluate函数即可.例 ...

  8. 【转】HIVE UDF UDAF UDTF 区别 使用

    原博文出自于:http://blog.csdn.net/longzilong216/article/details/23921235(暂时) 感谢! 自己写代码时候的利用到的模板   UDF步骤: 1 ...

  9. HIVE udf实例

    本例中udf来自<hive编程指南>其中13章自定义函数中一个例子. 按照步骤,第一步,建立一个项目,创建 GenericUDFNvl 类. /** * 不能接受第一个参数为null的情况 ...

随机推荐

  1. Azure开发者任务之七:在Azure托管服务中托管WCF服务角色

    在一个托管服务中托管一个WCF服务角色和托管一个ASP.Net Web Role基本类似. 在上一篇文章中,我们学习了如何使用WCF Service Web Role. 在本文中,我会对上一篇文章进行 ...

  2. 用于dbnull的数据转换。因为用convert.to无法转换dbnull类型

    /// <summary> /// add by wolf /// </summary> public static class ExtendObject { public s ...

  3. python flask应用部署

    失败版本:flask+uwsgi ini配置文件 [uwsgi] callable = app ;//程序内启用的application变量名 home = /home/jcuan/code/pyth ...

  4. (旧)子数涵数·C语言——条件语句

    首先,我们讲一下理论知识,在编程中有三种结构,分别是顺序结构.条件结构.循环结构,如果用流程图来表示的话就是: 那么在C语言中,如何灵活运用这三种结构呢?这就需要用到控制语句了. 而条件语句便是控制语 ...

  5. ArrayList、Vector、HashMap、HashTable、HashSet的默认初始容量、加载因子、扩容增量

    这里要讨论这些常用的默认初始容量和扩容的原因是: 当底层实现涉及到扩容时,容器或重新分配一段更大的连续内存(如果是离散分配则不需要重新分配,离散分配都是插入新元素时动态分配内存),要将容器原来的数据全 ...

  6. 论元数据和API管理工具

    公司里面的很多部门都在广泛的采用元数据管理,也采用了公司内部开发的元数据管理工具,有些部门的实施效果一直非常好,而有些部门的效果则差强人意.这个问题,其实和软件系统开发完成进入维护阶段后成本居高不下的 ...

  7. mybatis hellworld

    用maven来进行搭建项目的~~   1. 搭建环境 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" x ...

  8. [ html canvas 透明度 globalApha ] canvas绘图属性 透明度 globalApha 属性演示

    <!DOCTYPE html> <html lang='zh-cn'> <head> <title>Insert you title</title ...

  9. Force.com微信开发系列(七)OAuth2.0网页授权

    OAuth是一个开放协议,允许用户让第三方应用以安全且标准的方式获取该用户在某一网站上存储的私密资源(如用户个人信息.照片.视频.联系人列表),而无须将用户名和密码提供给第三方应用.本文将详细介绍OA ...

  10. 桥牌笔记L4D17:小心阻塞

    南打3NT. 西的首攻会有3墩黑桃.3墩方块.2付梅花,共8墩到手.看来方块如果3-2分布的话,非常容易就能超一完成. 所以要想着4-1分布的安全打法. 第一墩庄家拿了黑桃J后,明手的黑桃A会阻塞,庄 ...