Hive UDF 实验1
项目中使用的hive版本低于0.11,无法使用hive在0.11中新加的开窗分析函数。
在项目中需要使用到row_number()函数的地方,有人写了udf来实现这个功能。
new java project, BuildPath add hadoop-core..jar and hive-exec…jar。
- package myudf;
- import java.util.Arrays;
- import org.apache.hadoop.hive.ql.exec.UDF;
- public final class rank extends UDF {
- private int counter;
- private String[] _paras = null;
- public int evaluate(String... paras) {
- if (_paras != null && Arrays.equals(_paras, paras)) {
- this.counter++;
- } else {
- this.counter = 1;
- //_paras = paras;
copy(paras);- }
- return this.counter;
- }
- void copy(String[] paras)
- {
- if(null == paras){_paras=null;}
- else {_paras= new String[paras.length];
- for(int i=;i<paras.length;i++)
- _paras[i]=paras[i];
- }
- }
- }
创建辅助表的数据文件:
- i=0;
- while [ $i -ne 1000 ]
- do
- echo -e "$i" >>nums.txt;
- i=$(($i +1));
- done
这个数字辅助表在辅助生成数据时比较有用。
在hive中创建nums表并加载刚才创建的示例数据;
- hive -e "create table nums(num int) row format delimited stored as textfile;"
- hive -e "load data local inpath '/home/hadoop/data/nums.txt' overwrite into table nums;"
使用辅助表生成数据:
- hive -e "create table myaccount as select 'account1' as account, 'evan' as maker, rand()*10000 as trans_amount from nums a join nums b;"
- insert overwrite table myaccount
- select a.*
- from myaccount a
- join
- (select * from nums where num <10) b;
- --check file has how many blocks
- insert overwrite table myaccount
- select a.*
- from myaccount a order by account,maker;
这样这个表的数据大概有三百M左右了。
默认情况下使用hive跑就要使用2个maper来处理了。
把刚才的java project打包并上传到HDFS 以供hive使用,
- hadoop fs -mkdir /user/hive/warehouse/udf/;
- hadoop fs -copyFromLocal /home/hadoop/jar/myhiveudf.jar /user/hive/warehouse/udf/;
- add jar hdfs:/user/hive/warehouse/udf/myhiveudf.jar;
- create temporary function myrank as "myudf.rank";
使用hive的udf进行数据测试:
create table myaccountrank as select account,maker,trans_amount,myrank(account,maker) as rank1 from myaccount;
按我们的数据情况来看,我们想要的结果是max(rank1)=1000000;但是实际结果却是:8348163;
原因是在执行create table的时候,使用了两个mapper去处理结果,这样相同的account 和 maker 被拆分给两个map task去处理,这样算出来的结果就是有问题的。
问题是hive udf是如何确定执行在map phase还是reduce phase呢?
udf分为udaf,udtf和普通的udf,现在看来我们普通的udf直接就在map阶段完成了,而udfa应该会在reduce阶段完成。
同样的需求,如果我们正确地去做,可以使用hive自带的row_number去做,如下:
- create table myaccountrank2 as select account,maker,trans_amount,row_number() over(partition by account,maker order by account,maker ) as rank1 from myaccount;
- 执行的时候,显示需要两个mapper,一个reduce来处理。第一次处理的时候报了java heap space error.
- set mapred.child.java.opts; --default 200M
- 调整此参数至1G:set mapred.child.java.opts = -Xmx1024m;
- 再次执行完成。
- 其他常用参数:
- set mapred.max.split.size; ---256M
- hive.merge.mapfiles = true; --是否和并 Map 输出文件,默认为 True
- set hive.merge.mapredfiles;
- hive.merge.mapredfiles = false; --是否合并 Reduce 输出文件,默认为 False
- set hive.merge.size.per.task;
- hive.merge.size.per.task = 256*1000*1000; --合并文件的大小
- set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set hive.input.format;
hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat :default value
查看全部的参数可以使用命令:set –v;
网上找到的其他的hive tips,未测试,需要在实践中修正,引用如下:
1.尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段
2.尽量原子化操作,尽量避免一个SQL包含复杂逻辑,可以使用中间表来完成复杂的逻辑
3.join操作 小表要注意放在join的左边.可以指定使用map join,如果有小表。4.如果union all的部分个数大于2,或者每个union部分数据量大,应该拆成多个insert into 语句,实际测试过程中,执行时间能提升50%
5.写SQL要先了解数据本身的特点,如果有join ,group操作的话,要注意是否会有数据倾斜
Hive UDF 实验1的更多相关文章
- Hive UDF初探
1. 引言 在前一篇中,解决了Hive表中复杂数据结构平铺化以导入Kylin的问题,但是平铺之后计算广告日志的曝光PV是翻倍的,因为一个用户对应于多个标签.所以,为了计算曝光PV,我们得另外创建视图. ...
- hive UDF添加方式
hive UDF添加的方式 1.添加临时函数,只能在此会话中生效,退出hive自动失效 hive> add jar /home/jtdata/hiveUDF/out0.jar; Added [/ ...
- DeveloperGuide Hive UDF
Creating Custom UDFs First, you need to create a new class that extends UDF, with one or more method ...
- [转]HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板
FROM : http://hugh-wangp.iteye.com/blog/1472371 自己写代码时候的利用到的模板 UDF步骤: 1.必须继承org.apache.hadoop.hive ...
- 2、Hive UDF编程实例
Hive的UDF包括3种:UDF(User-Defined Function).UDAF(User-Defined Aggregate Function)和UDTF(User-Defined Tabl ...
- Hive UDF 用户自定义函数 编程及使用
首先创建工程编写UDF 代码,示例如下: 1. 新建Maven项目 udf 本机Hadoop版本为2.7.7, Hive版本为1.2.2,所以选择对应版本的jar ,其它版本也不影响编译. 2. po ...
- Hive UDF开发-简介
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以. Hive的UDF开发只需要重构UDF类的evaluate函数即可.例 ...
- 【转】HIVE UDF UDAF UDTF 区别 使用
原博文出自于:http://blog.csdn.net/longzilong216/article/details/23921235(暂时) 感谢! 自己写代码时候的利用到的模板 UDF步骤: 1 ...
- HIVE udf实例
本例中udf来自<hive编程指南>其中13章自定义函数中一个例子. 按照步骤,第一步,建立一个项目,创建 GenericUDFNvl 类. /** * 不能接受第一个参数为null的情况 ...
随机推荐
- Csharp: create word file using Open XML SDK 2.5
using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...
- LeetCode131:Palindrome Partitioning
题目: Given a string s, partition s such that every substring of the partition is a palindrome. Return ...
- YAML初探
http://www.cnblogs.com/chwkai/archive/2009/03/01/249924.html 1 概念YAML是一种人们可以轻松阅读的数据序列化格式,并且它非常适合对动态编 ...
- 利用php实现:当获取的网址不是特定网址时候跳转到指定地址
这个问题是在百度知道看到的问答,我不懂做,特定去百度了下.然后结合别人获取域名和跳转的知识,综合做了这个功能,以下是实现代码: <?php //获取当前的域名: echo "获取到的域 ...
- 关联规则-R语言实现
关联规则code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && ...
- 误报的java.sql.SQLException: Parameter number 21 is not an OUT parameter
今天为了模拟一个mysql内存不释放问题,要测试一个存储过程,同时具有出参和入参,启动时报了上述错误. <select id="funcl_trd_secu_execution_que ...
- C++ Static(静态成员)的作用总结
Static是C++中一个常见的关键字,它被用来控制变量的存储方式和可见性. 在类定义中,它的成员(包括数据成员和成员函数)可以用关键字static申明为静态成员.静态成员的特性是不管这个类创建了多少 ...
- ES6中generator传参与返回值
先看两个例子, 1, function* f() { for(var i=0; true; i++) { var reset = yield i; if(reset) { i = -1; } } } ...
- RHEL7虚拟机实验快照
配置虚拟机连接网络 首先确保NetworkManager服务正常运行 [root@administrator ~]# systemctl status NetworkManager ● Network ...
- Android破解之Lic文件加密程序(首例)
我不会写Android,这是我第一个破解Android的例子,耗时接近一天,希望大神不要见笑! 本程序为商业软件,不便发布APK程序. 不要给我发消息,我不得回,有问题,直接回帖就可以了. 准备工作 ...