原文地址:http://blog.csdn.net/zythy/article/details/18326693

我们以气温统计和词频统计为例，讲解以下三种用户自定义函数。

用户自定义函数

什么时候需要用户自定义函数呢？和其它语言一样，当你希望简化程序结构或者需要重用程序代码时，函数就是你不二选择。

Pig的用户自定义函数可以用Java编写，但是也可以用Python或Javascript编写。我们接下来以Java为例。

自定义过滤函数

我们仍然以先前的代码为例：

records = load 'hdfs://localhost:9000/input/temperature1.txt'as (year: chararray,temperature: int);

valid_records = filter records by temperature!=999;

第二个语句的作用就是筛选合法的数据。如果我们采用用户自定义函数，则第二个语句可以写成：

valid_records = filter records by isValid(temperature);

这种写法更容易理解，也更容易在多个地方重用。接下来的问题就是如何定义这个isValid函数。代码如下：

packagecom.oserp.pigudf;

importjava.io.IOException;

importorg.apache.pig.FilterFunc;

importorg.apache.pig.data.Tuple;

public class IsValidTemperature extends FilterFunc {

@Override

public Boolean exec(Tuple tuple) throws IOException {

Object object = tuple.get(0);

int temperature = (Integer)object;

return temperature != 999;

}

接下来，我们需要：

1）编译代码并打包成jar文件，比如pigudf.jar。

2）通过register命令将这个jar文件注册到pig环境：

register/home/user/hadoop_jar/pigudf.jar //参数为jar文件的本地路径

此时，我们就可以用以下语句调用这个函数：

valid_records = filter records bycom.oserp.pigudf.IsValidTemperature(temperature);

dump valid_records;

看起来这个函数名太长，不便输入。我们可以用定义别名的方式代替：

define isValid com.oserp.pigudf.IsValidTemperature();

valid_records = filter records by isValid(temperature);

dump valid_records;

回到代码，我们可发现：

1）需要定义一个继承自FilterFunc的类。

2）重写这个类的exec方法。这个方法的参数只有一个tuple，但是调用时可以传递多个参数，你可以通过索引号获得对应的参数值，比如tuple.get(1)表示取第二个参数。

3）调用时，需要使用类的全名。（当然你可以自定义别名）

4）更多的验证需要读者自行在函数中添加，比如判断是否为null等等。

备注：用Eclipse编写Pig自定义函数时，你可能需要引用到一些Hadoop的库文件。比较容易的方式是在新建项目时指定项目类型为MapReduce项目，这样Eclipse就会自动设置库引用的相关信息。

自定义运算函数（Eval function）

仍然以前面的数据文件为例：

1990 21

1990 18

1991 21

1992 30

1992 999

1990 23

假设我们希望通过温度值获得一个温度的分类信息，比如我们把温度大于划分为以下类型:

温度分类

x>=30 hot

x>=10 and x<30 moderate

x<10 cool

则我们可以定义以下函数，代码如下：

packagecom.oserp.pigudf;

importjava.io.IOException;

importorg.apache.pig.EvalFunc;

importorg.apache.pig.data.Tuple;

public class GetClassification extends EvalFunc<String> {

@Override

public String exec(Tuple tuple) throws IOException {

Object object = tuple.get(0);

int temperature = (Integer)object;

if (temperature >= 30){

return "Hot";

}

else if(temperature >=10){

return "Moderate";

}

else {

return "Cool";

}

依次输入以下Pig语句：

records = load'hdfs://localhost:9000/input/temperature1.txt' as (year: chararray,temperature:int);

register /home/user/hadoop_jar/pigudf.jar;

valid_records = filter records bycom.oserp.pigudf.IsValidTemperature(temperature);

result = foreach valid_records generateyear,com.oserp.pigudf.GetClassification(temperature);

dump result;

输出结果如下：

(1990,Moderate)

(1991,Moderate)

(1992,Hot)

(1990,Moderate)

代码比较简单，该类继承自EvalFunc类，且我们要明确定义返回值类型。

有些时候其它类库可能包含有功能相近的Java函数，我们是否可以直接将这些库函数拿过来使用呢？可以。以下语句调用了trim函数，用于去掉name字段前后的空格：

DEFINE trim InvokeForString('org.apache.commons.lang.StringUtils.trim','String');

B = FOREACH A GENERATE trim(name);

其中的InvokeForString是一个Invoker（不知道该如何翻译啊），其通过反射机制调用，返回值是String类型。其它类似的还有InvokeForInt，InvokeForLong, InvokeForDouble，InvokeForFloat等等。

自定义加载函数

我们以词频统计为例，讲解如何自定义加载函数。（统计各个单词出现的频率，由高到低排序）

一般情况下，load语句加载数据时，一行会被生成一个tuple。而统计词频时，我们希望每个单词生成一个tuple。我们的测试数据文件只有两行数据，如下：

Thisis a map a reduce program

mapreduce partition combiner

我们希望load后能得到如下形式的数据，每个单词一个tuple：

(This)

(is)

(a)

(map)

(a)

(reduce)

先看代码：

package com.oserp.pigudf;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import org.apache.hadoop.io.Text;

importorg.apache.hadoop.mapreduce.InputFormat;

import org.apache.hadoop.mapreduce.Job;

importorg.apache.hadoop.mapreduce.RecordReader;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.pig.LoadFunc;

importorg.apache.pig.backend.executionengine.ExecException;

importorg.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigSplit;

import org.apache.pig.data.BagFactory;

import org.apache.pig.data.DataBag;

import org.apache.pig.data.Tuple;

import org.apache.pig.data.TupleFactory;

public class WordCountLoadFunc extends LoadFunc {

private RecordReader reader;

TupleFactorytupleFactory = TupleFactory.getInstance();

BagFactorybagFactory = BagFactory.getInstance();

@Override

public InputFormatgetInputFormat() throws IOException {

return new TextInputFormat();

}

@Override

public Tuple getNext() throws IOException {

try {

// 当读取到分区数据块的末尾时，返回null表示数据已读取完

if (!reader.nextKeyValue()){

return null;

}

Textvalue = (Text)reader.getCurrentValue();

Stringline = value.toString();

String[]words = line.split("\\s+"); // 断词

// 因为getNext函数只能返回一个tuple，

// 而我们希望每个单词一个单独的tuple，

// 所以我们将多个tuple放到一个bag里面，

// 然后返回一个包含一个bag的tuple。

// 注：这只是一个用于演示用法的示例，实际中这样使用不一定合理。

List<Tuple>tuples = new ArrayList<Tuple>();

Tupletuple = null;

for (String word : words) {

tuple= tupleFactory.newTuple();

tuple.append(word);

tuples.add(tuple);

}

DataBagbag = bagFactory.newDefaultBag(tuples);

Tupleresult = tupleFactory.newTuple(bag);

return result;

}

catch (InterruptedException e) {

throw new ExecException(e);

}

@Override

public void prepareToRead(RecordReader reader,PigSplit arg1)

throws IOException {

this.reader = reader;

}

@Override

public void setLocation(String location, Job job) throws IOException {

FileInputFormat.setInputPaths(job,location);

}

依次执行以下命令：

1) records= load 'hdfs://localhost:9000/input/sample_small.txt' usingcom.oserp.pigudf.WordCountLoadFunc() as (words:bag{word:(w:chararray)});

2) flatten_records= foreach records generate flatten($0);

3) grouped_records= group flatten_records by words::w;

4) result= foreach grouped_records generate group,COUNT(flatten_records);

5) final_result= order result by $1 desc,$0;

6) dumpfinal_result;

显示结果如下：

(a,2)

(map,2)

(reduce,2)

(This,1)

(combiner,1)

(is,1)

(partition,1)

(program,1)

注意schema的定义格式：(words:bag{word:(w:chararray)})

Pig用户自定义函数（UDF）转的更多相关文章

Hive 文件格式 & Hive操作（外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制）
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语 ...
详解Spark sql用户自定义函数:UDF与UDAF
UDAF = USER DEFINED AGGREGATION FUNCTION Spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数ho ...
Hive中的用户自定义函数UDF
Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能.Hive中具有多种类型的用户自定义函数.show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的 ...
SQL Server在用户自定义函数(UDF)中使用临时表
SQL Server在用户自定义函数中UDF使用临时表,这是不允许的. 有时是为了某些特殊的场景, 我们可以这样的实现: CREATE TABLE #temp (id INT) GO INSERT I ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
10_Hive自定义函数UDF
Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.使用内置函数的快捷方法: 创 ...
SQL Server UDF用户自定义函数
UDF的定义和存储过程很相似,用户自定义函数也是一组有序的T-SQL语句,UDF被预先优化和编译并且尅作为一个单元爱进行调用.UDF和存储过程的主要区别在于返回结果的方式. 使用UDF时可传入参数, ...
15第十五章UDF用户自定义函数(转载)
15第十五章UDF用户自定义函数待补上原文链接本文由豆约翰博客备份专家远程一键发布
SQL Server用户自定义函数（UDF）
一.UDF的定义和存储过程很相似,用户自定义函数也是一组有序的T-SQL语句,UDF被预先优化和编译并且可以作为一个单元来进行调用. UDF和存储过程的主要区别在于返回结果的方式: 使用UDF时可传 ...

随机推荐

ios 关于UIView 的multipleTouchEnabled 和 exclusiveTouch
做项目时发现,在一个界面上的2个button竟然可以同时点击,依次push进去了2个 controller!我就产生了疑问,一个view的multipleTouchEnabled属性默认是false啊 ...
question2answer论坛框架分析及web开发思考
2015年7月25日 17:31:42 星期六一个专门做论坛的开源PHP框架, 有后台, 支持多语种入口文件是框架根目录的index.php 他包含了/qa-include/qa-index.ph ...
effective OC2.0 52阅读笔记（四协议与分类）
23 通过委托与数据源协议进行对象间通信总结:委托模式的常规委托模式中,信息从类Class流向受委托者delegate.数据源模式,信息从数据源datasource流向class.数据源和受委托者可 ...
git remote 相关用法
为了便于管理,Git要求每个远程主机都必须指定一个主机名.git remote 命令就用于管理主机名. 不带选项的时候,git remote命令列出所有远程主机. $ git remote orig ...
log4j:WARN No appenders could be found for logger
直接写我的解决办法: 在src下面新建file名为log4j.properties内容如下:# Configure logging for testing: optionally with log f ...
win7,ubuntu双系统——重装win7后如何恢复ubuntu引导
磁盘分区——windows 7自带分区工具实现磁盘分区——PQ硬盘分区魔术师 win7,ubuntu双系统的安装——正式安装 win7,ubuntu双系统的安装——卸载ubuntu 讲述了我的 w ...
JS点击灯泡变亮（学自W3school）
JS学习笔记1(学自W3school) function changeImage() { element = document.getElementByIdx_x('myimage' ...
HDU 1159 Common Subsequence --- DP入门之最长公共子序列
题目链接基础的最长公共子序列 #include <bits/stdc++.h> using namespace std; ; char c[maxn],d[maxn]; int dp[m ...
HDU 5762 Teacher Bo (鸽笼原理) 2016杭电多校联合第三场
题目:传送门. 题意:平面上有n个点,问是否存在四个点 (A,B,C,D)(A<B,C<D,A≠CorB≠D)使得AB的横纵坐标差的绝对值的和等于CD的横纵坐标差的绝对值的和,n<1 ...
解决安卓TextView异常换行，参差不齐等问题
参考:http://blog.csdn.net/u012286242/article/details/28429267?utm_source=tuicool&utm_medium=referr ...

Pig用户自定义函数（UDF）转

用户自定义函数

自定义过滤函数

自定义运算函数（Eval function）

自定义加载函数

Pig用户自定义函数（UDF）转的更多相关文章

随机推荐

热门专题