Pig UDF 用户自定义函数

注册UDF

do.pig的内容如下：

register /xx/yy.jar

data = load 'data';

result = foreach data generate aa.bb.Upper($0);

dump result;

register的路径可以是本地路径，也可以是hdfs路径

register hdfs://pig/xx/yy.jar

如果是pig -Dudf.import.list=aa.bb，在引用UDF时可以不用包路径：

register /xx/yy.jar

data = load 'data';

result = foreach data generate Upper($0);

dump result;

如果是pig -Dpig.additional.jars=/xx/yy.jar，可以不用register：

data = load 'data';

result = foreach data generate aa.bb.Upper($0);

dump result;

可以使用define为UDF起别名：

register /xx/yy.jar

define UPPER aa.bb. Upper();

data = load 'data';

result = foreach data generate UPPER($0);

dump result;

如果构造UDF需要参数，可以在define里传入，也可以define多个重载的构造函数

register /xx/yy.jar

define UPPER1 aa.bb. Upper();

define UPPER2 aa.bb. Upper('abc');

data = load 'data';

result = foreach data generate UPPER1($0), UPPER2($1);

dump result;

调用静态java函数

可调用的函数必须符合条件：

1）静态函数

2）参数是基本数据类型、stirng、array

3）返回值是基本数据类型、string

多个参数用空格分隔

InvokeForInt、InvokeForLong、InvokeForFloat、InvokeForDouble、InvokeForString

define hex InvokeForString('java.lang.Integer.toHexString', 'int');

data = load 'data';

result = foreach data generate hex((int)$0);

define stdev InvokeForDouble('com.acme.stats.stdev', 'double[]');

a = load 'data' as (id:int, dp:double);

b = group a by id;

c = foreach b generate stdev(a.dp);

自定义UDF

Eval Function （运算函数）

package com.test.pig.udf;

import java.io.IOException;

import org.apache.pig.EvalFunc;

import org.apache.pig.data.Tuple;

public class CustomReplaceFunc extends EvalFunc<String> {

	@Override

	public String exec(Tuple tuple) throws IOException {

		if(tuple == null || tuple.size() == 0 || tuple.isNull(0) ) {

			return null;

		}

		String original = (String)tuple.get(0);

		String oldChar = (String)tuple.get(1);

		String newChar = (String)tuple.get(2);

		return original.replaceAll(oldChar, newChar);

	}

}

register /home/pig/myfunc.jar

define MyReplace com.test.pig.udf.CustomReplaceFunc();

users = load '/users.data' as (name:chararray, age, address);

result = foreach users generate MyReplace(name, 'l', 'L'), age, address;

dump result;

Aggregate Function （聚合函数）

Filter Function（过滤函数）

Load Function（加载函数）

Store Function（存储函数）

Pig UDF 用户自定义函数的更多相关文章

15第十五章UDF用户自定义函数(转载)
15第十五章UDF用户自定义函数待补上原文链接本文由豆约翰博客备份专家远程一键发布
Hive UDF 用户自定义函数编程及使用
首先创建工程编写UDF 代码,示例如下: 1. 新建Maven项目 udf 本机Hadoop版本为2.7.7, Hive版本为1.2.2,所以选择对应版本的jar ,其它版本也不影响编译. 2. po ...
SQL Server UDF用户自定义函数
UDF的定义和存储过程很相似,用户自定义函数也是一组有序的T-SQL语句,UDF被预先优化和编译并且尅作为一个单元爱进行调用.UDF和存储过程的主要区别在于返回结果的方式. 使用UDF时可传入参数, ...
Hive的UDF(用户自定义函数)开发
当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function). 测试各种内置函数的快捷方法: 创建一个 dual 表 ...
Pig用户自定义函数（UDF）转
原文地址:http://blog.csdn.net/zythy/article/details/18326693 我们以气温统计和词频统计为例,讲解以下三种用户自定义函数. 用户自定义函数什么时候需 ...
Hive中的用户自定义函数UDF
Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能.Hive中具有多种类型的用户自定义函数.show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的 ...
SQL Server用户自定义函数（UDF）
一.UDF的定义和存储过程很相似,用户自定义函数也是一组有序的T-SQL语句,UDF被预先优化和编译并且可以作为一个单元来进行调用. UDF和存储过程的主要区别在于返回结果的方式: 使用UDF时可传 ...
详解Spark sql用户自定义函数:UDF与UDAF
UDAF = USER DEFINED AGGREGATION FUNCTION Spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数ho ...
Hive 文件格式 & Hive操作（外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制）
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语 ...

随机推荐

剑指offer六十一之序列化二叉树（待补充）
一.题目请实现两个函数,分别用来序列化和反序列化二叉树二.思路三.代码 --------------------------------------------- 参考链接:
fail2ban的使用以及防暴力破解与邮件预警
fail2ban可以监视你的系统日志,然后匹配日志的错误信息(正则式匹配)执行相应的屏蔽动作(一般情况下是防火墙),而且可以发送e-mail通知系统管理员! fail2ban运行机制:简单来说其功能就 ...
共识算法：Paxos
两阶段提交 Two-phase Commit(2PC):保证一个事务跨越多个节点时保持 ACID 特性: 两类节点:协调者(Coordinator)和参与者(Participants),协调者只有一个 ...
配置私有仓库(使用registry镜像搭建一个私有仓库)
在使用Docker一段时间后,往往会发现手头积累了大量的自定义镜像文件,这些文件通过公有仓库进行管理并不方便:另外有时候只是希望在内部用户之间进行分享,不希望暴露出去.这种情况下,就有必要搭建一个本地 ...
Installing haproxy load balancing for http and https--转载
This example will guide you through a simple IP based load balancing solution that handles ssl traff ...
[转]AngularJS中$timeout和$interval的用法详解
本文转自:http://www.cnblogs.com/moli-/p/5827618.html 1. 先将$interval,$timeout,作为参数注入到controller中,例如rds.co ...
Spring系列之——spring security
1 搭建springboot 2 配置pom依赖(springboot版本为2.1.3) <dependency> <groupId>org.springframework.b ...
fzu 2139 久违的月赛之二
Problem 2139 久违的月赛之二 Accept: 42 Submit: 106Time Limit: 1000 mSec Memory Limit : 32768 KB Probl ...
Docker（一）：入门教程
2013年发布至今, Docker 一直广受瞩目,被认为可能会改变软件行业. 但是,许多人并不清楚 Docker 到底是什么,要解决什么问题,好处又在哪里?本文就来详细解释,帮助大家理解它,还带有简单 ...
Linux : task work 机制
task work机制可以在内核中向指定的进程添加一些任务函数,这些任务函数会在进程返回用户态时执行,使用的是该进程的上下文.包括下面的这些API: task_work_add task_work_c ...

Pig UDF 用户自定义函数

Pig UDF 用户自定义函数的更多相关文章

随机推荐

热门专题