大数据笔记（十八）——Pig的自定义函数

Pig的自定义函数有三种：

1、自定义过滤函数：相当于where条件

2、自定义运算函数：

3、自定义加载函数：使用load语句加载数据，生成一个bag

                                          默认：一行解析成一个Tuple

                                         需要MR的jar包

一.自定义过滤函数

package demo.pig;

import java.io.IOException;

import org.apache.pig.FilterFunc;

import org.apache.pig.data.Tuple;

//实现自定义的过滤函数，实现：查询过滤薪水大于2000的员工

public class IsSalaryTooHigh extends FilterFunc{

    @Override

    public Boolean exec(Tuple tuple) throws IOException {

        /*参数tuple:调用的时候 传递的参数

         *

         * 在PigLatin调用

         * myresult1 = filter emp by demo.pig.IsSalaryTooHigh(sal)

         */

        //取出薪水

        int sal = (int) tuple.get(0);

        return sal>2000?true:false;

    }

}

二.自定义运算函数

package demo.pig;

import java.io.IOException;

import org.apache.pig.EvalFunc;

import org.apache.pig.data.Tuple;

//根据员工的薪水判断级别

public class CheckSalaryGrade extends EvalFunc<String>{

    @Override

    public String exec(Tuple tuple) throws IOException {

        // myresult2 = foreach emp generate ename,sal,demo.pig.CheckSalaryGrade(sal);

        int sal = (int)tuple.get(0);

        if(sal<1000) return "Grade A";

        else if(sal>=1000 && sal<3000) return "Grade B";

        else return "Grade C";

    }

}

三.自定义加载函数

package demo.pig;

import java.io.IOException;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.mapreduce.InputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.pig.LoadFunc;

import org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigSplit;

import org.apache.pig.data.BagFactory;

import org.apache.pig.data.DataBag;

import org.apache.pig.data.Tuple;

import org.apache.pig.data.TupleFactory;

public class MyLoadFunc extends LoadFunc{

    //定义一个变量保存输入流

    private RecordReader reader ;

    @Override

    public InputFormat getInputFormat() throws IOException {

        // 输入数据的格式：字符串

        return new TextInputFormat();

    }

    @Override

    public Tuple getNext() throws IOException {

        // 从输入流读取一行，如何解析生成返回的tuple

        //数据：I love Beijing

        Tuple result = null;

        try{

            //判断是否读入了数据

            if(!this.reader.nextKeyValue()){

                //没有数据

                return result; //----> 是nullֵ

            }

            //数据：I love Beijing

            String data = this.reader.getCurrentValue().toString();

            //生成返回的结果：Tuple

            result = TupleFactory.getInstance().newTuple();

            //分词

            String[] words = data.split(" ");

            //每一个单词单独生成一个tuple,再把tuple放入bag中

            //再把这个bag放入result中

            //创建一个表

            DataBag bag = BagFactory.getInstance().newDefaultBag();

            for(String w:words){

                //为每个单词生成一个tuple

                Tuple aTuple = TupleFactory.getInstance().newTuple();

                aTuple.append(w); //将单词放到tuple中

                //把这些tuple放入一个bag中

                bag.add(aTuple);

            }

            //把bag放入result

            result.append(bag);

        }catch(Exception ex){

            ex.printStackTrace();

        }

        return result;

    }

    @Override

    public void prepareToRead(RecordReader reader, PigSplit arg1) throws IOException {

        // RecordReader reader:代表HDFS输入流

        this.reader = reader;

    }

    @Override

    public void setLocation(String path, Job job) throws IOException {

        // 从HDFS输入的路径

        FileInputFormat.setInputPaths(job, new Path(path));

    }

}

注册jar包: register define
register /root/temp/p1.jar

myresult3 = load '/input/data.txt' using demo.pig.MyLoadFunc();
定义别名：define myload demo.pig.MyLoadFunc;

大数据笔记（十八）——Pig的自定义函数的更多相关文章

大数据笔记（八）——Mapreduce的高级特性（A）
一.序列化类似于Java的序列化:将对象——>文件如果一个类实现了Serializable接口,这个类的对象就可以输出为文件同理,如果一个类实现了的Hadoop的序列化机制(接口:Writ ...
Opencv笔记(十八)——轮廓的更多函数及其层次结构
凸缺陷前面我们已经学习了轮廓的凸包,对象上的任何凹陷都被成为凸缺陷.OpenCV 中有一个函数 cv.convexityDefect() 可以帮助我们找到凸缺陷.函数调用如下: hull = cv2 ...
大数据笔记（十七）——Pig的安装及环境配置、数据模型
一.Pig简介和Pig的安装配置 1.最早是由Yahoo开发,后来给了Apache 2.支持语言:PigLatin 类似SQL 3.翻译器 PigLatin ---> MapReduce(Spa ...
玩转大数据系列之Apache Pig高级技能之函数编程（六）
原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...
跟上节奏大数据时代十大必备IT技能
跟上节奏大数据时代十大必备IT技能新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT ...
python3.4学习笔记(十八) pycharm 安装使用、注册码、显示行号和字体大小等常用设置
python3.4学习笔记(十八) pycharm 安装使用.注册码.显示行号和字体大小等常用设置Download JetBrains Python IDE :: PyCharmhttp://www. ...
大数据笔记（十六）——Hive的客户端及自定义函数
一.Hive的Java客户端 JDBC工具类:JDBCUtils.java package demo.jdbc; import java.sql.DriverManager; import java. ...
跟上节奏大数据时代十大必备IT技能（转）
新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最 ...
(C/C++学习笔记) 十八. 继承和多态
十八. 继承和多态 ● 继承的概念继承(inheritance): 以旧类为基础创建新类, 新类包含了旧类的数据成员和成员函数(除了构造函数和析构函数), 并且可以派生类中定义新成员. 形式: cl ...

随机推荐

[19/06/06-星期四] CSS基础_盒子模型
一.盒子模型(框模型.盒模型) CSS处理网页时,它认为每个元素都在一个不可见的矩形盒子里. 为什么想象成盒子模型?因为把所有元素想象成盒子,那么我们对网页的布局就相当于摆放盒子.我们只需要把相应的盒 ...
Python 内置函数super
super()函数是用于调用父类/超类的一个方法 super是用来解决多重继承问题的,直接用类名调用父类方法在使用单继承的时候没有问题,但是如果使用多继承,会涉及到查找顺序(MRO),重复调用(钻石继 ...
HTTP/2 最新漏洞，直指 Kubernetes！
Java技术栈 www.javastack.cn 优秀的Java技术公众号在这个数据.应用横行的时代,漏洞的出现早已屡见不鲜.在尚未造成大面积危害之前,我们该如何做好防御措施?或许从过往经常发生漏洞 ...
python3—廖雪峰之练习（二）
函数的参数练习请定义一个函数quadratic(a, b, c), 接收3个参数,返回一元二次方程 : $ ax^2+b+c=0 $ 的两个解提示:计算平方根可以调用math.sqrt()函数: ...
题解 AT1357 【n^p mod m】
此题就是快速幂取模先简单讲一讲快速幂首先,快速幂的目的就是做到快速求幂,假设我们要求a^b,按照朴素算法就是把a连乘b次,这样一来时间复杂度是O(b)也即是O(n)级别,快速幂能做到O(logn) ...
Diango路由映射FBV和CBV
django中请求处理方式有2种:FBV(function base views) 和 CBV(class base views),换言之就是一种用函数处理请求,一种用类处理请求. FBV # url ...
jupyter与requests的初步使用
upyter 是一个简易的,方便的写Python代码的工具包,requests是Python里非常好用的用来发送 http 请求的包. 开始学习本教程之前,请确保你已经安装了Python,并且安装了P ...
Python webdriver调用Chrome报错
报错信息如下: selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to b ...
使用pycharm编写自动化脚本
1.:导入本地Python环境 2:安装Selenium 3:下来需要根据安装的浏览器版本,下载合适的chromedriver驱动程序. 4:接着需要将下载的chromedriver进行解压,并将文件 ...
pandas读取Excel文件
In [7]: import pandas as pd filname = 'ch02数据导入\\student.xlsx' data = pd.read_excel(filname) data Ou ...

大数据笔记（十八）——Pig的自定义函数

大数据笔记（十八）——Pig的自定义函数的更多相关文章

随机推荐

热门专题