Pig实战

1. pig简介

2. 安装pig

3. 实战pig

4. 深入pig

5. 参考资料及代码下载

<1>. Pig简介

pig是hadoop项目的一个拓展项目，用以简化hadoop编程（简化的程度超乎想象啊），并且提供一个更高层次抽象的数据处理能力，同时能够保持hadoop的简单和可靠性。

<2>. 安装pig

2.1 下载pig：[点击下载]pig安装包

2.2 解压下载完成的pig安装包：

xuqiang@ubuntu:~/hadoop/src/pig$ tar zxvf pig-0.8.1.tar.gz

2.3 设置环境变量

xuqiang@ubuntu:~$ vim .bashrc

export PATH=~/hadoop/src/pig/pig-0.8.1/bin/:$PATH

export PIG_HOME=~/hadoop/src/pig/pig-0.8.1/

export HADOOP_CONF_DIR=~/hadoop/src/hadoop-0.21.0/conf

export PIG_CLASSPATH=~/hadoop/src/hadoop-0.21.0/conf

这里需要说明的是pig是能够运行在两种模式下：local模式和mapreduce模式，变量HADOOP_CONF_DIR主要是为了在mapreduce模式下使用。

为了使新设置的环境变量生效，使用如下命令：

xuqiang@ubuntu:~$ source .bash_profile

测试一下pig的安装是否正确：

xuqiang@ubuntu:~$ pig -x local

2011-06-05 17:48:49,480 [main] INFO org.apache.pig.Main - Logging error messages to: /home/xuqiang/pig_1307321329471.log

2011-06-05 17:48:49,926 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///

grunt>

此时表明pig已经正确安装。

<3>. Pig实战

在pig下载的安装包，解压完成了之后，有一个tutorial目录，我们使用里面的数据来开始pig学习。如果tutorial目录下没有存在pigtutorial.tar.gz文件的话，那么需要使用ant来编译出这个文件：

xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1$ ant

这时ant将会下载依赖的jar的文件，同时将编译出对应版本的pig jar文件。然后进入tutorial目录，执行ant命令：

xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1$ cd tutorial/

xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1/tutorial$ ant

这时将生成pigtutorial.tar.gz文件，解压该文件形成pigtmp的文件夹。该文件夹结构：

|-- excite-small.log

|-- excite.log.bz2

|-- pig.jar

|-- script1-hadoop.pig

|-- script1-local.pig

|-- script2-hadoop.pig

|-- script2-local.pig

`-- tutorial.jar

1 directory, 9 files

我们下面将主要分析excite-small.log文件，该文件的数据结构如下：

UserID TimeStamp SearchQuery

我们首先将excite-small.log加载到一个变量（也称之为alias）中，我们将使用该变量来表示这个数据集：

grunt> log = load 'excite-small.log' as (user, time, query);

注意的是这时pig并没有运行该命令，仅仅是解析了该命令，只有到使用dump命令或者是store命令时pig才会真正执行该命令。dump命令将打印出这个变量的内容，store命令将变量所代表的内容保存到一个文件中。

这时如果想要查看该log的结构：

grunt> describe log;

log: {user: bytearray,time: bytearray,query: bytearray}

这是如果我们想要查看该log文件的前4行的话：

grunt> lmt = limit log 4;

grunt> dump lmt;

这时将打印出log文件的前四行数据。

<4>. 深入pig

4.1 Utility and file commands

4.2 Data read/write operators

4.3 Diagnostic operators诊断操作

4.4 Data type and schemes

pig中有6个基本数据类型和3个复合数据类型，基本数据类型如下：

复合数据类型：

pig中数据模型中能够允许数据类型的嵌套，类似于xml/json格式。

4.5 Expression and functions

pig能够支持常见运算符。

同时在pig中提供了一些内建函数。

这里我们没有给出示例，将在下面给出示例。

4.6 Retional operators

首先编写两个数据文件A：

0,1,2

1,3,4

数据文件B：

0,5,2

1,7,8

运行pig：

xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1/tutorial/pigtmp$ pig -x local

2011-06-05 18:46:54,039 [main] INFO org.apache.pig.Main - Logging error messages to: /home/xuqiang/hadoop/src/pig/pig-0.8.1/tutorial/pigtmp/pig_1307324814030.log

2011-06-05 18:46:54,324 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///

grunt>

加载数据A：

grunt> a = load 'A' using PigStorage(',') as (a1:int, a2:int, a3:int);

加载数据B：

grunt> b = load 'B' using PigStorage(',') as (b1:int, b2:int, b3:int);

求a，b的并集：

grunt> c = union a, b;

grunt> dump c;

(0,5,2)

(1,7,8)

(0,1,2)

(1,3,4)

将c分割为d和e，其中d的第一列数据值为0，e的第一列的数据为1（$0表示数据集的第一列）：

grunt> split c into d if $0 == 0, e if $0 == 1;

查看d：

grunt> dump d;

(0,1,2)

(0,5,2)

查看e：

(1,3,4)

(1,7,8)

选择c中的一部分数据：

grunt> f = filter c by $1 > 3;

查看数据f：

grunt> dump f;

(0,5,2)

(1,7,8)

对数据进行分组：

grunt> g = group c by $2;

查看g:

grunt> dump g;

(2,{(0,1,2),(0,5,2)})

(4,{(1,3,4)})

(8,{(1,7,8)})

当然也能够将所有的元素集合到一起：

grunt> h = group c all;

grunt> dump h;

(all,{(0,1,2),(1,3,4),(0,5,2),(1,7,8)})

查看h中元素个数：

grunt> i = foreach h generate COUNT($1);

查看元素个数：

grunt> dump i;

这里可能出现Could not resolve counter using imported: [, org.apache.pig.built in., org.apache.pig.impl.builtin. ]的情况，这是需要使用register命令来注册pig对应的jar版本。

接下俩试一下jon操作：

grunt> j = join a by $2, b by $2;

该操作类似于sql中的连表查询，这是的条件是$2 == $2。

取出c的第二列$1和$1 * $2，将这两列保存在k中：

grunt> k = foreach c generate $1, $1 * $2;

查看k的内容：

grunt> dump k;

(5,10)

(7,56)

(1,2)

(3,12)

4.7 Working with UDF(user defined function)

pig能够支持两种类型的UDFs：eval和load/store，其中load/store的自定义函数主要是用来加载和保存特定的数据格式；eval自定义函数主要用来进行常规的数据转换。

1. eval

如果想要实现自定义的eval类型的函数，那么基本的做法是首先编写一个类继承自EvalFunc<T>这个抽象类，同时需要重写这个类的一方法：

abstract public T exec(Tuple input) throws IOException;

该方法传入的类型是Tuple类型。

如果调用udf时使用的是:udf(ARG1, ARG2);那么调用input.get(0)将得到ARG1，同理input.get(1)得到的是ARG2，input.getSize()得到传递的参数的数量，这里就是2.

下面我们就开始编写udf UPPER.java，将UPPER.java文件保存到myudfs目录下：


package myudfs;
import java.io.IOException;
import org.apache.pig.EvalFunc;
import org.apache.pig.data.Tuple;
import org.apache.pig.impl.util.WrappedIOException;

public class UPPER extends EvalFunc<String>
{
    public String exec(Tuple input) throws IOException {
        if (input == null || input.size() == 0)
            return null;
        try{
            String str = (String)input.get(0);
            return str.toUpperCase();
        }catch(Exception e){
            throw WrappedIOException.wrap("Caught exception processing input row ", e);
        }
    }

}

编译该文件，同时生成该jar文件：

xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1/myudfs$ javac -cp ../pig.jar UPPER.java

xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1/myudfs$ cd ..

xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1$ jar -cf myudfs.jar myudfs

准备student_data文件：

student1,1,1
studetn2,2,2
student3,3,3
student4,4,4

在pig中测试该udf：

xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1$ pig -x local

注册该udf：

grunt> register myudfs.jar

加载数据：

grunt> A = load 'student_data' using PigStorage(',') as (name:chararray, age:int,gpa:double);

grunt> B = FOREACH A GENERATE myudfs.UPPER(name);

grunt> dump B;

这时将输出：

(STUDENT1)
(STUDETN2)
(STUDENT3)
(STUDENT4)

<5>. 参考资料及代码下载

http://pig.apache.org/docs/r0.8.1/udf.html#How+to+Write+a+Simple+Eval+Function

转：http://www.cnblogs.com/xuqiang/archive/2011/06/06/2073601.html

Pig实战的更多相关文章

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集
(一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blo ...
Hadoop、Pig、Hive、NOSQL 学习资源收集
转自:http://www.cnblogs.com/zzjhn/p/3855566.html (一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http:// ...
Spark入门实战系列--5.Hive（上）--Hive介绍及部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍月开源的一个数据仓库框架,提供了类似于SQL语法的HQ ...
【Pig源码分析】谈谈Pig的数据模型
1. 数据模型 Schema Pig Latin表达式操作的是relation,FILTER.FOREACH.GROUP.SPLIT等关系操作符所操作的relation就是bag,bag为tuple的 ...
大数据之pig 命令
1.pig与hive的区别 pig和hive比较类似的,都是类sql的语言,底层都是依赖于hadoop 走的mapreduce任务. pig和hive的区别就是,想要实现一个业务逻辑的话, ...
Hadoop实战课程
Hadoop生态系统配置Hadoop运行环境Hadoop系统架构HDFS分布式文件系统MapReduce分布式计算(MapReduce项目实战)使用脚本语言Pig(Pig项目实战)数据仓库工具Hive ...
使用Pig预测电信用户的移动路径
实战数据: 预期结果: 测试数据: 002|2014-09-10 00-09|东油大学 002|2014-09-10 09-17|学苑小区 001|2014-09-12 00-09|东油大学 001| ...
深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建 ...

随机推荐

jqGrid中实现radiobutton的两种做法
http://blog.sina.com.cn/s/blog_4f925fc30102e27j.html jqGrid中实现radiobutton的两种做法 ------------------- ...
iOS开发--泛型
一. 泛型函数 1.单一占位符泛型函数下面就使用一个经典案例:两个数值进行交换.来使用泛型,写一个通用的函数,这个函数的功能就是交换两个变量的值.在Swift中不允许类型隐式转换,也就是说,如果你定 ...
Java-马士兵设计模式学习笔记-总结
<马士兵设计模式学习>学习了以下模式: 1.装饰者模式(例子:水管工,木工) 2.策略模式(例子:老师用职称比大小.学生用成绩比大小) 3.简单工厂模式(例子:VechileFactory ...
Visual studio C#语言输出调试信息到Output窗口方法
1.菜单栏: 工具>选项>调试>将所有输出窗口文本重定向到即时窗口 2.使用Console.WriteLine或Write添加调试信息 3.按F5启动调试程序 4. ...
C++:获取数组长度
C/C++中如何获取数组的长度? 如何获取数组的长度 2010-12-15 20:49 C/C++中如何获取数组的长度? 收藏 C.C++中没有提供直接获取数组长度的函数,对于存放字符串 ...
高性能jdbc封装工具 Apache Commons DbUtils 1.6（转载）
转载自原文地址:http://gao-xianglong.iteye.com/blog/2166444 前言关于Apache的DbUtils中间件或许了解的人并不多,大部分开发人员在生成环境中更多的 ...
计算机IT求职学习List
1. 算法相关 1.1 <编程珠玑> 1.2 <编程之美> 这两本是最经典的了,这里面注重的是解决问题的思路,看的时候里面的问题要认真思考再参考解答.下面两本是对具体的面试题做 ...
c# 获取数组中最大数的值
求数组中最大的数的值:1.数组的max函数: class Program { static void Main(string[] args) { ,,,,,,,,,}; int max= GetMax ...
CListCtrl使用方法汇总
回顾: 刚刚写完,因为是分期写的,所以最初想好好做一下的文章格式半途而废了~说的也许会有点啰嗦,但是所有的基础用到的技术细节应该都用到了. 如果还有什么疑问,请回复留言,我会尽力解答. 如果有错误,请 ...
js学习之道：表单验证公共js
/** 文件名称:CommonUtil.js 作者 : Yuce 编制时间: 2010-03-24 文件内容:一些常用的js公用类.工具类包括方法: g_FormFieldIsNull 判断 ...

Pig实战

<1>. Pig简介

<2>. 安装pig

<3>. Pig实战

<4>. 深入pig

4.1 Utility and file commands

4.2 Data read/write operators

4.3 Diagnostic operators诊断操作

4.4 Data type and schemes

4.5 Expression and functions

4.6 Retional operators

4.7 Working with UDF(user defined function)

<5>. 参考资料及代码下载

Pig实战的更多相关文章

随机推荐

热门专题