一、关于Pig：别以为猪不能干活

1.1 Pig的简介

　　Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。

Compare：相比Java的MapReduce API，Pig为大型数据集的处理提供了更高层次的抽象，与MapReduce相比，Pig提供了更丰富的数据结构，一般都是多值和嵌套的数据结构。Pig还提供了一套更强大的数据变换操作，包括在MapReduce中被忽视的连接Join操作。

　　Pig包括两部分：

用于描述数据流的语言，称为Pig Latin。
用于执行Pig Latin程序的执行环境，当前有两个环境：单JVM中的本地执行环境和Hadoop集群上的分布式执行环境。

　　Pig内部，每个操作或变换是对输入进行数据处理，然后产生输出结果，这些变换操作被转换成一系列MapReduce作业，Pig让程序员不需要知道这些转换具体是如何进行的，这样工程师可以将精力集中在数据上，而非执行的细节上。

1.2 Pig的特点

　（1）专注于于大量数据集分析；
（2）运行在集群的计算架构上，Yahoo Pig 提供了多层抽象，简化并行计算让普通用户使用；这些抽象完成自动把用户请求queries翻译成有效的并行评估计划，然后在物理集群上执行这些计划；
（3）提供类似 SQL 的操作语法；
（4）开放源代码；

1.3 Pig与Hive的区别

　　对于开发人员，直接使用Java APIs可能是乏味或容易出错的，同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案，使得Hadoop编程变得更加容易。

　　•Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。

　　•Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS，并允许使用类似于SQL语法进行数据查询。与Pig一样，Hive的核心功能是可扩展的。

　　Pig和Hive总是令人困惑的。Hive更适合于数据仓库的任务，Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性，并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。正因为如此，Pig仍然是吸引大量的软件开发人员。

二、Pig的安装配置

2.1 准备工作

　　下载pig的压缩包，这里使用的是pig-0.11.1版本，已经上传至了百度网盘中（URL：http://pan.baidu.com/s/1o6IDfhK）

　　（1）通过FTP工具上传到虚拟机中，可以选择XFtp、CuteFTP等工具

　　（2）解压缩

tar -zvxf pig-0.11.1.tar.gz

　　（3）重命名

mv pig-0.11.1 pig

　　（4）修改/etc/profile，增加内容如下，最后重新生效配置文件source /etc/profile

export PIG_HOME=/usr/local/pig

export PATH=.:$HADOOP_HOME/bin:$PIG_HOME/bin:$HBASE_HOME/bin:$ZOOKEEPER_HOME/bin:$JAVA_HOME/bin:$PATH

2.2 设置Pig与Hadoop关联

　　进入$PIG_HOME/conf中，编辑pig.properties文件，加入以下两行内容：

fs.default.name=hdfs://hadoop-master:9000

mapred.job.tracker=hadoop-master:9001

三、Pig的使用实例

3.1 文件背景

　　结合本笔记第五篇《自定义类型处理手机上网日志》的手机上网日志为背景，我们要做的就是通过Pig Latin对该日志进行流量的统计。该日志的数据结构定义如下图所示：（该文件的下载地址为：http://pan.baidu.com/s/1dDzqHWX）

　　PS：在使用Pig之前先将该文件上传至HDFS中，这里上传到了/testdir/input目录中

hadoop fs -put HTTP_20130313143750.dat /testdir/input

3.2 Load:把HDFS中的数据转换为Pig可以处理的模式

　　（1）首先通过输入Pig进入grunt，然后使用Load命令将原始文件转换为Pig可以处理的模式：

grunt>A = LOAD '/testdir/input/HTTP_20130313143750.dat' AS (t0:long,
msisdn:chararray, t2:chararray, t3:chararray, t4:chararray, t5:chararray, t6:long, t7:long, t8:long, t9:long, t10:chararray);

　　（2）通过Pig对指令的解析，帮我们转换成为了MapReduce任务：

　　（3）通过以下命令可以查看结果：

grunt>DUMP A;

3.3 FOREACH:把A中有用的字段抽取出来

　　（1）这里我们需要统计的只是手机号以及四个流量数据，因此我们通过遍历将A中的部分字段抽取出来存入B中：

grunt> B = FOREACH A GENERATE msisdn, t6, t7, t8, t9;

　　（2）通过以下命令可以查看结果：

grunt>DUMP B;

3.4 GROUP:分组数据

　　（1）有用信息抽取出来后，看到结果中一个手机号可能有多条记录，因此这里通过手机号进行分组：

grunt> C = GROUP B BY msisdn;

　　（2）通过以下命令可以查看结果：

grunt>DUMP C;

3.5 GENERATE:流量汇总

　　（1）在对手机号进行分组之后，我们可以看到某个手机号对应着多条流量记录数据，因此继续使用FOREACH遍历分组数据，然后对四个流量数据进行汇总，这里使用了聚合函数SUM()：

grunt> D = FOREACH C GENERATE group, SUM(B.t6), SUM(B.t7), SUM(B.t8), SUM(B.t9);

　　（2）通过以下命令可以查看结果：

grunt>DUMP D;

3.6 STORE:将统计结果存储到HDFS中进行持久化

　　（1）在对流量统计完毕之后，结果仍然是在Pig中，这里就需要对其进行持久化操作，即将结果存储到HDFS中：

grunt> STORE D INTO '/testdir/output/wlan_result';

　　（2）通过HDFS Shell查看存储结果：

hadoop fs -text /testdir/output/wlan_result/part-r-*

参考资料

（1）yanghuahui，《Hadoop Pig简介、安装与使用》：http://www.cnblogs.com/yanghuahui/p/3768270.html

（2）cloudsky，《Hadoop使用（六）Pig》：http://www.cnblogs.com/skyme/archive/2012/06/04/2534876.html

（3）rzhzhz，《Pig与Hive的对比》：http://blog.csdn.net/rzhzhz/article/details/7557607

作者：周旭龙

出处：http://www.cnblogs.com/edisonchou/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文链接。

Hadoop学习笔记—16.Pig框架学习的更多相关文章

Hadoop学习笔记—18.Sqoop框架学习
一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易.Apache Sqoop正在加 ...
Hadoop学习笔记—15.HBase框架学习（基础知识篇）
HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是 ...
Hadoop学习笔记—15.HBase框架学习（基础实践篇）
一.HBase的安装配置 1.1 伪分布模式安装伪分布模式安装即在一台计算机上部署HBase的各个角色,HMaster.HRegionServer以及ZooKeeper都在一台计算机上来模拟. 首先 ...
Hadoop学习笔记—17.Hive框架学习
一.Hive:一个牛逼的数据仓库 1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储. ...
Hadoop学习笔记—19.Flume框架学习
START:Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. ...
Android 学习笔记之AndBase框架学习(七) SlidingMenu滑动菜单的实现
PS:努力的往前飞..再累也无所谓.. 学习内容: 1.使用SlidingMenu实现滑动菜单.. SlidingMenu滑动菜单..滑动菜单在绝大多数app中也是存在的..非常的实用..Gith ...
Android 学习笔记之AndBase框架学习(六) PullToRefrech 下拉刷新的实现
PS:Struggle for a better future 学习内容: 1.PullToRefrech下拉刷新的实现... 不得不说AndBase这个开源框架确实是非常的强大..把大部分的东西 ...
Android 学习笔记之AndBase框架学习(五) 数据库ORM..注解，数据库对象映射...
PS:好久没写博客了... 学习内容: 1.DAO介绍,通用DAO的简单调度过程.. 2.数据库映射关系... 3.使用泛型+反射+注解封装通用DAO.. 4.使用AndBase框架实现对DAO的调用 ...
Android 学习笔记之AndBase框架学习(三) 使用封装好的函数完成Http请求..
PS:踏踏实实走好每一步... 学习内容: 1.使用AndBase框架实现无参Http Get请求... 2.使用AndBase框架实现有参Http Post请求... 3.使用AndBase框架实现 ...

随机推荐

ORA-12638：身份证明检索失败
本地Sqlplus 连一远程数据库,出现 ORA-12638: 身份证明检索失败,pl/sql developer 也是同样的问题,tnsping 是没有问题的. 找到本地的sqlnet.ora文件, ...
[Linux] 查看jar包内容
jar vtf fileName.jar 用法: jar {ctxui}[vfm0Me] [jar-file] [manifest-file] [entry-point] [-C dir] file ...
【积累篇：他山之石，把玉攻】解决XP 系统 .Net Framework 4安装时出现严重错误 (0x80070643)
第一步: 1.开始——运行——输入cmd——回车——在打开的窗口中输入net stop WuAuServ 2.开始——运行——输入%windir% 3.在打开的的窗口中有个文件夹叫SoftwareD ...
用maven在eclipse中创建Web项目
使用eclipse插件创建一个web project 首先创建一个Maven的Project如下图我们勾选上Create a simple project (不使用骨架) 这里的Packing 选择 ...
【iOS 使用github上传代码】详解
[iOS 使用github上传代码]详解一.github创建新工程二.直接添加文件三.通过https 和 SSH 操作两种方式上传工程 3.1https 和 SSH 的区别: 3.1.1.前者可 ...
Greenplum安装
最近需要安装Greenplum测试一些东西,在安装过程中出现了许多问题,所以在这里将安装过程整理一下,主要参考<Greenplum企业应用实践>和http://jxzhfei.blog.5 ...
OSG消息机制之事件处理概述
OSG的消息机制包括好多个头文件预定义及多个类. 首先,消息接收相关的类当属osgGA::GUIEventHandler和osgGA::GUIEventAdapter这两个类了.前者处理OSG程序与用 ...
linux菜鸟日记(4)
使用一个简单的for循环和if判断语句实现某个网段内所有ping所有客户机的shell程序: ..} do >&; then echo " ${i}通" else e ...
js与多行字符串
JS里并没有标准的多行字符串的表示方法,但是在用模板的时候,为了保证模板的可阅读性,我们又不可避免的使用多行字符串,所以出现了各种搞法,这里以一段jade的模板作为示例,简单总结和对比一下. 字符串相 ...
整理 PHPstorm实用个人配置，修改调整个性化快捷键，修改使用phpstorm创建的模板的默认注释：
对你有助请点赞,请顶------送人玫瑰,手留余香! 1:58 2016/3/12 整理PHPstorm实用个人配置,修改调整个性化快捷键,修改使用phpstorm创建的模板的默认注释: PHPsto ...

Hadoop学习笔记—16.Pig框架学习

一、关于Pig：别以为猪不能干活

1.1 Pig的简介

1.2 Pig的特点

1.3 Pig与Hive的区别

二、Pig的安装配置

2.1 准备工作

2.2 设置Pig与Hadoop关联

三、Pig的使用实例

3.1 文件背景

3.2 Load:把HDFS中的数据转换为Pig可以处理的模式

3.3 FOREACH:把A中有用的字段抽取出来

3.4 GROUP:分组数据

3.5 GENERATE:流量汇总

3.6 STORE:将统计结果存储到HDFS中进行持久化

参考资料

Hadoop学习笔记—16.Pig框架学习的更多相关文章

随机推荐

热门专题