Apache Pig的前世今生

近期，散仙用了几周的Pig来处理分析我们站点搜索的日志数据，感觉用起来非常不错，今天就写篇笔记介绍下Pig的由来，除了搞大数据的人，可能非常少有人知道Pig是干啥的。包含一些是搞编程的，但不是搞大数据的。还包含一些既不是搞编程的。也不是搞大数据的。而是从事其它行业的朋友。所以非常有可能望文生义。一看标题，就乐了，心里就開始默默的翻译了===》
Apache 猪的笔记，看起来Apache的猪，比較厉害啊，都能写笔记了。

开个玩笑，以下进入正题，散仙，尽量写的通俗易懂。让大家看了之后都可以理解这头Pig究竟是干什么的。

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache（一个开源软件的基金组织）的一个项目，由Apache来负责维护。Pig是一个基于 Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。这一点和FaceBook开源的Hive（一个以SQL方式，操作hadoop的一个开源框架）一样简洁，清晰，易上手！

那么雅虎公司主要使用Pig来干什么呢？

1）吸收和分析用户的行为日志数据（点击流分析、搜索内容分析等），改进匹配和排名算法。以提高检索和广告业务的质量。

2）构建和更新search index。

对于web-crawler抓取了的内容是一个流数据的形式，这包含去冗余、链接分析、内容分类、基于点击次数的受欢迎程度计算(PageRank)、最后建立倒排表。

3）处理半结构化数据订阅（data seeds）服务。包含：deduplcaitin（去冗余）。geographic location resolution，以及 named entity recognition.

使用Pig来操作hadoop处理海量数据，是非常easy的。假设没有Pig。我们就得手写MapReduce代码。这但是一件非常繁琐的事。由于MapReduce的任务职责非常明白，清洗数据得一个job，处理得一个job，过滤得一个job。统计得一个job，排序得一个job，编写DAG(带先后顺序依赖的)作业非常不方便。这还能够接受，但是每次仅仅要修改非常小的一个地方，就得又一次编译整个job。然后打成jar提交到Hadoop集群上执行，是非常繁琐的，调试还非常困难，所以。在如今的大互联网公司或者是电商公司里，非常少有纯写MapReduce来处理各种任务的，基本上都会使用一些工具或开源框架来操作。

随着，数据海啸的来临，传统的DB(Oracle、DB2)已经不能满足海量数据处理的需求。MapReduce逐渐成为了数据处理的事实标准，被应用到各行各业中。所以，我们不再期望全部的客户都能高速开发应用相关代码。仅仅能把客户的工作变得简单，就像使用SQL语言，经过简单培训就能够“云”上操作。

Pig就是为了屏蔽MapReduce开发的繁琐细节，为用户提供Pig Latin这样近SQL语言处理能力，让用户能够更方便地处理海量数据。Pig将SQL语句翻译成MR的作业的集合，并通过数据流的方式将其组合起来。

Pig的一个简单处理流程，例如以下所看到的：

运行引擎例如以下所看到的：

在Pig里面，每一步操作，都是一个数据流，很easy理解，你想要什么。它就能得到什么，即使不能得到，我们也能够通过轻松扩展UDF来实现，比SQL更easy理解，每一步要做什么，很easy上手和学习，在大数据时代，了解和使用Pig来分析海量数据是很easy的。

最后告诉大家一个好消息。在最新的Pig(0.14)发行版里，有两个重要的特性：

（1）支持Pig执行在Tez上

（2）支持Orc格式的存储

Apache Pig的前世今生的更多相关文章

玩转大数据系列之Apache Pig高级技能之函数编程（六）
原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...
Apache Pig处理数据示例
Apache Pig是一个高级过程语言,可以调用MapReduce查询大规模的半结构化数据集. 样例执行的环境为cloudera的单节点虚拟机读取结构数据中的指定列在hdfs上放置一个文件 [cl ...
Apache Pig中文教程集合
Apache Pig中文教程集合: http://www.codelast.com/?p=4550#more-4550
玩转大数据系列之Apache Pig如何与Apache Solr集成（二）
散仙,在上篇文章中介绍了,如何使用Apache Pig与Lucene集成,还不知道的道友们,可以先看下上篇,熟悉下具体的流程. 在与Lucene集成过程中,我们发现最终还要把生成的Lucene索引,拷 ...
Apache Pig入门学习文档（一）
1,Pig的安装 (一)软件要求 (二)下载Pig (三)编译Pig 2,运行Pig (一)Pig的所有执行模式 (二)pig的交互式模式 (三)使用pig脚本 ...
如何给Apache Pig自定义UDF函数？
近日由于工作所需,需要使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天 ...
Apache Pig和Solr问题笔记（一）
记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下: (1)问题一: 如何Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载 ...
玩转大数据之Apache Pig如何与Apache Lucene集成
在文章开始之前,我们还是简单来回顾下Pig的的前尘往事: 1,Pig是什么? Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组 ...
Apache Pig学习笔记（二）
主要整理了一下,pig里面的一些关键词的含义和用法,pig虽然是一种以数据流处理为核心的框架,但数据库的大部分关键词和操作,在pig里面基本上都能找到对应的函数,非常灵活与简洁,春节前的最后一篇文章 ...

随机推荐

FH Admin
http://www.360doc.com/content/14/0713/08/8072791_394027312.shtml
[HTML] 条件注释判断浏览器
 除IE外都可识别 <!--[if IE]> 所有的IE可识别 <![e ...
B - Spyke Talks
Problem description Polycarpus is the director of a large corporation. There are n secretaries worki ...
resgen.exe 已退出代码为 1073741701的错误的解决办法
以管理员的身份打开命令提示窗口:(开始-运行-cmd),更改目录至"CD C:\Program Files (x86)\Microsoft SDKs\Windows\v7.0A\bin\”下 ...
Hashlib 用户名密码加密 2.0
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/7/10 0008 11:44# @Author : Anthony.Waa# @ ...
RoIPooling与RoIAlign的区别
一.RoIPooling与RoIAlign 1.1.RoIPooling 通过对Faster RCNN的学习我妈了解的RolPooling可以使生成的候选框region proposal映射产生固定大 ...
java函数式编程之lambda表达式
作为比较老牌的面向对象的编程语言java,在对函数式编程的支持上一直不温不火. 认为面向对象式编程就应该纯粹的面向对象,于是经常看到这样的写法:如果你想写一个方法,那么就必须把它放到一个类里面,然后n ...
RabbitMQ学习之队列监控
对于RabbitMQ的监控,除了服务器基本信息(硬盘.CPU.内存.IO等)以及MQ的进程和端口,我们也可以通过请求url访问管理API监控其集群和队列的情况.在Javaapi 3.6.0以后,cha ...
sql 查询多列小于某值
select COUNT(*) from ( select ID,H1 AS Value from Table_1 union all select ID,H2 from Table_1 union ...
CSS text-transform 属性控制控制文本的大小写
值描述 none 默认.定义带有小写字母和大写字母的标准的文本. capitalize 文本中的每个单词以大写字母开头. uppercase 定义仅有大写字母. lowercase 定义无大写字母, ...

Apache Pig的前世今生

Apache Pig的前世今生的更多相关文章

随机推荐

热门专题