近期,散仙用了几周的Pig来处理分析我们站点搜索的日志数据,感觉用起来非常不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能非常少有人知道Pig是干啥的。包含一些是搞编程的,但不是搞大数据的。还包含一些既不是搞编程的。也不是搞大数据的。而是从事其它行业的朋友。所以非常有可能望文生义。一看标题,就乐了,心里就開始默默的翻译了===》
Apache 猪的笔记,看起来Apache的猪,比較厉害啊,都能写笔记了。 



开个玩笑,以下进入正题,散仙,尽量写的通俗易懂。让大家看了之后都可以理解这头Pig究竟是干什么的。 



Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护。Pig是一个基于 Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口。这一点和FaceBook开源的Hive(一个以SQL方式,操作hadoop的一个开源框架)一样简洁,清晰,易上手! 



那么雅虎公司主要使用Pig来干什么呢? 



1)吸收和分析用户的行为日志数据(点击流分析、搜索内容分析等),改进匹配和排名算法。以提高检索和广告业务的质量。

2)构建和更新search index。

对于web-crawler抓取了的内容是一个流数据的形式,这包含去冗余、链接分析、内容分类、基于点击次数的受欢迎程度计算(PageRank)、最后建立倒排表。

3)处理半结构化数据订阅(data seeds)服务。包含:deduplcaitin(去冗余)。geographic location resolution,以及 named entity recognition. 



使用Pig来操作hadoop处理海量数据,是非常easy的。假设没有Pig。我们就得手写MapReduce代码。这但是一件非常繁琐的事。由于MapReduce的任务职责非常明白,清洗数据得一个job,处理得一个job,过滤得一个job。统计得一个job,排序得一个job,编写DAG(带先后顺序依赖的)作业非常不方便。这还能够接受,但是每次仅仅要修改非常小的一个地方,就得又一次编译整个job。然后打成jar提交到Hadoop集群上执行,是非常繁琐的,调试还非常困难,所以。在如今的大互联网公司或者是电商公司里,非常少有纯写MapReduce来处理各种任务的,基本上都会使用一些工具或开源框架来操作。 





随着,数据海啸的来临,传统的DB(Oracle、DB2)已经不能满足海量数据处理的需求。MapReduce逐渐成为了数据处理的事实标准,被应用到各行各业中。所以,我们不再期望全部的客户都能高速开发应用相关代码。仅仅能把客户的工作变得简单,就像使用SQL语言,经过简单培训就能够“云”上操作。

Pig就是为了屏蔽MapReduce开发的繁琐细节,为用户提供Pig Latin这样近SQL语言处理能力,让用户能够更方便地处理海量数据。Pig将SQL语句翻译成MR的作业的集合,并通过数据流的方式将其组合起来。 



Pig的一个简单处理流程,例如以下所看到的: 



 

运行引擎例如以下所看到的: 

 



在Pig里面,每一步操作,都是一个数据流,很easy理解,你想要什么。它就能得到什么,即使不能得到,我们也能够通过轻松扩展UDF来实现,比SQL更easy理解,每一步要做什么,很easy上手和学习,在大数据时代,了解和使用Pig来分析海量数据是很easy的。 



最后告诉大家一个好消息。在最新的Pig(0.14)发行版里,有两个重要的特性: 

(1)支持Pig执行在Tez上 

(2)支持Orc格式的存储

Apache Pig的前世今生的更多相关文章

  1. 玩转大数据系列之Apache Pig高级技能之函数编程(六)

    原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...

  2. Apache Pig处理数据示例

    Apache Pig是一个高级过程语言,可以调用MapReduce查询大规模的半结构化数据集. 样例执行的环境为cloudera的单节点虚拟机 读取结构数据中的指定列 在hdfs上放置一个文件 [cl ...

  3. Apache Pig中文教程集合

    Apache Pig中文教程集合: http://www.codelast.com/?p=4550#more-4550

  4. 玩转大数据系列之Apache Pig如何与Apache Solr集成(二)

    散仙,在上篇文章中介绍了,如何使用Apache Pig与Lucene集成,还不知道的道友们,可以先看下上篇,熟悉下具体的流程. 在与Lucene集成过程中,我们发现最终还要把生成的Lucene索引,拷 ...

  5. Apache Pig入门学习文档(一)

    1,Pig的安装    (一)软件要求    (二)下载Pig      (三)编译Pig 2,运行Pig    (一)Pig的所有执行模式    (二)pig的交互式模式    (三)使用pig脚本 ...

  6. 如何给Apache Pig自定义UDF函数?

    近日由于工作所需,需要使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天 ...

  7. Apache Pig和Solr问题笔记(一)

    记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下: (1)问题一: 如何Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载 ...

  8. 玩转大数据之Apache Pig如何与Apache Lucene集成

     在文章开始之前,我们还是简单来回顾下Pig的的前尘往事: 1,Pig是什么? Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组 ...

  9. Apache Pig学习笔记(二)

     主要整理了一下,pig里面的一些关键词的含义和用法,pig虽然是一种以数据流处理为核心的框架,但数据库的大部分关键词和操作,在pig里面基本上都能找到对应的函数,非常灵活与简洁,春节前的最后一篇文章 ...

随机推荐

  1. TCP心跳包

    所谓的心跳包就是客户端定时放送简单的信息给服务器端,告诉它我还在而已.代码就是每 隔几分钟发送一个固定信息给服务器端,服务器端回复一个固定信息.如果服务器端几分钟后没有收到客户端信息则视客户端断开.比 ...

  2. WPF中ListBox ListView数据翻页浏览笔记(强调:是数据翻页,非翻页动画)

    ListBox和ListView在应用中,常常有需求关于每页显示固定数量的数据,然后通过Timer自动或者手动翻页操作,本文介绍到的就是该动作的实现. 一.重点 对于ListBox和ListView来 ...

  3. VM-安装MAC系统

    搜了下论坛没有这个教程,继续搬运一波,这次教的是用VM15安装Mac OS10.14懒人版VMware安装Windows和Linux比较类似,相对于今天要安装的MAC OS来说过程也比较简单.官方原版 ...

  4. html/css常用合集

    1. 消除inline-block元素间的换行间隙问题: {font-size:0;} 兼容IE6/7浏览器的方法:letter-spacing属性.   2.让两个inline-block的div顶 ...

  5. 几道leetcode不会做的题目

    1.set没有back()函数,今天想到用这个,才发现没有. 2. tuple的initialize_list construct好像不能使用,其实之前没使用过tuple,都是pair,复杂一点的自己 ...

  6. markdown 计算器

    计算器 分四种运算(加减乘除).括号.去除最后括号.验证等式是否计算完成 bracket = re.compile(r'\([^()]+\)') # 找括号 multiplys = re.compil ...

  7. WPF 标题栏 右键窗口标题添加关于对话框

    /// <summary> /// wpf标题栏 右键菜单 中添加新项 /// </summary> public partial class MainWindow : Win ...

  8. 读《Android电视机(机顶盒)初次开发的一些经验分享》后的笔记

    原文: http://blog.csdn.net/tanghongchang123/article/details/52982818 一.基本命令: 1.adb connect [ip] 2. adb ...

  9. Oracle"TNS监听程序找不到符合协议堆栈要求的可用处理程序"解决方案

    问题描述:在使用ETL工具通过odbc方式连接Oracle进行数据抽取的过程中,Oracle 监听日志报错如下: 根本原因就是Oracle的process和session已经达到了甚至超过了最大值,解 ...

  10. 了解权限控制框架shiro 之实际应用.

    Apache Shiro 1.权限控制分为 a.粗粒度 URL 级别权限控制     b.细粒度方法级别权限控制 2.使用shiro进行权限控制主要有四种主要方式 : a. 在程序中 通过 Subje ...