pig cookbook学习

Overview

近期需要用pig做一些统计,由于没有系统学习,问题出现一些问题,且不容易调试,执行效率也不高。所以打算看一些官方文档,在此做些笔记。

pig性能提升

指定类型

如果在load文件时不指定类型,pig在计算时会指定为double类型,而在很多时候,数据本应是整形等,指定为double类型会增加广计算量。另外,指定类型也会使错误提早暴露出来。

  1. --Query 1
  2. A = load 'myfile' as (t, u, v);
  3. B = foreach A generate t + u;
  4. --Query 2
  5. A = load 'myfile' as (t: int, u: int, v);
  6. B = foreach A generate t + u;

第二个query会比第一个更有效率,有时候会增加一倍。

提早去除没用的field

pig不用自动判定某一个field没用,并且去掉它。例如,下面一段代码:

  1. A = load 'myfile' as (t, u, v);
  2. B = load 'myotherfile' as (x, y, z);
  3. C = join A by t, B by x;
  4. D = group C by u;
  5. E = foreach D generate group, COUNT($1);

v,y,z在代码的执行过程中并没有用到,而且在join之后,没有必要同时保留tx,将上述代码修改为下面的形式,将会很大程度上减小在map和reduce阶段所pig携带的数据量。

  1. A = load 'myfile' as (t, u, v);
  2. A1 = foreach A generate t, u;
  3. B = load 'myotherfile' as (x, y, z);
  4. B1 = foreach B generate x;
  5. C = join A1 by t, B1 by x;
  6. C1 = foreach C generate t, u;
  7. D = group C1 by u;
  8. E = foreach D generate group, COUNT($1);

根据数据的不同,这一策略会很大程序上节省时间。对上面的数据而言,可以减小50%的时间。

提早过滤不必要的行

大多数情况下,提早使用filter会减少通过管道传输的数据量。

  1. -- Query 1
  2. A = load 'myfile' as (t, u, v);
  3. B = load 'myotherfile' as (x, y, z);
  4. C = filter A by t == 1;
  5. D = join C by t, B by x;
  6. E = group D by u;
  7. F = foreach E generate group, COUNT($1);
  8. -- Query 2
  9. A = load 'myfile' as (t, u, v);
  10. B = load 'myotherfile' as (x, y, z);
  11. C = join A by t, B by x;
  12. D = group C by u;
  13. E = foreach D generate group, COUNT($1);
  14. F = filter E by C.t == 1;

上面代码中,query1明显比query2高效,因为query1减少了进入join之前的数据量。

但是如果过早的执行filter代价高,且过滤的数据量少的话,就不值得过早的执行filter语句。

减少操作管道

为了使脚本清晰易读,你可能会将任务分为多个操作来执行:

  1. A = load 'data' as (in: map[]);
  2. -- get key out of the map
  3. B = foreach A generate in#k1 as k1, in#k2 as k2;
  4. -- concatenate the keys
  5. C = foreach B generate CONCAT(k1, k2);
  6. .......

上述代码容易理解,但是将后面两步合并会使效率更高:

  1. A = load 'data' as (in: map[]);
  2. -- concatenate the keys from the map
  3. B = foreach A generate CONCAT(in#k1, in#k2);
  4. ....

同样的逻辑也适用于filter操作

使用PARALLEL语句

使用PARALLEL语句可以增加job的并行度:

  • PARALLEL设置了一个job的reduce数量,如果不设置,默认为1。
  • PARALLEL只负责设置job的reduce数量,map数量是由输入数据决定的,每一个输入块是生成一下map。
  • 如果不设置PARALLEL,将只会生成一个reduce任务。

可以在任务一个会产生reduce任务的操作中使用PARALLEL语句,包括:COGROUP, CROSS, DISTINCT, GROUP, JOIN (inner), JOIN (outer), and ORDER.

下面示例PARALLEL应用于GROUP语句:

  1. A = LOAD 'myfile' AS (t, u, v);
  2. B = GROUP A BY t PARALLEL 18;
  3. .....

还可以使用set default parallel来设置:

  1. SET DEFAULT_PARALLEL 20;
  2. A = LOAD myfile.txt USING PigStorage() AS (t, u, v);
  3. B = GROUP A BY t;
  4. C = FOREACH B GENERATE group, COUNT(A.t) as mycount;
  5. D = ORDER C BY mycount;
  6. STORE D INTO mysortedcount USING PigStorage();

参考

  1. Pig Cookbook: http://pig.apache.org/docs/r0.7.0/cookbook.html

pig cookbook学习的更多相关文章

  1. python cookbook学习1

    python cookbook学习笔记 第一章 文本(1) 1.1每次处理一个字符(即每次处理一个字符的方式处理字符串) print list('theString') #方法一,转列表 结果:['t ...

  2. pig语法学习 FOREACH GENERATE group AS

    深入浅出,转一个 转载必须注明出处:http://www.codelast.com/ 转载地址 本文可以让刚接触pig的人对一些基础概念有个初步的了解. 本文大概是互联网上第一篇公开发表的且涵盖大量实 ...

  3. python cookbook 学习系列(一) python中的装饰器

    简介 装饰器本质上是一个Python函数,它可以让其他函数在不需要做任何代码变动的前提下增加额外功能,装饰器的返回值也是一个函数对象.它经常用于有切面需求的场景,比如:插入日志.性能测试.事务处理.缓 ...

  4. Hadoop学习笔记—16.Pig框架学习

    一.关于Pig:别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换 ...

  5. Pig基础学习【持续更新中】

    *本文参考了Pig官方文档以及已有的一些博客,并加上了自己的一些知识性的理解.目前正在持续更新中.* Pig作为一种处理大规模数据的高级查询语言,底层是转换成MapReduce实现的,可以作为MapR ...

  6. cookbook学习第一弹

    1.1现在有一个包含N个元素的元组或者是序列,怎样将它里面的值解压后同时赋值给N个变量 代码: >>>p = (4,5) >>>x,y = p >>&g ...

  7. Apache Pig入门学习文档(一)

    1,Pig的安装    (一)软件要求    (二)下载Pig      (三)编译Pig 2,运行Pig    (一)Pig的所有执行模式    (二)pig的交互式模式    (三)使用pig脚本 ...

  8. cookbook学习第二弹

    1.5怎样实现一个按优先级排序的队列?并且在这个队列上面每次pop操作总是返回优先级最高的那个元素 带有双下划线的方法,会在需要被调用的位置自动被调用 带有单下划线的变量是私有变量 下面利用类heap ...

  9. python cookbook学习笔记 第一章 文本(1)

    1.1每次处理一个字符(即每次处理一个字符的方式处理字符串) print list('theString') #方法一,转列表 结果:['t', 'h', 'e', 'S', 't', 'r', 'i ...

随机推荐

  1. Tree Constructing CodeForces - 1003E(构造)

    题意: 就是让构造一个直径为d的树  每个结点的度数不能超过k 解析: 先构造出一条直径为d的树枝 然后去遍历这条树枝上的每个点  为每个点在不超过度数和直径的条件下添加子嗣即可 #include & ...

  2. 前端学习 -- Css -- 样式的继承

    像儿子可以继承父亲的遗产一样,在CSS中,祖先元素上的样式,也会被他的后代元素所继承, 利用继承,可以将一些基本的样式设置给祖先元素,这样所有的后代元素将会自动继承这些样式. 但是并不是所有的样式都会 ...

  3. 【模板】MST(Prim)

    代码如下 #include <bits/stdc++.h> using namespace std; const int maxv=2e5+10; const int maxe=5e5+1 ...

  4. Java基础-类加载机制与自定义类Java类加载器(ClassLoader)

    Java基础-类加载机制与自定义类Java类加载器(ClassLoader) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 关于类加载器的概念和分类我就不再废话了,因为我在之前的笔 ...

  5. Java基础-变量的定义以及作用域详解

    Java基础-变量的定义以及作用域详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.字面量 常量(字面量)表示不能改变的数值(程序中直接出现的值).字面量有时也称为直接量,包 ...

  6. Spring cloud 微服务架构 Eureka篇

    1 服务发现 ## 关于服务发现 在微服务架构中,服务发现(Service Discovery)是关键原则之一.手动配置每个客户端或某种形式的约定是很难做的,并且很脆弱.Spring Cloud提供了 ...

  7. Codeforces 923 D. Picking Strings

    http://codeforces.com/contest/923/problem/D 题意: A-->BC , B-->AC , C-->AB , AAA-->empty 问 ...

  8. Javascript Image Slider 插件注册机

    Javascript Image Slider 是个不错的轮播插件,兼容 IE 7.0+, Firefox 1.5+, Chrome 1.0+, Safari 3+, Opera 9.0+, Nets ...

  9. JavaScript 获取 flash 对象

    关于js获取flash对象,网上有非常多的例子,我也尝试了不少方法. 虽然都能用,但是没有我最想要的东西, 后来看了下百度的,虽然很规范,各种情况都考虑到了,但是代码量却不是不容乐观, 前前后后将近2 ...

  10. 【转】XMPP_3920_最靠谱的中文翻译文档

    CHENYILONG Blog XMPP_3920_最靠谱的中文翻译文档 Fullscreen © chenyilong. Powered by Postach.io Blog