主要整理了一下,pig里面的一些关键词的含义和用法,pig虽然是一种以数据流处理为核心的框架,但数据库的大部分关键词和操作,在pig里面基本上都能找到对应的函数,非常灵活与简洁,春节前的最后一篇文章了,祝大家春节快乐! 
1,保留关键字: 
-- A assert, and, any, all, arrange, as, asc, AVG 
-- B bag, BinStorage, by, bytearray, BIGINTEGER, BIGDECIMAL 
-- C cache, CASE, cat, cd, chararray, cogroup, CONCAT, copyFromLocal, copyToLocal, COUNT, cp, cross 
-- D datetime, %declare, %default, define, dense, desc, describe, DIFF, distinct, double, du, dump 
-- E e, E, eval, exec, explain 
-- F f, F, filter, flatten, float, foreach, full 
-- G generate, group 
-- H help 
-- I if, illustrate, import, inner, input, int, into, is 
-- J join 
-- K kill 
-- L l, L, left, limit, load, long, ls 
-- M map, matches, MAX, MIN, mkdir, mv 
-- N not, null 
-- O onschema, or, order, outer, output 
-- P parallel, pig, PigDump, PigStorage, pwd 
-- Q quit 
-- R register, returns, right, rm, rmf, rollup, run 
-- S sample, set, ship, SIZE, split, stderr, stdin, stdout, store, stream, SUM 
-- T TextLoader, TOKENIZE, through, tuple 
-- U union, using 
-- V, W, X, Y, Z Void 
2,大小写敏感,别名大小写敏感,关键字大小写都可以 例如,load,group,foreach与LOAD,GROUP,FOREACH是等价的 
3,别名定义(首位字符必须为字母,其他位置可以是字母,数字,下划线) 
4,集合类型 
Bags ,类似table,可以包含多个row 
Tuples,类似一行行row,可以有多个field 
Fields,具体的数据 
5,列名引用,在关系数据库中我们可以使用列名来定位到某一行数据的某个字段的值,在JDBC中,我们既可以通过列名引用,也可以通过索引下标引用,在pig里,也支持这两种引用,下标引用需要加上$0,$1这样的数字标识。 
6,数据类型 
(基本类型) 
Int:有符号32位整数 
Long:有符号64位整数 
Float:32位单精度 
Double:64位单精度 
Chararray:Java里面的字符串类型,必须是UTF-8编码 
Bytearray:blob字节类型 
Boolean:布尔类型 
Datetime:日期类型 
Biginteger:Java Bigingteger 
Bigdecimal:Java BigDecimal 
(集合类型) 
Tuple:一个有序的字段值集合,类似Java里面的List 
Bag:Tuple的集合,类似Java里面的Collection集合超级接口 
Map:Java里面的Map,K和V,直接使用#号分开,引用时需要加上#号 
7,运算符: 
(1) 比较运算符==,!=,<,>,>=,<= 
(2) 比较运算符matches,适合字符串,支持正则 
(3) 算术运算符+,-,*,/,%,?:,CASE 
(4) Null运算符is not null ,is null 
(5) 集合类型引用符号tuple(.),map(#) 
(6) 关系运算符cogroup,group,join 
(7) 函数count_star,sum,min,max,count,avg,concat,size 
8, 多数据源join时,别名区分,使用A::name,B::name 
9, fallten可以将一个集合类型,或嵌套的类型,给扁平化成一行,看下面例子 
B={(a,b,c),(b,b,c)} 
FLATTEN(B)之后 
a,b,c,b,b,c就成为一行数据了 
10,cogroup,多表分组使用 
11,cross,两个数据源链接,会产生笛卡尔集 
12,distinct,去重,与关系型数据库不同的是,不能对单个field去重,必须是一个row,如果你想对单filed去重,那么就需要先把这个filed,单独提取出来,然后在distinct 
13,filter,过滤,类似数据库的where条件,返回一个boolean值。 
14,foreach,迭代,抽取一列,或几列的数据, 
15,group,分组,类似数据库的group 
16,partition by,同等hadoop中Partition组件 
17,join,分内外连接,与关系型数据库类似,在hadoop中又分不同的连接方式:复制连接,合并连接,skewed连接等 
18,limit,限制结果集返回行数,与mysql中的limit关键字类似 
19,load,pig特有关键词,负责从一个指定的路径加载数据源,路径可以使用通配符与hadoop的路径通配符保持一致 
20,mapreduce,在pig中,以MR的方式执行一个jar包 
21,order by 与关系型数据库的order类似 
22,rank,给一个集合,生成序号,类似for循环时的索引自增 
23,sample,采样器,能从指定的数据集中随机抽取指定的记录数 
24,split,可以按条件拆分一个大的数据集,生成几个不同的小数据集 
25,store,pig里面的存储结果的函数,可以将一个集合以指定的存储方式,存储到指定的地方 
26,stream,提供了以流的方式可以在pig脚本中,与其他的编程语言交互,比如将pig处理的中间结果,传给python,perl,或者shell等等 
27,union,类似数据的union,合并两个结果集为一个结果集 
28,register,UDF中,使用此关键词注册我们的组件,可能是一个jar包,也可能是一个python文件 
29,define,给UDF的引用定义一个别名 
30,import,在一个pig脚本中,使用imprt关键词引入另外一个pig脚本

Apache Pig学习笔记(二)的更多相关文章

  1. Apache Ignite 学习笔记(二): Ignite Java Thin Client

    前一篇文章,我们介绍了如何安装部署Ignite集群,并且尝试了用REST和SQL客户端连接集群进行了缓存和数据库的操作.现在我们就来写点代码,用Ignite的Java thin client来连接集群 ...

  2. JDBC学习笔记二

    JDBC学习笔记二 4.execute()方法执行SQL语句 execute几乎可以执行任何SQL语句,当execute执行过SQL语句之后会返回一个布尔类型的值,代表是否返回了ResultSet对象 ...

  3. ZooKeeper学习笔记二:API基本使用

    Grey ZooKeeper学习笔记二:API基本使用 准备工作 搭建一个zk集群,参考ZooKeeper学习笔记一:集群搭建. 确保项目可以访问集群的每个节点 新建一个基于jdk1.8的maven项 ...

  4. WPF的Binding学习笔记(二)

    原文: http://www.cnblogs.com/pasoraku/archive/2012/10/25/2738428.htmlWPF的Binding学习笔记(二) 上次学了点点Binding的 ...

  5. AJax 学习笔记二(onreadystatechange的作用)

    AJax 学习笔记二(onreadystatechange的作用) 当发送一个请求后,客户端无法确定什么时候会完成这个请求,所以需要用事件机制来捕获请求的状态XMLHttpRequest对象提供了on ...

  6. [Firefly引擎][学习笔记二][已完结]卡牌游戏开发模型的设计

    源地址:http://bbs.9miao.com/thread-44603-1-1.html 在此补充一下Socket的验证机制:socket登陆验证.会采用session会话超时的机制做心跳接口验证 ...

  7. JMX学习笔记(二)-Notification

    Notification通知,也可理解为消息,有通知,必然有发送通知的广播,JMX这里采用了一种订阅的方式,类似于观察者模式,注册一个观察者到广播里,当有通知时,广播通过调用观察者,逐一通知. 这里写 ...

  8. java之jvm学习笔记二(类装载器的体系结构)

    java的class只在需要的时候才内转载入内存,并由java虚拟机的执行引擎来执行,而执行引擎从总的来说主要的执行方式分为四种, 第一种,一次性解释代码,也就是当字节码转载到内存后,每次需要都会重新 ...

  9. Java IO学习笔记二

    Java IO学习笔记二 流的概念 在程序中所有的数据都是以流的方式进行传输或保存的,程序需要数据的时候要使用输入流读取数据,而当程序需要将一些数据保存起来的时候,就要使用输出流完成. 程序中的输入输 ...

随机推荐

  1. vba取局域网电脑共享文件夹下的Excel文件

    Private Sub CommandButton1_Click()    Dim xlapp1 As Excel.Application    Dim xlbook1 As Excel.Workbo ...

  2. 【bug】使用element-ui遇到在IE浏览器中点击enter会回到登录页

    1.点击el-input框,会回到登录页(IE浏览器) 外层是el-table/el-form/el-input 添加可以解决 <el-form onSubmit="return fa ...

  3. dex2jar+jd-gui反编译apk的使用方法

    1.将要反编译的APK后缀名改为.rar或 .zip,并解压 2.得到其中的classes.dex文件(它就是java文件编译再通过dx工具打包而成的),将获取到的classes.dex放到之前解压出 ...

  4. 关于jquery.validate.js的用法

    // 手机号码验证 jQuery.validator.addMethod("isMobile", function(value, element) {   var length = ...

  5. leetcode-63-不同路径②

    题目描述: 第一次提交: class Solution: def uniquePathsWithObstacles(self, obstacleGrid) : m = len(obstacleGrid ...

  6. echarts折线区域图

    一.使用场景 当舒张压和收缩压超过或低于他们对应的范围时,折线应该给与不同颜色.两个指标对应的范围也要填充不同的颜色. 二.实现方案 主要使用了echarts中的visualMap,series.ma ...

  7. com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Data source rejected establishment of connection, message from server: "Too many connections"

    报错: com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Data source rejected estab ...

  8. error C2146: 语法错误: 缺少“;”(在标识符“CRC”的前面) ...\...\MyMethod.h

    错误原因:头文件的顺序错误,这种情况一般是因为dxsdk的头文件放在其他头文件前面了. 问题复现: 这里如果将#include <ReadDataThreadClass.h>放到最末尾就不 ...

  9. git撤销修改及版本回退

    场景1:当你改乱了工作区某个文件的内容,想直接丢弃工作区的修改时,用命令git checkout -- file. 场景2:当你不但改乱了工作区某个文件的内容,还添加到了暂存区时,想丢弃修改,分两步, ...

  10. C开发系列-数组

    C语言数组 数组:用来存储一组数据. 计算C语言的数组长度 int age1 = 12; int age2 = 15; int age3 = 10; int age4 = 13; int ages[] ...