.PIG File】的更多相关文章

.PIG File File extension: PIG File type: Texture File The PIG file type is primarily associated with 'Descent'. The .PIG file can also store sound effects (no music) and model data. CCSprite* confirmBg=CCSprite::createWithSpriteFrameName("sell_confir…
grunt> ls 2014-03-30 19:58:31,344 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2997: Encountered IOException. File or directory null does not exist. Details at logfile: /usr/local/hadoop/pig_1396180251009.log 解决: 运行grunt>ls / 要加根目录 版权声明:本文为…
我文章提到,加载一个文件的部分列是可行.两列,你只读一列,没问题. 但是,两个文件,f1和f2,f1有42列,f2有43列,同时加载到一个流对象,如何? 答:成功加载.但是无结构(schema unknown),discribe后看到:Schema for origin_cleaned_data unknown. 这种情况类似union,合并两个不同列的对象,会生成一个未知模式对象. 背景:因为老日志42列,新日志多加一列在第20列,因为20列后面不能同名,又要总体日志的用户点击数.所以一起加载…
Hive集成HBase 配置 将hive的lib/中的HBase.jar包用实际安装的Hbase的jar包替换掉 cd /opt/hive/lib/ ls hbase-0.94.2*  rm -rf hbase-0.92* cp /opt/hbase/hbase-0.94.2*  将Hive的lib/中的zookeeper.jar包用HBase中lib/中的替换掉 步骤同上   在hive-site.xml中添加: <property>         <name>hive.aux…
前两天使用pig做ETL,粗浅的看了一下,没有系统地学习,感觉pig还是值得学习的,故又重新看programming pig. 以下是看的第一章的笔记: What is pig? Pig provides an engine for executing data flows in parallel on Hadoop. It includes a language, Pig Latin, for expressing these data flows. Pig Latin includes op…
(一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blog.csdn.net/ruby97/article/details/7423088 http://blog.csdn.net/savechina/article/details/5656937 2.hadoop 伪分布式安装: http://www.thegeekstuff.com/2012/02/…
1. pig简介 2. 安装pig 3. 实战pig 4. 深入pig 5. 参考资料及代码下载 <1>. Pig简介  pig是hadoop项目的一个拓展项目, 用以简化hadoop编程(简化的程度超乎想象啊),并且提供一个更高层次抽象的数据处理能力,同时能够保持hadoop的简单和可靠性. <2>. 安装pig  2.1 下载pig:[点击下载]pig安装包 2.2 解压下载完成的pig安装包: xuqiang@ubuntu:~/hadoop/src/pig$ tar zxvf…
概述: Pig的安装很简单,注意一下几点: 1.设置系统环境变量: export PIG_HOME=.../pig-x.y.z export PATH=$PATH:$PIG_HOME/bin 设置完成后使用pig -help进行验证一下. 2.两种mode: local mode:访问本地文件系统,进入shell时使用命令:pig -x local MapReduce mode:pig将查询翻译为MapReduce作业,然后在hadoop集群上执行.此时,进入shell时的命令为:pig -x…
目录: 准备工作 Centos安装 mysql Centos安装Hadoop Centos安装hive JDBC远程连接Hive Hbase和hive整合 Centos安装Hbase 准备工作: 配置/etc/hosts 127.0.0.1 localhost localhost.localdomain 192.168.0.120 centos 集中修改/etc/profile export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_25/ export JRE_HOME=…
hive表的数据源有四种: hbase hdfs 本地 其他hive表 而hive表本身有两种: 内部表和外部表. 而hbase的数据在hive中,可以建立对应的外部表(参看hive和hbase整合) 内部表和外部表 区别:删除时,内部表删除hadoop上的数据:而外部表不删,其数据在外部存储,hive表只是查看数据的形式,看时从外部读入数据: 内部表:CREATETABLE tab(column1 STRING, column2 STRING); 外部表:用EXTERNAL 关键字,且必须在表…
注意:pig中用run或者exec 运行脚本.除了cd和ls,其他命令不用.在本代码中用rm和mv命令做例子,容易出错. 另外,pig只有在store或dump时候才会真正加载数据,否则,只是加载代码,不具体操作数据.所以在rm操作时必须注意该文件是否已经生成.如果rm的文件为生成,可以第三文件,进行mv改名操作 SET job.name 'test_age_reporth_istorical';-- 定义任务名字,在http://172.XX.XX.XX:50030/jobtracker.js…
1,%default file test.txt 中不要用引号,'' 和""都不行.'file'不会被识别 2,pig判断相等,用==,不是一个=.. 3,pig中只用单引号,不用双引号,如: target_data = FILTER analyze_data BY (wizad_ad_id=='199' OR wizad_ad_id=='200' OR wizad_ad_id=='201' OR wizad_ad_id=='202' OR wizad_ad_id=='203'); 和…
从实例出发 %default file test.txt A = load '$file' as (date, web, name, food); B = load '$file' as (date, web, name, food); C= cogroup A by $0, B by $1; describe C; illustrate C; dump C; cogroup命令中$0和$1,两个列的内容如果不一样,就是分别生成两个批次的group,先按A值分组,在按B对应的值分组.按A的值分组…
pig脚本 放在本地当前目录(键入pig命令时,所处的目录),然后用进入grunt,用run或者exec调用 1云运行: 键入pig进入grunt,用run命令运行当前目录脚本.(或者外部用pig -f file) 这是云运行模式,脚本中操作文件路径都在云上,pig脚本里面要用云路径. 但是pig脚本路径要在本地当前目录下(键入pig命令时,所处的目录) 2本地运行: 键入pig -x local,本地grunt模式(或者pig -x local file命令) 本地模式,操作文件在本地…
pig的两种运行模式,local模式,mapreduce模式 local模式下,pig只能访问本地一台:在mapreduce模式下,pig可以访问一个hadoop集群和hdfs的安装位置.这时,pig将自动对这个集群进行分配和回收.因为pig系统可以自动对mapreduce程序进行优化,所以当用户使用pig latin编程时,不必关系程序的运行效率,pig系统会自动对程序进行优化. pig的local模式以及mapreduce模式都是有三种运行模式:Grunt shell方式,脚本文件方式,嵌入…
Physical Plan生成过程 优化后的逻辑运行计划被LogToPhyTranslationVisitor处理,生成物理运行计划. 这是一个经典的Vistor设计模式应用场景. 当中,LogToPhyTranslationVisitor的visit()为入口方法,通过DependencyOrderWalker遍历处理逻辑运行计划中的每个LogicalRelationalOperator.DependencyOrderWalker依照依赖顺序遍历DAG中节点,保证当且仅当节点的全部前驱都被訪问…
转自:http://www.cnblogs.com/zzjhn/p/3855566.html (一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blog.csdn.net/ruby97/article/details/7423088 http://blog.csdn.net/savechina/article/details/5656937 2.hado…
pig自带的pigstorage不能指定行分隔符,所以自己重写了一个简单的UDF类,可以指定列和行的分隔符,之前研究过的简单的, http://blog.csdn.net/ruishenh/article/details/12048067 但是弊端大,所以这次重写一下. 操作步骤打好包上传到服务器, grunt> register  /home/pig/pig-0.11.0/udflib/myStorage.jar grunt> cat student; 1,xiaohouzi,25/2,xi…
最近几天,在研究怎么样把日志中的IP地址转化成具体省份城市. 希望写一个pig udf IP数据库采用的纯真IP数据库文件qqwry.dat,可以从http://www.cz88.net/下载. 这里关键点在于怎么样读取这个文件,浪费了二天时间,现在把代码记录下来供和我遇到相同问题的朋友参考. pig script register /usr/local/pig/mypigudf.jar; define ip2address my.pig.func.IP2Address('/user/anny/…
欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯! Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护.不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive.:) Pig是一种数据流语言,用来快速轻松的处理巨大的数据. Pig包含两个部分:Pig Interface,P…
这里使用的版本号是cdh发行的pig-0.12.0-cdh5.1.2 下载地址点这里 1.Pig简单介绍: Pig是yahoo捐献给apache的一个项目.它是SQL-like语言.是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,而且用户能够定义自己的功能.这是Yahoo开发的又一个克隆Google的项目:Sawzall. Pig是一个client应用程序,就算你要在Hadoop集群上执行Pig.也不须要在集群上装额外的东西 2.安…
Pig是一个大规模数据分析平台.Pig的基础结构层包括一个产生MapReduce程序的编译器.在编译器中,大规模并行执行依据存在.Pig的语言包括一个叫Pig Latin的文本语言,此语言有如下特性:1.易于编程.实现简单的和高度并行的数据分析任务非常容易.2.自动优化.任务编码的方式允许系统自动去优化执行过程,从而使用户能够专注于逻辑,而非效率3.可扩展性,用户可以轻松编写自己的函数用于特殊用途的处理. 1 安装 1.安装java,配置环境变量2.安装pig,配置环境变量ps:安装一款平台级软…
1. 前提是hadoop集群已经配置完成并且可以正常启动:以下是我的配置方案: 首先配置vim /etc/hosts 192.168.1.64 xuegod64 192.168.1.65 xuegod65 192.168.1.63 xuegod63 (将配置好的文件拷贝到其他两台机器,我是在xuegod64上配置的,使用scp /etc/hosts xuegod63:/etc/进行拷贝,进行该步骤前提是已经配置好SSH免密码登录:关于SSH免密码登录在此就不再详说了) 2.准备安装包如下图 [h…
首先,我想达到的目的是批量的处理一个目录下的的很多文档,这些文档保存了我要处理的数据,由于pig是初学..所以不知到该怎么批量的load,没有写过 自己的UDF,仅仅能一个一个文件的load,然后处理. 可是这个肯定不是我希望的处理方式,于是联想到是不是能够将pig脚本插入到shell中然后循环运行. 最后尝试成功了,当然我相信pig的udf中能够自定义这样的load的方式,可是假设出于高速实现的目的能够 先使用这样的方式. 以下是shell的代码部分: mkdir result_0925_D2…
grunt> cat t.txt kw1 2 kw3 1 kw2 4 kw1 5 kw2 2 cat test.pig A = LOAD '/user/input/t.txt' as (k:chararray,c:int); B = group A BY k; C = foreach B generate group,SUM(A.c); -- DUMP C; store C into 'test.output'; $ pig -e 'illustrate -script test.pig' 20…
摘要 本文通过跟代码的方式,分析从输入一批Pig-latin到输出物理运行计划(与launcher引擎有关,通常是MR运行计划.也能够是Spark RDD的运行算子)的总体流程. 不会详细涉及AST怎样解析.怎样使用了Anltr.逻辑运行计划怎样映射.逻辑运行计划怎样优化.MR运行计划怎样切分为MR Job,而是从输入一批Pig DSL到待运行的真正运行计划的关键变化步骤(方法和类). 运行计划完整解析 入口处书Main类的main函数 /** * The Main-Class for the…
下载Pig 能够执行在Hadoop 0.20.* http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz 也能够依据你的Hadoop版本号选择相应的版本号下载:http://hadoop.apache.org/pig/releases.html 我当前的Hadoop 版本号是 hadoop-0.20.2  tar -xvf pig-0.11.1.tar.gz 为了方便,能够把Pig的程序文件夹放到命令行路径里.比方: %…
一.Pig简介和Pig的安装配置 1.最早是由Yahoo开发,后来给了Apache 2.支持语言:PigLatin 类似SQL 3.翻译器 PigLatin ---> MapReduce(Spark) 4.安装和配置 (1)tar -zxvf pig-0.17.0.tar.gz -C ~/training/ (2)设置环境变量 vi ~/.bash_profile PIG_HOME=/root/training/pig-0.17.0 export PIG_HOME PATH=$PIG_HOME/…
1,Pig的安装    (一)软件要求    (二)下载Pig      (三)编译Pig 2,运行Pig    (一)Pig的所有执行模式    (二)pig的交互式模式    (三)使用pig脚本执行模式 3,Pig  Latin语句的声明     (一)加载数据     (二)使用和处理数据    (三)存储中间数据 (四)存储最终数据 (五)调试Pig Latin语言 4,Pig的属性值管理 5,Pig一些注意事项 1,Pig的安装 (一)软件安装 必须配置: (1)hadoop 下载地…
转自:https://wiki.apache.org/pig/EmbeddedPig Embedding Pig In Java Programs Sometimes you want more control than Pig scripts can give you. If so, you can embed Pig Latin in Java (just like SQL can be embedded in programs using JDBC). The following step…