PIG之 Hadoop 2.7.4 + pig-0.17.0 安装

首先: 参考 http://blog.csdn.net/zhang123456456/article/details/77621487 搭建好hadoop集群。然后，在master节点安装pig。

我们用MapReduce进行数据分析。当业务比较复杂的时候，使用MapReduce将会是一个很复杂的事情，比如你需要对数据进行很多预处理或转换，以便能够适应MapReduce的处理模式,另一方面，编写MapReduce程序，发布及运行作业都将是一个比较耗时的事情。
Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身，而不是纠结于数据的格式转换以及MapReduce程序的编写。本质是上来说，当你使用Pig进行处理时，Pig本身会在后台生成一系列的MapReduce操作来执行任务，但是这个过程对用户来说是透明的。
Pig的安装
Pig作为客户端程序运行，即使你准备在Hadoop集群上使用Pig，你也不需要在集群上做任何安装。Pig从本地提交作业，并和Hadoop进行交互。
1）下载Pig
前往http://mirror.bit.edu.cn/apache/pig/ 下载合适的版本，比如 pig-0.17.0.tar.gz
2）解压文件到合适的目录
[root@hadp-node1 hadoop]# tar -zxvf pig-0.17.0.tar.gz -C /usr/local/hadoop/
3）设置环境变量
export PIG_HOME=/usr/local/hadoop/pig-0.17.0
export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop/ #显式设置HADOOP_HOME变量，确保库和你实际使用的HADOOP版本兼容

export PATH=$PATH:$PIG_HOME/bin
如果没有设置JAVA环境变量，此时还需要设置JAVA_HOME，比如：
export JAVA_HOME=/usr/local/jdk1.7.0_51
说明：
PIG_CLASSPATH变量是PIG配置MapReduce模式，让Pig软件找到Hadoop集群，这里是告诉pig软件hadoop的配置文件在哪里，通过一系列配置文件core_site.xml hdfs-site.xml mapred-site.xml 可以找到关键参数NameNode 和 JobTracker 的位置以及端口信息，有了这些信息就可以对整个集群进行控制了。

4）验证
执行以下命令，查看Pig是否可用：如图，可用
pig –help

PIG之 Hadoop 2.7.4 + pig-0.17.0 安装的更多相关文章

Could not find a version that satisfies the requirement numpy>=1.7.0 (from pan das==0.17.0) (from versions: ) No matching distribution found for numpy>=1.7.0 (from pandas==0.17.0)
今天晚上一直在安装pandas,天杀的,真的是太难了.后来发现提示: Could not find a version that satisfies the requirement numpy> ...
mysql-installer-community-8.0.17.0.msi安装教程
1.官网 https://dev.mysql.com/downloads/file/?id=488055 我选择自定义安装注意这里是可以设置路径的,否则是默认地址然后一直下一步就好也是一路下一步 ...
Druid 0.17 入门（2）—— 安装与部署
在Druid快速入门其实已经简单的介绍过最简化配置的单节点部署,本文我们将详细描述Druid的多种部署方式,对于测试开发环境可以选用轻量的单机部署方式,而生产环境我们最好选用集群部署的方式,确保系统的 ...
[ReferenceError: __insane_exports is not defined] [monaco-editor@0.18.0] [vue] [typescript]
npm install monaco-editor@ 安装上面的命令,安装0.17.0版本.
window 下如何恢复被删除的mysql root账户及密码（mysql 8.0.17）
不久前自学完完sql,下了mysql8.0.17,安装配置好后探索着,想着用root账户登上去能不能删除root账户呢,然后就想给自己一巴掌,,, 如何快速恢复root: 1.关闭mysql服务:wi ...
重大更新！Druid 0.18.0 发布—Join登场，支持Java11
Apache Druid本质就是一个分布式支持实时数据分析的数据存储系统. 能够快速的实现查询与数据分析,高可用,高扩展能力. 距离上一次更新刚过了二十多天,距离0.17版本刚过了三个多月,Druid ...
Pig安装及简单使用(pig版本0.13.0,Hadoop版本2.5.0)
原文地址:http://www.linuxidc.com/Linux/2014-03/99055.htm 我们用MapReduce进行数据分析.当业务比较复杂的时候,使用MapReduce将会是一个很 ...
Centos搭建mysql/Hadoop/Hive/Hbase/Sqoop/Pig
目录: 准备工作 Centos安装 mysql Centos安装Hadoop Centos安装hive JDBC远程连接Hive Hbase和hive整合 Centos安装Hbase 准备工作: 配置 ...
Hadoop学习笔记—16.Pig框架学习
一.关于Pig:别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换 ...

随机推荐

spring 监听器　IntrospectorCleanupListener
org.springframework.web.util.IntrospectorCleanupListener监听器主要负责处理由JavaBean Introspector使用而引起的缓冲泄露, ...
pyculiarity 时间序列（异常流量）异常检测初探——感觉还可以，和Facebook的fbprophet本质上一样
demo: from pyculiarity import detect_ts import matplotlib.pyplot as plt import pandas as pd import m ...
bzoj3065
题解: 替罪羊树 (讲道理昨天讲课我一点都听不懂) alpha取到0.75比较好(当然啦可能其他的更好) 每当不满足条件的时候就重构代码: #include<bits/stdc++.h> ...
Oracle 11g新特性 Interval Partition
分区(Partition)一直是Oracle数据库引以为傲的一项技术,正是分区的存在让Oracle高效的处理海量数据成为可能,在Oracle 11g中,分区技术在易用性和可扩展性上再次得到了增强.在1 ...
java 需要看的书籍
参考链接:http://www.jianshu.com/p/454fc1e6cbe2 最近要看的有:Effective java 深入理解java 虚拟机 java 并发编程实战 (设计模式的书籍 ...
css控制编辑器内容自动换行
在编辑器或者文本框中按住数字或字母不放当字符很长时,就会撑破页面, 可以用一下方法控制字符自动换行 style="word-break:break-all;"
L1-021 重要的话说三遍
这道超级简单的题目没有任何输入. 你只需要把这句很重要的话 —— “I'm gonna WIN!”——连续输出三遍就可以了. 注意每遍占一行,除了每行的回车不能有任何多余字符. 输入样例: 无输出样 ...
Swift Tips笔记
“??”操作符可以判断输入并在当左侧的值是非 nil 的 Optional 值时返回其 value,当左侧是 nil 时返回右侧的值. 例: var level: Int? var startLeve ...
开源项目ScriptGate，Delphi与JavaScript相互调用的神器
ScriptGate是一个实现TWebBrowser上的JavaScript和Delphi代码相互调用的库,具体在这里:https://bitbucket.org/freeonterminate/sc ...
【转载】Java枚举类型的使用
枚举类型概念 package com.lxq.enumm; public class EnumDemoOne { private enum InnerEnum { RED, GREEN, YELLOW ...

PIG之 Hadoop 2.7.4 + pig-0.17.0 安装

PIG之 Hadoop 2.7.4 + pig-0.17.0 安装的更多相关文章

随机推荐

热门专题