Pig Run on Hadoop, V1.0

——安装hadoop参考这篇blog：

http://www.cnblogs.com/lanxuezaipiao/p/3525554.html?__=1a36

后面产生的问题，slave和master的version number不一样，也要同时改成一样

——从数据库里面拿数据，因为没有找到PigStorage以多种分隔符分隔的方法，只好先从数据库里用sql先筛选好。

mysql -u * -p*

show databases;

use gwr;

show tables;

select * from AccountStats into outfile '/tmp/test.csv';

select * from AccountStats where StatsType like "EON_SH.heatinghours" into outfile '/tmp/heatinghours.csv' fields terminated by ',';
select * from AccountStats where StatsType like "EON_SH.hotwaterhours" into outfile '/tmp/hotwaterhours.csv' fields terminated by ',';

命令整合：

mysql -u greenwave -pgreen4irvine gwr -e 'select * from AccountStats';

ssh -i ~/.ssh/eon-dev.rsa root@* "mysql -u greenwave -pgreen4irvine gwr --skip-column-names -e 'select * from AccountStats where StatsType like \"EON_SH.heatinghours\"; ' " >> /home/hduser/Code/Pig/hadoop/data.csv // 保存远程sql产生的文件到本地，不要表头

——把产生的csv移动到本地的命令

ssh -i ~/.ssh/eon-dev.rsa root@*
scp -i ~/.ssh/eon-dev.rsa root@*:/tmp/test.csv .

——把筛选好的csv 文件放到hadoop的hdfs系统中。（hdfs系统和操作系统类似，只不过是一个虚拟系统）

hdfs系统文件操作命令如下：

http://blog.csdn.net/bigdatahappy/article/details/10068881

http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html

http://www.cnblogs.com/gpcuster/archive/2010/06/04/1751538.html

在本次工作中，命令如下：

hadoop dfs -mkdir data

在hdfs上的/user/hduser下新建data文件夹，储存data

hadoop dfs -copyFromLocal /home/hduser/Code/Pig/hadoop/heatinghours.csv /data/heatinghours.csv

注意，本地文件必须写全路径名，hdfs的路径相当于root是在/user/hduser/这个虚拟路径下的。

从hdfs系统取出data

hadoop fs -get /user/hduser/out/part-r-00000 /home/hduser/Code/Pig/hadoop/results.csv

解决pid的问题：

http://blog.sina.com.cn/s/blog_6d932f2a0101fsxn.html

解决hadoop的NameNode启动异常--java.io.IOException: could only be replicated to 0

如果重启电脑之后再启动hadoop，namenode没起来。删除slave和master下的tmp，再建tmp，再在master下执行hadoop namenode -format

Pig Run on Hadoop, V1.0的更多相关文章

Python WSGI v1.0 中文版（转）
add by zhj: WSGI全称Web Server Gateway Interface,即Web网关接口.其实它并不是OSI七层协议中的协议,它就是一个接口而已,即函数,而WSGI规定了该接口的 ...
Windows环境下Android Studio v1.0安装教程
Windows环境下Android Studio v1.0安装教程准备工具 JDK安装包. 要求:JDK 7以及以上版本. Android Studio安装文件. Windows: exe(包含SD ...
Hadoop 1.0 和 2.0 中的数据处理框架 - MapReduce
1. MapReduce - 映射.化简编程模型 1.1 MapReduce 的概念 1.1.1 map 和 reduce 1.1.2 shufftle 和排序 MapReduce 保证每个 red ...
Hadoop 2.0中单点故障解决方案总结
Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题, ...
The P4 Language Specification v1.0.2 Header and Fields
前言本文参考P4.org网站给出的<The P4 Language Specification v1.0.2>的第二部分首部及字段,仅供学习:). 欢迎交流! Header and Fi ...
【转】Windows环境下Android Studio v1.0安装教程
原文网址:http://ask.android-studio.org/?/article/9 http://android-studio.org/index.php/docs/experience/1 ...
hadoop 2.0 详细配置教程(转载)
转载: http://www.cnblogs.com/scotoma/archive/2012/09/18/2689902.html 作者:杨鑫奇 PS:文章有部分参考资料来自网上,并经过实践后写出, ...
_00024 尼娜抹微笑伊拉克_云计算ClouderaManager以及CHD5.1.0群集部署安装文档V1.0
笔者博文:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 博文标题:_000 ...
ubuntu 14.04 hadoop eclipse 0配置基本环境
动人的hadoop第二天.构造hadoop该环境还花了两天时间,在这里写自己配置的过程,我希望能帮助! 我将文中用到的全部资源都分享到了这里,点开就能下载,不须要一个个的找啦! 当中有<Ha ...

随机推荐

Android开发环境的安装 Eclipse
Android开发环境的安装 1 IDE Android可以使用开发的IDE有Eclipse 或者 Android Studio.Android Studio还处于v 0.1.x版本,是early a ...
Spring 异常 —— cvc-elt.1: Cannot find the declaration of element 'beans'
有个使用 Spring 的项目,运行时报错: org.springframework.beans.factory.xml.XmlBeanDefinitionStoreException: Line 5 ...
[原]poj2243-Knight Moves-水bfs
#include<iostream> #include<cstdio> #include<cstring> #include<queue> using ...
python下载图片
import re import urllib.request def getHtml(url): page = urllib.request.urlopen(url) html = page. ...
R语言算术运算和逻辑运算
Arithmetic Operators Operator Description + addition - subtraction * multiplication / division ^ or ...
asp.net页面过滤所有换行符和多余空格
不知道大家注意到了没有,Google和Baidu网页的HTML源代码是混合在一起的.HTML代码混合在一起,出发点是为了减小网页体积,从而加快网页加载速度. 写个函数把网页HTML源代码的换行符和空格 ...
z-index 用法
现在来说说关于z-index的用法,刚刚在写看页面的时候遇见这样的CSS代码,z-index : 2; 当时还不知道是干嘛用的,也不知道有什么作用,上网查了资料才知道. 几个例子吧,当你在需要把页面中 ...
number-of-boomerangs
https://leetcode.com/problems/number-of-boomerangs/ package com.company; import java.util.*; class S ...
Qt Assistant介绍
简介 Qt Assistant也就是我们常说的Qt助手,是一款用于呈现在线文档的工具. 简介一分钟学会使用 Qt参考文档 Qt Assistant详解命令行选项工具窗口文档窗口工具栏菜单 ...
LA 4794 Sharing Chocolate
大白书中的题感觉一般都比较难,能理解书上代码就已经很不错了按照经验,一般数据较小的题目,都有可能是用状态压缩来解决的题意:问一个面积为x×y的巧克力,能否切若干刀,将其切成n块面积为A1,A2,, ...

Pig Run on Hadoop, V1.0

Pig Run on Hadoop, V1.0的更多相关文章

随机推荐

热门专题