hadoop 2.7.3本地环境运行官方wordcount-基于HDFS
接上篇《hadoop 2.7.3本地环境运行官方wordcount》。继续在本地模式下测试,本次使用hdfs.
2 本地模式使用fs计数wodcount
上面是直接使用的是linux的文件系统。现在使用hadoop fs。在本地模式下,hadoop fs其实也是使用的linux的fs。下面示例说明:
2.1 验证FS
cd /home/jungle/hadoop/hadoop-local
ls -l
total 116
drwxr-xr-x. 2 jungle jungle 4096 Jan 6 15:06 bin
drwxrwxr-x. 4 jungle jungle 31 Jan 6 16:53 dataLocal
drwxr-xr-x. 3 jungle jungle 19 Jan 6 14:56 etc
drwxr-xr-x. 2 jungle jungle 101 Jan 6 14:56 include
drwxr-xr-x. 3 jungle jungle 19 Jan 6 14:56 lib
drwxr-xr-x. 2 jungle jungle 4096 Jan 6 14:56 libexec
-rw-r--r--. 1 jungle jungle 84854 Jan 6 14:56 LICENSE.txt
-rw-r--r--. 1 jungle jungle 14978 Jan 6 14:56 NOTICE.txt
-rw-r--r--. 1 jungle jungle 1366 Jan 6 14:56 README.txt
drwxr-xr-x. 2 jungle jungle 4096 Jan 6 14:56 sbin
drwxr-xr-x. 4 jungle jungle 29 Jan 6 14:56 share
hadoop fs -ls /
Found 20 items
-rw-r--r-- 1 root root 0 2016-12-30 12:26 /1
dr-xr-xr-x - root root 45056 2016-12-30 13:06 /bin
dr-xr-xr-x - root root 4096 2016-12-29 20:09 /boot
drwxr-xr-x - root root 3120 2017-01-06 18:31 /dev
drwxr-xr-x - root root 8192 2017-01-06 18:32 /etc
drwxr-xr-x - root root 19 2016-11-05 23:38 /home
dr-xr-xr-x - root root 4096 2016-12-30 12:29 /lib
dr-xr-xr-x - root root 81920 2016-12-30 13:04 /lib64
drwxr-xr-x - root root 6 2016-11-05 23:38 /media
# ...
# 等同 ls -l /home/jungle/hadoop/hadoop-local
hadoop fs -ls /home/jungle/hadoop/hadoop-local
Found 11 items
-rw-r--r-- 1 jungle jungle 84854 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/LICENSE.txt
-rw-r--r-- 1 jungle jungle 14978 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/NOTICE.txt
-rw-r--r-- 1 jungle jungle 1366 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/README.txt
drwxr-xr-x - jungle jungle 4096 2017-01-06 15:06 /home/jungle/hadoop/hadoop-local/bin
drwxrwxr-x - jungle jungle 31 2017-01-06 16:53 /home/jungle/hadoop/hadoop-local/dataLocal
drwxr-xr-x - jungle jungle 19 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/etc
drwxr-xr-x - jungle jungle 101 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/include
drwxr-xr-x - jungle jungle 19 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/lib
drwxr-xr-x - jungle jungle 4096 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/libexec
drwxr-xr-x - jungle jungle 4096 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/sbin
drwxr-xr-x - jungle jungle 29 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/share
从上面可以看出。hadoop fs -ls /home/jungle/hadoop/hadoop-local和linux的命令ls /home/jungle/hadoop/hadoop-local是等效的。
2.2 准备数据
下面基于上次实例的原始数据,将其copy到hdfs上。
hadoop fs -mkdir -p ./dataHdfs/input
hadoop fs -ls .
Found 12 items
drwxrwxr-x - jungle jungle 18 2017-01-06 18:44 dataHdfs
drwxrwxr-x - jungle jungle 31 2017-01-06 16:53 dataLocal
# ...
hadoop fs -ls ./dataHdfs/
Found 1 items
drwxrwxr-x - jungle jungle 6 2017-01-06 18:44 dataHdfs/input
hadoop fs -put
-put: Not enough arguments: expected 1 but got 0
Usage: hadoop fs [generic options] -put [-f] [-p] [-l] <localsrc> ... <dst>
# 将本地文件,put到hdfs上,实际效果等同于linux下的copy
hadoop fs -put dataLocal/input/ ./dataHdfs/
ls -l dataHdfs/
total 0
drwxrwxr-x. 2 jungle jungle 80 Jan 6 18:51 input
ls -l dataHdfs/input/
total 8
-rw-r--r--. 1 jungle jungle 37 Jan 6 18:51 file1.txt
-rw-r--r--. 1 jungle jungle 70 Jan 6 18:51 file2.txt
hadoop fs -ls ./dataHdfs/
Found 1 items
drwxrwxr-x - jungle jungle 80 2017-01-06 18:51 dataHdfs/input
hadoop fs -ls ./dataHdfs/input/
Found 2 items
-rw-r--r-- 1 jungle jungle 37 2017-01-06 18:51 dataHdfs/input/file1.txt
-rw-r--r-- 1 jungle jungle 70 2017-01-06 18:51 dataHdfs/input/file2.txt
2.3 执行wordcount
hadoop jar /home/jungle/hadoop/hadoop-local/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount dataHdfs/input/ dataHdfs/output
# 这里的input, output目录,即可以理解成hdfs里的目录,也可以理解成linux里的目录。
cat dataHdfs/output/part-r-00000
I 1
am 1
bye 2
great 1
hadoop. 3
hello 3
is 1
jungle. 2
software 1
the 1
world. 2
md5sum dataLocal/outout/part-r-00000 dataHdfs/output/part-r-00000
68956fd01404e5fc79e8f84e148f19e8 dataLocal/outout/part-r-00000
68956fd01404e5fc79e8f84e148f19e8 dataHdfs/output/part-r-00000
可见与上篇中 dataLocal/下的结果是相同的。
hadoop 2.7.3本地环境运行官方wordcount-基于HDFS的更多相关文章
- hadoop 2.7.3本地环境运行官方wordcount
hadoop 2.7.3本地环境运行官方wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次先以独立模式(本地模式 ...
- hadoop 2.7.3伪分布式环境运行官方wordcount
hadoop 2.7.3伪分布式模式运行wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次以伪分布式模式来运行w ...
- phpstudy等php本地环境运行缓慢的问题解决方法
我们经常会使用些一键安装包部署本地服务器环境.比如phpstudy.但是会有不少人发现,wordpress等使用数据库的程序打开或者切换页面的速度明显低于静态站点.甚至需要好几秒.这个问题一直困扰了我 ...
- hadoop——配置eclipse下的map-reduce运行环境 1
1.通过修改实例模板程序来实现自己的map-reduce: 为了让示例程序run起来: 1)安装eclipse 2)安装map-reduce的eclipse插件 eclipse的map-reduce插 ...
- spark本地环境的搭建到运行第一个spark程序
搭建spark本地环境 搭建Java环境 (1)到官网下载JDK 官网链接:https://www.oracle.com/technetwork/java/javase/downloads/jdk8- ...
- Hadoop本地环境安装
一.服务器环境 本人用的是阿里云的ECS的入门机器,配置1核2G,1M带宽,搭了个Hadoop单机环境,供参考 Linux发行版本:Centos7 JDK:阿里云镜像市场中选择JDK8 二.安装步骤 ...
- Hadoop 系列文章(二) Hadoop配置部署启动HDFS及本地模式运行MapReduce
接着上一篇文章,继续我们 hadoop 的入门案例. 1. 修改 core-site.xml 文件 [bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoo ...
- Flink从入门到放弃(入门篇2)-本地环境搭建&构建第一个Flink应用
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
- Hadoop.2.x_伪分布环境搭建
一. 基本环境搭建 1. 设置主机名.静态IP/DNS.主机映射.windows主机映射(方便ssh访问与IP修改)等 设置主机名: vi /etc/sysconfig/network # 重启系统生 ...
随机推荐
- XSS
XSS的含义 XSS(Cross Site Scripting)即跨站脚本.跨站的主要内容是在脚本上. 跨站脚本 跨站脚本的跨,体现了浏览器的特性,可以跨域.所以也就给远程代码或者第三方域上的代码提供 ...
- 渗透测试工具BurpSuite做网站的安全测试(基础版)
渗透测试工具BurpSuite做网站的安全测试(基础版) 版权声明:本文为博主原创文章,未经博主允许不得转载. 学习网址: https://t0data.gitbooks.io/burpsuite/c ...
- Spring之旅
Java使得以模块化构建复杂应用系统成为可能,它为Applet而来,但为组件化而留. Spring是一个开源的框架,最早由Rod Johnson创建.Spring是为了解决企业级应用开发的复杂性而创建 ...
- EventBus实现activity跟fragment交互数据
最近老是听到技术群里面有人提出需求,activity跟fragment交互数据,或者从一个activity跳转到另外一个activity的fragment,所以我给大家介绍一个开源项目,EventBu ...
- 设计模式之行为类模式大PK
行为类模式大PK 行为类模式包括责任链模式.命令模式.解释器模式.迭代器模式.中介者模式.备忘录模式.观察者模式.状态模式.策略 ...
- bzoj1901--树状数组套主席树
树状数组套主席树模板题... 题目大意: 给定一个含有n个数的序列a[1],a[2],a[3]--a[n],程序必须回答这样的询问:对于给定的i,j,k,在a[i],a[i+1],a[i+2]--a[ ...
- 易用BPM时代,软件开发者缘何选择H3?
近年来,企业级软件开发市场暗流汹涌,呈现出多种态势.软件开发团队规模趋于小型化,工作方式趋于快捷化,超过半数的软件开发者在工作中会选择使用易用的软件开发工具.随着流程管理越来越受到企业的重视,流程开发 ...
- jira的插件开发流程实践
怎么开头呢,由于自己比较懒,博客一直不怎么弄,以后克己一点,多传点自己遇到的问题和经历上来,供自己以后记忆,也供需要的小伙伴少走点弯路吧 最近公司项目需要竞标一个运维项目,甲方给予了既定的几种比较常用 ...
- /etc/ppp/chap-secrets
# Secrets for authentication using CHAP # client server secret IP addresses abc l2tpd * client:VPN 用 ...
- 关于Hadoop用户体系的设想(胡思乱想)
关于Hadoop的用户体系设计设想 Hadoop并没有一个完整的用户体系,其权限控制的对象,主要是Linux的其它用户(即非安装Hadoop的用户),控制方式也和Linux的文件权限很像,目前权限控制 ...