接上篇《hadoop 2.7.3本地环境运行官方wordcount》。继续在本地模式下测试，本次使用hdfs.

2 本地模式使用fs计数wodcount

上面是直接使用的是linux的文件系统。现在使用hadoop fs。在本地模式下，hadoop fs其实也是使用的linux的fs。下面示例说明：

2.1 验证FS

cd /home/jungle/hadoop/hadoop-local

ls -l

total 116

drwxr-xr-x. 2 jungle jungle  4096 Jan  6 15:06 bin

drwxrwxr-x. 4 jungle jungle    31 Jan  6 16:53 dataLocal

drwxr-xr-x. 3 jungle jungle    19 Jan  6 14:56 etc

drwxr-xr-x. 2 jungle jungle   101 Jan  6 14:56 include

drwxr-xr-x. 3 jungle jungle    19 Jan  6 14:56 lib

drwxr-xr-x. 2 jungle jungle  4096 Jan  6 14:56 libexec

-rw-r--r--. 1 jungle jungle 84854 Jan  6 14:56 LICENSE.txt

-rw-r--r--. 1 jungle jungle 14978 Jan  6 14:56 NOTICE.txt

-rw-r--r--. 1 jungle jungle  1366 Jan  6 14:56 README.txt

drwxr-xr-x. 2 jungle jungle  4096 Jan  6 14:56 sbin

drwxr-xr-x. 4 jungle jungle    29 Jan  6 14:56 share

hadoop fs -ls /

Found 20 items

-rw-r--r--   1 root root          0 2016-12-30 12:26 /1

dr-xr-xr-x   - root root      45056 2016-12-30 13:06 /bin

dr-xr-xr-x   - root root       4096 2016-12-29 20:09 /boot

drwxr-xr-x   - root root       3120 2017-01-06 18:31 /dev

drwxr-xr-x   - root root       8192 2017-01-06 18:32 /etc

drwxr-xr-x   - root root         19 2016-11-05 23:38 /home

dr-xr-xr-x   - root root       4096 2016-12-30 12:29 /lib

dr-xr-xr-x   - root root      81920 2016-12-30 13:04 /lib64

drwxr-xr-x   - root root          6 2016-11-05 23:38 /media

# ...

# 等同 ls -l  /home/jungle/hadoop/hadoop-local

hadoop fs -ls /home/jungle/hadoop/hadoop-local

Found 11 items

-rw-r--r--   1 jungle jungle      84854 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/LICENSE.txt

-rw-r--r--   1 jungle jungle      14978 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/NOTICE.txt

-rw-r--r--   1 jungle jungle       1366 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/README.txt

drwxr-xr-x   - jungle jungle       4096 2017-01-06 15:06 /home/jungle/hadoop/hadoop-local/bin

drwxrwxr-x   - jungle jungle         31 2017-01-06 16:53 /home/jungle/hadoop/hadoop-local/dataLocal

drwxr-xr-x   - jungle jungle         19 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/etc

drwxr-xr-x   - jungle jungle        101 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/include

drwxr-xr-x   - jungle jungle         19 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/lib

drwxr-xr-x   - jungle jungle       4096 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/libexec

drwxr-xr-x   - jungle jungle       4096 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/sbin

drwxr-xr-x   - jungle jungle         29 2017-01-06 14:56 /home/jungle/hadoop/hadoop-local/share

从上面可以看出。hadoop fs -ls /home/jungle/hadoop/hadoop-local和linux的命令ls /home/jungle/hadoop/hadoop-local是等效的。

2.2 准备数据

下面基于上次实例的原始数据，将其copy到hdfs上。

hadoop fs -mkdir -p ./dataHdfs/input 

hadoop fs -ls .

Found 12 items

drwxrwxr-x   - jungle jungle         18 2017-01-06 18:44 dataHdfs

drwxrwxr-x   - jungle jungle         31 2017-01-06 16:53 dataLocal

# ...

hadoop fs -ls ./dataHdfs/

Found 1 items

drwxrwxr-x   - jungle jungle          6 2017-01-06 18:44 dataHdfs/input

hadoop fs -put

-put: Not enough arguments: expected 1 but got 0

Usage: hadoop fs [generic options] -put [-f] [-p] [-l] <localsrc> ... <dst>

# 将本地文件，put到hdfs上，实际效果等同于linux下的copy

hadoop fs -put dataLocal/input/ ./dataHdfs/

ls -l dataHdfs/

total 0

drwxrwxr-x. 2 jungle jungle 80 Jan  6 18:51 input

ls -l dataHdfs/input/

total 8

-rw-r--r--. 1 jungle jungle 37 Jan  6 18:51 file1.txt

-rw-r--r--. 1 jungle jungle 70 Jan  6 18:51 file2.txt

hadoop fs -ls  ./dataHdfs/

Found 1 items

drwxrwxr-x   - jungle jungle         80 2017-01-06 18:51 dataHdfs/input

hadoop fs -ls  ./dataHdfs/input/

Found 2 items

-rw-r--r--   1 jungle jungle         37 2017-01-06 18:51 dataHdfs/input/file1.txt

-rw-r--r--   1 jungle jungle         70 2017-01-06 18:51 dataHdfs/input/file2.txt

2.3 执行wordcount

hadoop jar /home/jungle/hadoop/hadoop-local/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount dataHdfs/input/ dataHdfs/output

# 这里的input, output目录，即可以理解成hdfs里的目录，也可以理解成linux里的目录。 

cat dataHdfs/output/part-r-00000

I	1

am	1

bye	2

great	1

hadoop.	3

hello	3

is	1

jungle.	2

software	1

the	1

world.	2

md5sum dataLocal/outout/part-r-00000  dataHdfs/output/part-r-00000

68956fd01404e5fc79e8f84e148f19e8  dataLocal/outout/part-r-00000

68956fd01404e5fc79e8f84e148f19e8  dataHdfs/output/part-r-00000

可见与上篇中 dataLocal/下的结果是相同的。

hadoop 2.7.3本地环境运行官方wordcount-基于HDFS的更多相关文章

hadoop 2.7.3本地环境运行官方wordcount
hadoop 2.7.3本地环境运行官方wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次先以独立模式(本地模式 ...
hadoop 2.7.3伪分布式环境运行官方wordcount
hadoop 2.7.3伪分布式模式运行wordcount 基本环境: 系统:win7 虚机环境:virtualBox 虚机:centos 7 hadoop版本:2.7.3 本次以伪分布式模式来运行w ...
phpstudy等php本地环境运行缓慢的问题解决方法
我们经常会使用些一键安装包部署本地服务器环境.比如phpstudy.但是会有不少人发现,wordpress等使用数据库的程序打开或者切换页面的速度明显低于静态站点.甚至需要好几秒.这个问题一直困扰了我 ...
hadoop——配置eclipse下的map-reduce运行环境 1
1.通过修改实例模板程序来实现自己的map-reduce: 为了让示例程序run起来: 1)安装eclipse 2)安装map-reduce的eclipse插件 eclipse的map-reduce插 ...
spark本地环境的搭建到运行第一个spark程序
搭建spark本地环境搭建Java环境 (1)到官网下载JDK 官网链接:https://www.oracle.com/technetwork/java/javase/downloads/jdk8- ...
Hadoop本地环境安装
一.服务器环境本人用的是阿里云的ECS的入门机器,配置1核2G,1M带宽,搭了个Hadoop单机环境,供参考 Linux发行版本:Centos7 JDK:阿里云镜像市场中选择JDK8 二.安装步骤 ...
Hadoop 系列文章(二) Hadoop配置部署启动HDFS及本地模式运行MapReduce
接着上一篇文章,继续我们 hadoop 的入门案例. 1. 修改 core-site.xml 文件 [bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoo ...
Flink从入门到放弃(入门篇2)-本地环境搭建&构建第一个Flink应用
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
Hadoop.2.x_伪分布环境搭建
一. 基本环境搭建 1. 设置主机名.静态IP/DNS.主机映射.windows主机映射(方便ssh访问与IP修改)等设置主机名: vi /etc/sysconfig/network # 重启系统生 ...

随机推荐

再部署一个 instance 和 Local Network - 每天5分钟玩转 OpenStack（131）
上一节部署了 cirros-vm1 到 first_local_net,今天我们将再部署 cirros-vm2 到同一网络,并创建 second_local_net. 连接第二个 instance 到 ...
深入解析Sqlite的完美替代者，android数据库新王者——Realm
写在前面: 又到一年一度七夕虐狗节,看着大家忍受着各种朋友圈和QQ空间还有现实生活中的轮番轰炸,我实在不忍心再在这里给大家补刀,所以我觉得今天不虐狗,继续给大家分享有用的. 如果你比较关心androi ...
JavaScript基础知识总结（一）
当我们接触一种新语言时,首先要先了解它,对它有一定的理论认识. 那么,什么是JavaScript呢? JavaScript是一种脚本语言,由web浏览器进行解释和执行.它包括ECMAScript.DO ...
VS2015在创建项目时的一些注意事项
一.下面是在创建一个新的项目是我最常用的,现在对他们一一做一个详细的介绍: 1.Win32控制台应用程序我平时编写小的C/C++程序都用它,它应该是用的最多的. 2.名称和解决方案名称的区别:名称是项 ...
python 3.5 成功安装 scrapy 的步骤
http://www.cnblogs.com/hhh5460/p/5814275.html
Maven多模块，Dubbo分布式服务框架，SpringMVC，前后端分离项目，基础搭建，搭建过程出现的问题
现互联网公司后端架构常用到Spring+SpringMVC+MyBatis,通过Maven来构建.通过学习,我已经掌握了基本的搭建过程,写下基础文章为而后的深入学习奠定基础. 首先说一下这篇文章的主要 ...
oracle常用函数及示例
学习oracle也有一段时间了,发现oracle中的函数好多,对于做后台的程序猿来说,大把大把的时间还要学习很多其他的新东西,再把这些函数也都记住是不太现实的,所以总结了一下oracle中的一些常用函 ...
HTML5游戏源码飞翔的字母可自定义内容
相信大家都玩过飞翔的小鸟吧,当然,可能已经有很多人因为这个游戏砸了不少手机.吼吼. 废话不多说,回到主题,源码如下. 博客园上传空间大小有限制,没法上传了,需要打包源码的朋友们请留言邮箱地址.当然还有 ...
从myeclipse导入eclipse，不能识别为web项目（java项目转为web项目）
1.进入项目目录,找到.project文件,打开. 2.找到<natures>...</natures>代码段. 3.在第2步的代码段中加入如下标签内容并保存: ...
ReactNative入门（安卓）——API（上）
Alert - 弹窗通过 Alert.alert() 方法调用唤起原生弹窗,点击会触发 onPress 回调(参考下方代码)并清除弹窗. import React, { AppRegistry, C ...