[摘录自] https://www.yiibai.com/hadoop/hadoop_hdfs_operations.html#article-start

一、HDFS 使用基础

格式化配置HDFS文件系统,打开NameNode(HDFS服务器),然后执行  hadoop namenode -format

格式化HDFS后,启动分布式文件系统,  $ start-dfs.sh

找出文件列表中的目录,文件状态,可以传递一个目录或文件名作为参数:  hadoop fs -ls <args>

创建一个输入目录: hadoop fs -mkdir /user/input

传输本地数据文件存储Hadoop文件系统:  hadoop fs -put /home/file.txt /user/input

查看来自HDFS的数据:  hadoop fs -cat /user/output/outfile

从HDFS得到文件:  hadoop fs -get /user/output/ /home/hadoop_tp/

可以使用下面的命令关闭HDFS:  $ stop-dfs.sh

在“$HADOOP_HOME/bin/hadoop fs” 里有更多的命令。./bin/hadoop DFS 列出所有可以使用在FsShell系统上运行的命令。此外,$HADOOP_HOME/bin/hadoop fs -help 命令名称会显示一个简短的用法。

所有表的操作如下所示。以下是使用参数一般方式:

"<path>" means any file or directory name.
"<path>..." means one or more file or directory names.
"<file>" means any filename.
"<src>" and "<dest>" are path names in a directed operation.
"<localSrc>" and "<localDest>" are paths as above, but on the local file system.

所有其他文件和路径名是指HDFS内部的对象。

1.

ls <path>

列出路径指定的目录中的内容,示出了名称,权限,拥有者,大小和修改日期的每个条目。

2.

lsr <path>

行为类似于-ls,但递归显示路径的所有子目录项。

3.

du <path>

显示磁盘使用率,以字节为单位,对所有的文件,这些文件匹配的路径;文件名报告使用完整HDFS协议前缀。

4.

dus <path>

类似-du,但打印路径中的所有文件/目录的磁盘使用情况的摘要。

5.

mv <src><dest>

通过移动表示src到dest,在HDFS的文件或目录。

6.

cp <src> <dest>

在HDFS复制确定src中的文件或目录到dest。

7.

rm <path>

删除文件或路径标识的空目录。

8.

rmr <path>

删除路径标识的文件或目录。递归删除所有子条目(例如,文件或路径的子目录)。

9.

put <localSrc> <dest>

从本地localSrc文件系统中的DFS标识文件或目录内复制到dest。

10.

copyFromLocal <localSrc> <dest>

等同于-put

11.

moveFromLocal <localSrc> <dest>

从标识 localSrc本地文件系统中的文件或目录中HDFS复制到dest,然后删除本地副本上成功。

12.

get [-crc] <src> <localDest>

拷贝标识 src 来确定localDest本地文件系统路径HDFS文件或目录。

13.

getmerge <src> <localDest>

检索匹配的路径的src HDFS中的所有文件,并将它们复制合并文件到标识localDest本地文件系统中。

14.

cat <filen-ame>

显示在标准输出文件名的内容。

15.

copyToLocal <src> <localDest>

等同于 -get

16.

moveToLocal <src> <localDest>

工作方式类似于-get,但删除HDFS复制成功。

17.

mkdir <path>

在创建一个HDFS命名的目录路径。

创建任何父目录的路径丢失(例如,命令mkdir-p在Linux中)。

18.

setrep [-R] [-w] rep <path>

设置标识路径代表文件的目标文件复制因子。 (实际的复制因子会向着随着时间的推移目标移动)

19.

touchz <path>

创建在路径包含当前时间作为时间戳的文件。失败如果文件已经存在于路径,除非文件已经大小为0。

20.

test -[ezd] <path>

返回1,如果路径存在;长度为零;或者是一个目录,否则为0。

21.

stat [format] <path>

打印有关的路径信息。格式是接受块文件大小(%b),文件名(%n),块大小(%o),复制(%r)和修改日期(%y,%Y)的字符串。

22.

tail [-f] <file2name>

显示在标准输出文件的最后1KB。

23.

chmod [-R] mode,mode,... <path>...

变化符合路径标识的一个或多个对象关联的文件权限....递归执行变更与R.模式是3位八进制模式,或{augo}+/-{rwxX}。假设如果没有指定范围,则不适用umask。

24.

chown [-R] [owner][:[group]] <path>...

设置拥有用户和/或组标识路径的文件或目录....设置所有者递归,如果指定-R。

25.

chgrp [-R] group <path>...

设置所属组标识路径的文件或目录....设置组递归,如果指定-R。

26.

help <cmd-name>

返回使用上面列出的命令之一信息。必须省略了'-' 字符在cmd。

二、基于java的MapReduce job 例子

1. 新建java maven项目,添加如下依赖项:

<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-core</artifactId>
  <version>1.2.1</version>
</dependency>

2. 编写java code:

Hadoop 使用基础的更多相关文章

  1. hadoop rpc基础

    第一部分: hadoop rpc基础 RPC,远程程序调用,分布式计算中C/S模型的一个应用实例. 同其他RPC框架一样,Hadoop分为四个部分: 序列化层:支持多种框架实现序列化与反序列化 函数调 ...

  2. Hadoop(分布式系统基础架构)---Hive与HBase区别

    对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用.  Hive是什么? Apache Hive是 ...

  3. Hadoop程序基础模板

    分布式编程相对复杂,而Hadoop本身蒙上大数据.云计算等各种面纱,让很多初学者望而却步.可事实上,Hadoop是一个很易用的分布式编程框架,经过良好封装屏蔽了很多分布式环境下的复杂问题,因此,对普通 ...

  4. Hadoop框架基础(五)

    ** Hadoop框架基础(五) 已经部署了Hadoop的完全分布式集群,我们知道NameNode节点的正常运行对于整个HDFS系统来说非常重要,如果NameNode宕掉了,那么整个HDFS就要整段垮 ...

  5. Hadoop 框架基础(四)

    ** Hadoop 框架基础(四) 上一节虽然大概了解了一下 mapreduce,徒手抓了海胆,不对,徒手写了 mapreduce 代码,也运行了出来.但是没有做更深入的理解和探讨. 那么…… 本节目 ...

  6. Hadoop框架基础(三)

    ** Hadoop框架基础(三) 上一节我们使用eclipse运行展示了hdfs系统中的某个文件数据,这一节我们简析一下离线计算框架MapReduce,以及通过eclipse来编写关于MapReduc ...

  7. Hadoop框架基础(二)

    ** Hadoop框架基础(二) 上一节我们讨论了如何对hadoop进行基础配置已经运行一个简单的实例,接下来我们尝试使用eclipse开发. ** maven安装 简单介绍:maven是一个项目管理 ...

  8. Hadoop框架基础(一)

    ** Hadoop框架基础(一)     学习一个新的东西,传统而言呢,总喜欢漫无目的的扯来扯去,比如扯扯发展史,扯扯作者是谁,而我认为这些东西对于刚开始接触,并以开发为目的学者是没有什么帮助的,反而 ...

  9. 【Hadoop离线基础总结】oozie的安装部署与使用

    目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...

  10. 【Hadoop离线基础总结】Hue的简单介绍和安装部署

    目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue ...

随机推荐

  1. logistic growth model . 求解方法 (高斯牛顿法)

    https://www.stat.tamu.edu/~jnewton/604/chap4.pdf http://www.metla.fi/silvafennica/full/sf33/sf334327 ...

  2. 再谈JavaScript的closure--JavaScript 闭包

    关于JavaScript的闭包,在我的博客上之前有一篇文章 https://www.cnblogs.com/wphl-27/p/8491327.html 今天看了几篇文章,感觉又有了一些更深的理解,特 ...

  3. sublime text3安装后html:5+Tab不能快速生成html头部信息的解决办法

    sublime text3安装后html:5+Tab不能快速生成html头部信息的解决办法: 需要下载Emmet插件,按网上写的步骤按ctrl+shift+P打开命令面板,输入install,鼠标点击 ...

  4. ssh试卷

    2.简述Hibernate的工作原理. 答:首先,Configuration读取Hibernate的配置文件及映射文件中的信息,即加载配置文件和映射文件,并通过Hibernate配置文件生成一个多线程 ...

  5. POJ - 1328 Radar Installation(贪心区间选点+小学平面几何)

    Input The input consists of several test cases. The first line of each case contains two integers n ...

  6. Ubuntu在用root账户使用xftp连接时提示拒绝连接

    一般来说Linux不允许使用root账户连接,修改配置 vi /etc/ssh/sshd_config #Authentication: LoginGraceTime PermitRootLogin ...

  7. asp.net core 外部认证多站点模式实现

    PS:之前因为需要扩展了微信和QQ的认证,使得网站是可以使用QQ和微信直接登录.github 传送门 .然后有小伙伴问,能否让这个配置信息(appid, appsecret)按需改变,而不是在 Con ...

  8. 【[APIO/CTSC2007]动物园】状压DP

    题目测评:https://www.luogu.org/problemnew/show/P3622 题目描述 新建的圆形动物园是亚太地区的骄傲.圆形动物园坐落于太平洋的一个小岛上,包含一大圈围栏,每个围 ...

  9. python之路径拼接urljoin

    方法一:使用+进行路径拼接 url='http://ip/ path='api/user/login' url+path拼接后的路径为'http://ip//api/user/login' 方法二:使 ...

  10. 模块-os.system的两个模块/random模块/datetime模块/写日志

    一.获取当前目录的路径 os.path.abspath('.')# 取绝对路径 os.getcwd()# 取当前路径 .代表当前目录 ..上一级目录 ../.. 二.执行操作系统命令1.os.syst ...