HDFS的基本shell操作，hadoop fs操作命令

(1)分布式文件系统

随着数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。它是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。

而它最主要的特性就是通透性。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁盘一般。即使系统中有某些节点脱机，整体来说系统仍然可以持续运作而不会有数据损失

分布式文件管理系统很多，hdfs只是其中一种。适用于一次写入多次查询的情况，不支持并发写情况，小文件不合适。

(2)HDFS的常用SHELL操作。

HDFS也是一种操作系统。它的SHELL操作类似于Linux。

①查看目录

命令：hadoop fs -ls PATH

例如：hadoop fs -ls hdfs://myhadoop:9000/

这里有一个问题，为什么最后要加上hdfs://myhadoop:9000/，这里表示HDFS的根目录，我们可以查看一下/usr/local/hadoop/conf中的core-site.xml文件，在这个配置文件中配置了HDFS的根目录：

当然使用hadoop fs -ls /也可以查看，它会默认加上配置文件中的内容，hadoop fs -lsr递归显示当前路径的目录结构.

②递归查看根目录下所有文件：

命令：hadoop fs -lsr hdfs://myhadoop:9000/

如图所示，根据空格区分，第二个显示参数表示该文件的副本数，这意味着一个文件可能在HDFS中存在多个，这样就实现了文件的备份，其中为"-"的表示是目录，所有不存在副本，默认副本数是3。这里由于是伪分布系统，所以设置为了1。在/usr/local/hadoop/conf中的hdfs-site.xml文件可以进行相应的配置：

③创建目录

命令:hadoop fs -mkdir PATH

例如：hadoop fs -mkdir /d1

④上传文件

命令：hadoop fs -put 源文件(Linux系统) 目标路径(HDFS)

例如：上传当前目录下的core-site.xml文件到刚刚创建的/d1目录中。

命令为：hadoop fs -put ./core-site.xml /d1

⑤下载文件

命令：hadoop fs -get 源文件(HDFS) 目标路径(Linux系统)

例如：下载刚刚HDFS中/d1目录下的core-site.xml文件到Linux系统桌面。

命令为：hadoop fs -get /d1/core-site.xml /root/Desktop/

⑥查看文件

命令：hadoop fs -text FILE

例如：查看d1下的core-site.xml文件。

命令为：hadoop fs -text /d1/core-site.xml

⑦删除文件

命令：hadoop fs -rm FILE

例如：删除/d1下的core-site.xml文件

⑧递归删除

命令：hadoop fs -rmr PATH

例如：递归删除/d1下的所有内容

⑨查看命令的帮助手册

命令：hadoop fs -help COMMAND

例如：查看ls的帮助手册

FS Shell
调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child，或者更简单的/parent/child（假设你配置文件中的默认值是namenode:namenodeport）。大多数FS Shell命令的行为和对应的Unix Shell命令类似，不同之处会在下面介绍各命令使用详情时指出。出错信息会输出到stderr，其他信息输出到stdout。

cat
使用方法：hadoop fs -cat URI [URI …] 将路径指定文件的内容输出到stdout。
示例：
• hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2
• hadoop fs -cat file:///file3 /user/hadoop/file4
返回值：成功返回0，失败返回-1。

chgrp
使用方法：hadoop fs -chgrp [-R] GROUP URI [URI …] Change group association of files. With -R, make the change recursively through the directory structure. The user must be the owner of files, or else a super-user. Additional information is in the Permissions User Guide. –>
改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。

chmod
使用方法：hadoop fs -chmod [-R] URI [URI …]
改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。

chown
使用方法：hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]
改变文件的拥有者。使用-R将使改变在目录结构下递归进行。命令的使用者必须是超级用户。更多的信息请参见HDFS权限用户指南。

copyFromLocal
使用方法：hadoop fs -copyFromLocal URI
除了限定源路径是一个本地文件外，和put命令相似。

copyToLocal
使用方法：hadoop fs -copyToLocal [-ignorecrc] [-crc] URI
除了限定目标路径是一个本地文件外，和get命令类似。

cp
使用方法：hadoop fs -cp URI [URI …]
将文件从源路径复制到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。示例：
• hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2
• hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir
返回值：成功返回0，失败返回-1。

du
使用方法：hadoop fs -du URI [URI …] 显示目录中所有文件的大小，或者当只指定一个文件时，显示此文件的大小。示例： hadoop fs -du /user/hadoop/dir1 /user/hadoop/file1 hdfs://host:port/user/hadoop/dir1 返回值：成功返回0，失败返回-1。

dus
使用方法：hadoop fs -dus 显示文件的大小。

expunge
使用方法：hadoop fs -expunge
清空回收站。请参考HDFS设计文档以获取更多关于回收站特性的信息。

get
使用方法：hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例：
• hadoop fs -get /user/hadoop/file localfile
• hadoop fs -get hdfs://host:port/user/hadoop/file localfile
返回值：成功返回0，失败返回-1。

getmerge
使用方法：hadoop fs -getmerge [addnl] 接受一个源目录和一个目标文件作为输入，并且将源目录中所有的文件连接成本地目标文件。addnl是可选的，用于指定在每个文件结尾添加一个换行符。

ls
使用方法：hadoop fs -ls 如果是文件，则按照如下格式返回文件信息：文件名文件大小修改日期修改时间权限用户ID 组ID 如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样。目录返回列表的信息如下：目录名修改日期修改时间权限用户ID 组ID 示例： hadoop fs -ls /user/hadoop/file1 /user/hadoop/file2 hdfs://host:port/user/hadoop/dir1 /nonexistentfile 返回值：成功返回0，失败返回-1。

lsr
使用方法：hadoop fs -lsr ls命令的递归版本。类似于Unix中的ls -R。

mkdir
使用方法：hadoop fs -mkdir 接受路径指定的uri作为参数，创建这些目录。其行为类似于Unix的mkdir -p，它会创建路径中的各级父目录。示例：
• hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2
• hadoop fs -mkdir hdfs://host1:port1/user/hadoop/dir hdfs://host2:port2/user/hadoop/dir
返回值：成功返回0，失败返回-1。

movefromLocal
使用方法：dfs -moveFromLocal
输出一个”not implemented“信息。

mv
使用方法：hadoop fs -mv URI [URI …] 将文件从源路径移动到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。不允许在不同的文件系统间移动文件。示例：
• hadoop fs -mv /user/hadoop/file1 /user/hadoop/file2
• hadoop fs -mv hdfs://host:port/file1 hdfs://host:port/file2 hdfs://host:port/file3 hdfs://host:port/dir1
返回值：成功返回0，失败返回-1。

put
使用方法：hadoop fs -put … 从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。
• hadoop fs -put localfile /user/hadoop/hadoopfile
• hadoop fs -put localfile1 localfile2 /user/hadoop/hadoopdir
• hadoop fs -put localfile hdfs://host:port/hadoop/hadoopfile
• hadoop fs -put – hdfs://host:port/hadoop/hadoopfile 从标准输入中读取输入。
返回值：成功返回0，失败返回-1。

rm
使用方法：hadoop fs -rm URI [URI …] 删除指定的文件。只删除非空目录和文件。请参考rmr命令了解递归删除。示例：
• hadoop fs -rm hdfs://host:port/file /user/hadoop/emptydir
返回值：成功返回0，失败返回-1。

rmr
使用方法：hadoop fs -rmr URI [URI …] delete的递归版本。示例：
• hadoop fs -rmr /user/hadoop/dir
• hadoop fs -rmr hdfs://host:port/user/hadoop/dir
返回值：成功返回0，失败返回-1。

setrep
使用方法：hadoop fs -setrep [-R] 改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。示例：
• hadoop fs -setrep -w 3 -R /user/hadoop/dir1
返回值：成功返回0，失败返回-1。

stat
使用方法：hadoop fs -stat URI [URI …] 返回指定路径的统计信息。示例：
• hadoop fs -stat path
返回值：成功返回0，失败返回-1。

tail
使用方法：hadoop fs -tail [-f] URI 将文件尾部1K字节的内容输出到stdout。支持-f选项，行为和Unix中一致。
示例：
hadoop fs -tail pathname
返回值：成功返回0，失败返回-1。

test
使用方法：hadoop fs -test -[ezd] URI 选项： -e 检查文件是否存在。如果存在则返回0。 -z 检查文件是否是0字节。如果是则返回0。 -d 如果路径是个目录，则返回1，否则返回0。示例：
• hadoop fs -test -e filename

text
使用方法：hadoop fs -text 将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream。

touchz
使用方法：hadoop fs -touchz URI [URI …] 创建一个0字节的空文件。示例：
• hadoop -touchz pathname
返回值：成功返回0，失败返回-1。

(3)HDFS中所有shell操作的总结：

选项名称	使用格式	含义
-ls	-ls <路径>	查看指定路径的当前目录结构
-lsr	-lsr <路径>	递归查看指定路径的目录结构
-du	-du <路径>	统计目录下个文件大小
-dus	-dus <路径>	汇总统计目录下文件(夹)大小
-count	-count [-q] <路径>	统计文件(夹)数量
-mv	-mv <源路径> <目的路径>	移动
-cp	-cp <源路径> <目的路径>	复制
-rm	-rm [-skipTrash] <路径>	删除文件/空白文件夹
-rmr	-rmr [-skipTrash] <路径>	递归删除
-put	-put <多个linux上的文件> <hdfs路径>	上传文件
-copyFromLocal	-copyFromLocal <多个linux上的文件> <hdfs路径>	从本地复制
-moveFromLocal	-moveFromLocal <多个linux上的文件> <hdfs路径>	从本地移动
-getmerge	-getmerge <源路径> <linux路径>	合并到本地
-cat	-cat <hdfs路径>	查看文件内容
-text	-text <hdfs路径>	查看文件内容
-copyToLocal	-copyToLocal [-ignoreCrc] [-crc] [hdfs源路径] [linux目的路径]	从本地复制
-moveToLocal	-moveToLocal [-crc] <hdfs源路径> <linux目的路径>	从本地移动
-mkdir	-mkdir <hdfs路径>	创建空白文件夹
-setrep	-setrep [-R] [-w] <副本数> <路径>	修改副本数量
-touchz	-touchz <文件路径>	创建空白文件
-stat	-stat [format] <路径>	显示文件统计信息
-tail	-tail [-f] <文件>	查看文件尾部信息
-chmod	-chmod [-R] <权限模式> [路径]	修改权限
-chown	-chown [-R] [属主][:[属组]] 路径	修改属主
-chgrp	-chgrp [-R] 属组名称路径	修改属组
-help	-help [命令选项]	帮助

HDFS的基本shell操作，hadoop fs操作命令的更多相关文章

HDFS建筑与shell操作
一个.hadoop1.1.0演示 hadoop它适合于大容量数据存储和分布式计算平台 hadoop核心由hdfs和mapreduce组成 hdfs这是一个主从结构,仅有一个.是namenode:从节点 ...
HDFS概述和Shell操作
大数据技术之Hadoop(HDFS) 第一章 HDFS概述 HDFS组成架构 HDFS文件块大小第二章 HDFS的Shell操作(开发重点) 1．基本语法 bin/hadoop fs 具体命令 ...
大数据（4） - HDFS常用的shell操作
注意:这次使用的是第二部分安装的集群,不是高可用集群为了方便,开发,必须写集群脚本,试想集群的机器是100台以上,而不是3台的情况.... 集群启动脚本 vim /home/admin/tools/ ...
Hadoop(6)-HDFS的shell操作
1．基本语法使用 hadoop fs 具体命令或者 hdfs dfs 具体命令 hadoop命令的shell源码 hdfs命令的shell源码由此可见,这两个命令最后都是执行的一个jav ...
Hadoop框架：HDFS简介与Shell管理命令
本文源码:GitHub·点这里 || GitEE·点这里一.HDFS基本概述 1.HDFS描述大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容 ...
HDFS02 HDFS的Shell操作
HDFS的Shell操作(开发重点) 目录 HDFS的Shell操作(开发重点) 基本语法常用命令准备工作上传 -moveFromLocal 剪切 -copyFromLocal 拷贝 -put ...
使用shell操作HDFS
前提是都已经配置好了,可以参考hadoop伪分布安装:http://blog.csdn.net/jerome_s/article/details/25788967 linux的文件系统与hdfs的关系 ...
HDFS基本shell操作
在客户端输入Hadoop fs,可以查看所有的,hadoop shell # -help [cmd] //显示命令的帮助信息,如: hadoop fs -help ls # -ls(r) <pa ...
Hadoop点滴-何时使用hadoop fs、hadoop dfs与hdfs dfs命令
何时使用hadoop fs.hadoop dfs与hdfs dfs命令编辑删除 hadoop fs:使用面最广,可以操作任何文件系统. hadoop dfs与hdfs dfs:只能操作HDFS文件 ...

随机推荐

[工作积累] 32bit to 64bit: array index underflow
先贴一段C++标准(ISO/IEC 14882:2003): 5.2.1 Subscripting: 1 A postfix expression followed by an expression ...
《EnterLib PIAB深入剖析》系列博文汇总_转
转: http://www.cnblogs.com/artech/archive/2008/08/08/1263418.html
提高Asp.Net应用程序性能的十大方法(译感)
译完了提高Asp.Net应用程序的十大方法这篇文章,仔细想其中提到的每一条,在这里结合我的项目来谈谈.第一条:返回多个结果集因为我的项目中所有对数据库的访问的sql语句都是通过调用存储过程实现的,所以 ...
java多线程基础知识
1.ThrTest.java 继承Thread类方式 public class ThrTest extends Thread { private String name; public ThrTest ...
教你如何利用xml格式的sitemap文件做好SEO
教你如何利用xml格式的sitemap文件做好SEO 浏览: | 更新:-- : 一般的网站中都有网站地图文件,它有HTML格式与XML格式,网站地图可以帮助搜索引擎抓取.帮助用户找到自己所需要的内容 ...
css display visibility
当visibility被设置为"hidden"的时候,元素虽然被隐藏了,但它仍然占据它原来所在的位置.注意,当元素被隐藏之后,就不能再接收到其它事件了. display属性就有一点 ...
Android线程消息通信（一）
Android在Java标准线程模型的基础上,提供了消息驱动机制,用于多线程之间的通信.基于消息驱动机制的线程通信模型陈伟线程消息通信.在标准线程模型中,线程执行完毕后便退出,而Android扩展了线 ...
创建CancellationTokenSource对象用于取消Task
虽然使用线程池ThreadPool让我们使用多线程变得容易,但是因为是由系统来分配的,如果想对线程做精细的控制就不太容易了,比如某个线程结束后执行一个回调方法.恰好Task可以实现这样的需求.这篇文章 ...
C#反射技术的相关使用方法
1.获取同一程序集的类型实例无参数构造函数 Type t=Type.GetType("AppCode.Employee"); object emp=t.Assembly.Crea ...
CF A. Xenia and Divisors
题目大意: n(为三的倍数)个数的一个序列(每个数均不大于7),找出a,b,c a能被b整除,b能被c整除,序列中的每个数都被用到. 1 2 3 4 5 6 7 只有 1 2 4 1 2 6 1 3 ...

HDFS的基本shell操作，hadoop fs操作命令

HDFS的基本shell操作，hadoop fs操作命令的更多相关文章

随机推荐

热门专题