HADOOP命令介绍

一、用户命令
1、archive命令

(1).什么是Hadoop archives?
Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据文件(part-*)。_index文件包含了档案中的文件的文件名和位置信息。

(2).如何创建archive?
用法：hadoop archive -archiveName NAME <src>* <dest>
命令选项：
-archiveName NAME 要创建的档案的名字。
src 源文件系统的路径名。
dest 保存档案文件的目标目录。
范例：
例1.将/user/hadoop/dir1和/user/hadoop/dir2归档到/user/zoo/文件系统目录下–/user/zoo/foo.har。
hadoop@ubuntu:~/ hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/
当创建archive时，源文件foo.har不会被更改或删除。

(3).如何查看archives中的文件?
archive作为文件系统层暴露给外界。所以所有的fs shell命令都能在archive上运行，但是要使用不同的URI。另外，archive是不可改变的。所以创建、重命名和删除都会返回错误。Hadoop Archives的URI是har://scheme-hostname:port/archivepath/fileinarchive。
如果没提供scheme-hostname，它会使用默认的文件系统。这种情况下URI是这种形式har:///archivepath/fileinarchive。
范例：
例1.archive的输入是/dir，该dir目录包含文件filea和fileb，现把/dir归档到/user/hadoop/foo.bar。
hadoop@ubuntu:~/ hadoop archive -archiveName foo.har /dir /user/hadoop
例2.获得创建的archive中的文件列表
hadoop@ubuntu:~/hadoop dfs -lsr har:///user/hadoop/foo.har
例3.查看archive中的filea文件
hadoop@ubuntu:~/hadoop dfs -cat har:///user/hadoop/foo.har/dir/filea

2、distcp
说明：用于集群内部或者集群之间拷贝数据的常用命令(顾名思义: dist即分布式，分布式拷贝是也。)。
用法：hadoop distcp [选项] src_url dest_url
命令选项：
-m 表示启用多少map
-delete 删除已经存在的目标文件，不会删除源文件。这个删除是通过FS Shell实现的。所以如果垃圾回收机制启动的话，删除的目标文件会进入trash。
-i 忽略失败。这个选项会比默认情况提供关于拷贝的更精确的统计，同时它还将保留失败拷贝操作的日志，这些日志信息可以用于调试。最后，如果一个map失败了，但并没完成所有分块任务的尝试，这不会导致整个作业的失败。
-overwrite 覆盖目标。如果一个map失败并且没有使用-i选项，不仅仅那些拷贝失败的文件，这个分块任务中的所有文件都会被重新拷贝。所以这就是为什么要使用-i参数。
范例：
例1.
hadoop@ubuntu:~/ hadoop distcp "hdfs://A:8020/user/foo/bar" "hdfs://B:8020/user/foo/baz"

3、fs
说明：运行一个常规的文件系统客户端。
用法：hadoop fs [GENERIC_OPTIONS] [COMMAND_OPTIONS]
各种命令选项可以参考HDFS Shell指南。

4、fsck
说明：用来检查整个文件系统的健康状况，但是要注意它不会主动恢复备份缺失的block，这个是由NameNode单独的线程异步处理的。
用法：hadoop fsck [GENERIC_OPTIONS] [-move|-delete|-openforwrite] [-files [-blocks [-locations | -racks]]]
参数选项：
<path> 检查这个目录中的文件是否完整
-move 破损的文件移至/lost+found目录
-delete 删除破损的文件
-openforwrite 打印正在打开写操作的文件
-files 打印正在check的文件名
-blocks 打印block报告(需要和-files参数一起使用)
-locations 打印每个block的位置信息(需要和-files参数一起使用)
-racks 打印位置信息的网络拓扑图(需要和-files参数一起使用)
范例：
例1.
hadoop@ubuntu:~/hadoop-1.1.1/bin$ hadoop fsck /
Warning: $HADOOP_HOME is deprecated.

FSCK started by hadoop from /192.168.11.156 for path / at Sat Dec 29 19:33:40 PST 2012
.Status: HEALTHY
Total size: 4 B
Total dirs: 9
Total files: 1
Total blocks (validated): 1 (avg. block size 4 B)
Minimally replicated blocks: 1 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 1 #缺省的备份参数1
Average block replication: 1.0
Corrupt blocks: 0 #破损的block数0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 1
Number of racks: 1
FSCK ended at Sat Dec 29 19:33:40 PST 2012 in 4 milliseconds

The filesystem under path '/' is HEALTHY
hadoop@ubuntu:~/hadoop-1.1.1/bin$

5、jar
说明：运行jar文件。用户可以把他们的Map Reduce代码捆绑到jar文件中，使用这个命令执行。
用法：hadoop jar <jar> [mainClass] args…
范例：
例1.在集群上运行Map Reduce程序，以WordCount程序为例
hadoop jar /home/hadoop/hadoop-1.1.1/hadoop-examples.jar wordcount input output
描述：
hadoop jar：执行jar命令
/home/hadoop/hadoop-1.1.1/hadoop-examples.jar: WordCount所在jar
wordcount：程序主类名
input output：输入输出文件夹

6、job
说明：用于和Map Reduce作业交互和命令。
用法：hadoop job [GENERIC_OPTIONS] [-submit ] | [-status ] | [-counter ] | [-kill ] | [-events <#-of-events>] | [-history [all] ] | [-list [all]] | [-kill-task ] | [-fail-task ]
参数选项：
-submit <job-file>：提交作业
-status <job-id>：打印map和reduce完成百分比和所有计数器。
-counter <job-id> <group-name> <counter-name>：打印计数器的值。
-kill <job-id>：杀死指定作业。
-events <job-id> <from-event-#> <#-of-events>：打印给定范围内jobtracker接收到的事件细节。
-history [all] ：-history 打印作业的细节、失败及被杀死原因的细节。更多的关于一个作业的细节比如成功的任务，做过的任务尝试等信息可以通过指定[all]选项查看。
-list [all]：-list all显示所有作业。-list只显示将要完成的作业。
-kill-task <task-id>：杀死任务。被杀死的任务不会不利于失败尝试。
-fail-task <task-id>：使任务失败。被失败的任务会对失败尝试不利。

7、pipes
说明：运行pipes作业。
用法：hadoop pipes [-conf ] [-jobconf , , ...] [-input ] [-output ] [-jar ] [-inputformat ] [-map ] [-partitioner ] [-reduce ] [-writer ] [-program ] [-reduces ]
参数选项：
-conf <path>：作业的配置
-jobconf <key=value>, <key=value>, …：增加/覆盖作业的配置项
-input <path>：输入目录
-output <path>：输出目录
-jar <jar file>：Jar文件名
-inputformat <class>：InputFormat类
-map <class>：Java Map类
-partitioner <class>：Java Partitioner
-reduce <class>：Java Reduce类
-writer <class>：Java RecordWriter
-program <executable>：可执行程序的URI
-reduces <num>：reduce个数

8、version
说明：打印版本信息。
用法：hadoop version

9、CLASSNAME
说明：hadoop脚本可用于调用任何类。
用法：hadoop CLASSNAME
描述：运行名字为CLASSNAME的类。

二、管理命令
hadoop集群管理员常用的命令。

1、balancer
说明：运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程。
用法：hadoop balancer [-threshold ]
参数选项：
-threshold <threshold>：磁盘容量的百分比。这会覆盖缺省的阀值。

2、daemonlog
说明：获取或设置每个守护进程的日志级别。
用法：hadoop daemonlog -getlevel <host:port> <name>
用法：hadoop daemonlog -setlevel <host:port> <name> <level>
参数选项：
-getlevel <host:port> <name>：打印运行在<host:port>的守护进程的日志级别。这个命令内部会连接http://<host:port>/logLevel?log=<name>
-setlevel <host:port> <name> <level>：设置运行在<host:port>的守护进程的日志级别。这个命令内部会连接http://<host:port>/logLevel?log=<name>

3、datanode
说明：运行一个HDFS的datanode。
用法：hadoop datanode [-rollback]
参数选项：
-rollback：将datanode回滚到前一个版本。这需要在停止datanode，分发老的hadoop版本之后使用。

4、dfsadmin
说明：运行一个HDFS的dfsadmin客户端。
用法：hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode enter | leave | get | wait] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress status | details | force] [-metasave filename] [-setQuota ...] [-clrQuota ...] [-help [cmd]]
参数选项：
-report：报告文件系统的基本信息和统计信息。
…

5、jobtracker
说明：运行MapReduce job Tracker节点。
用法：hadoop jobtracker

6、namenode
说明：运行namenode。
用法：hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]
参数选项：
-format：格式化namenode。它启动namenode，格式化namenode，之后关闭namenode。
-upgrade：分发新版本的hadoop后，namenode应以upgrade选项启动。
-rollback：将namenode回滚到前一版本。这个选项要在停止集群，分发老的hadoop版本后使用。
-finalize：finalize会删除文件系统的前一状态。最近的升级会被持久化，rollback选项将再不可用，升级终结操作之后，它会停掉namenode。
-importCheckpoint 从检查点目录装载镜像并保存到当前检查点目录，检查点目录由fs.checkpoint.dir指定。

7、secondarynamenode
说明：运行HDFS的secondary namenode。
用法：hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize]
参数选项：
-checkpoint [force]：如果EditLog的大小 >= fs.checkpoint.size，启动Secondary namenode的检查点过程。如果使用了-force，将不考虑EditLog的大小。
-geteditsize：打印EditLog大小。

8、tasktracker
说明：运行MapReduce的task Tracker节点。
用法：hadoop tasktracker

HADOOP命令介绍的更多相关文章

Hadoop生态圈-zookeeper本地搭建以及常用命令介绍
Hadoop生态圈-zookeeper本地搭建以及常用命令介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.下载zookeeper软件下载地址:https://www.ap ...
Hadoop生态圈-phoenix完全分布式部署以及常用命令介绍
Hadoop生态圈-phoenix完全分布式部署作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. phoenix只是一个插件,我们可以用hive给hbase套上一个JDBC壳,但是你 ...
【转】Hadoop命令大全
Hadoop命令大全本节比较全面的向大家介绍一下Hadoop命令,欢迎大家一起来学习,希望通过本节的介绍大家能够掌握一些常见Hadoop命令的使用方法.下面是Hadoop命令的详细介绍. 1.列出所 ...
从零自学Hadoop(11)：Hadoop命令上
阅读目录序概述 Hadoop Common Commands User Commands Administration Commands File System Shell 引用系列索引本文版 ...
从零自学Hadoop(12)：Hadoop命令中
阅读目录序 HDFS Commands User Commands Administration Commands Debug Commands 引用系列索引本文版权归mephisto和博客园共 ...
从零自学Hadoop(13)：Hadoop命令下
阅读目录序 MapReduce Commands User Commands Administration Commands YARN Commands User Commands Administ ...
初识Hadoop入门介绍
初识hadoop入门介绍 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. < ...
hadoop命令fsck命令
在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态.获取文件的block块信息和位置信息等. 具体命令介绍: -move: 移动损坏的文件到/lost+found目录下 -del ...
Hadoop数据管理介绍及原理分析
Hadoop数据管理介绍及原理分析最近2014大数据会议正如火如荼的进行着,Hadoop之父Doug Cutting也被邀参加,我有幸听了他的演讲并获得亲笔签名书一本,发现他竟然是左手写字,当然这个 ...

随机推荐

OpenLayers工作原理
1.数据组织 OpenLayers通过同层(Layer)进行组织渲染,然后通过数据源设置具体的地图数据来源.因此,Layer与Source是密切相关的对应关系,缺一不可.Layer可看做渲染地图的层容 ...
java.sql.SQLException: Incorrect key file for table 'C:\Windows\TEMP\#sql578_6e2_68d.MYI'; try to repair it
java.sql.SQLException: Incorrect key file for table 'C:\Windows\TEMP\#sql578_6e2_68d.MYI'; try to re ...
android.widget.Toast
widget 小部件 toast 烤面包 Toast.makeText(当前活动, 信息, 时间长短) 例:Toast.makeText(FirstActivity.this, "You c ...
powerDesigner生成excel版本的数据库文件
今天收到一个需求,要把数据库设计给一个excel版本的,百度出来一个脚本文件,很好用发现,留个纪念在pd中,shift+ctrl+X,打开脚本运行,脚本如下,附件也留了一份: '********** ...
LoadRunner培训初级教程
一 LoadRunner简介 1.1 Loadrunner介绍 LoadRunner 是 HP Mercury Interactive 用来测试应用程序性能的工具 LoadRunner 通过模拟一个 ...
不安装oracle客户端，用plsql连接oracle
常用的Oracle开发的工具有SQL Developer和PL/SQL Developer,个人感觉前者虽然跨平台性优于后者,但比较大(大于300M)占用资源,而且用户体验也一般,而后者相对就小很多( ...
GDB的深入研究
GDB的深入研究一.GDB代码调试 (一)GDB调试实例在终端中编译一个示例C语言小程序,保存为文件 gdblianxi.c 中,用GCC编译. 在上面的命令行中,使用-o参数指定了编译生成的可执 ...
OC-hello, world
你好, 世界 --1-- Xcode创建OC项目 1.1 OC命令行项目 --2-- NSLog函数和@符号 2.1 NSLog的介绍 2.2 NSLog使用方法 2.3 NS前缀的含义 2.4 @符 ...
PV、UPV、UV简介
1.PV: PV的全称是Pageview,中文的意思是:综合浏览量. 浏览量.页面的浏览次数,衡量网站用户访问的网页数量,用户每打开/刷新一次页面就记录一次,多次打开会累计. 2.UPV: UPV的 ...
Mac OS Terminal 几个快捷键
在Mac系统中几个键位组合可以使Terminal的操作更加灵活方便. 1.将光标移动到行首:ctrl + a 2.将光标移动到行尾:ctrl + e 3.清除屏幕: ctrl + ...

HADOOP命令介绍

HADOOP命令介绍的更多相关文章

随机推荐

热门专题