指导手册03：Hadoop基础操作

指导手册03：Hadoop基础操作

Part 1:查看Hadoop集群的基本信息
1．查询存储系统信息
（1）在WEB浏览器的地址栏输入http://master:50070/

请查看自己的Hadoop集群填写下表

Configured Capacity:己配置的文件系统存储总量
DFS Remaining :可使用的DFS存储总量
Non DFS Used 被非DFS的应用所占用的存储总量
DFS Used:己使用的 DFS存储总量
Live Nodes: 在线的数据节点：

（2）显示数据节点信息

查询HDFS信息的命令

Hdfs dfsadmin –report [-live] [-dead] [decommissioning]
report：输出文件系统的基本信息及相关数据统计。
-report -live：输出文件系统中在线节点的基本信息及相关数据统计。
-report -dead：输出文件系统中失效节点的基本信息及相关数据统计。
-report -decommissioning：输出文件系统中停用节点的基本信息及相关数据统计。

例：hdfs dfsadmin –report –live 查看在线节点的基本信息,请填写下表。

节点名（Node）	总存储空间(capacity)	己使用（DFS Used）	DFS没使用（Non DFS Used）	DFS 剩余（Remaining）

（3）查询集群的计算资源信息

在浏览器的地址栏输入“http://master:8088/cluster/nodes”

继续单击页面上的超链接“slave1:8042”,可以显示计算机slave1的各项资源信息。

Part 2:上传文件到HDFS目录
情景描述：
把存储在本机中的原始数据文件email_log.txt上传到Hadoop集群中的HDFS目录/user/root/
1．HDFS的基本操作
在本地计算机的Web浏览器可远程访问HDFS的监控服务端口（http://master:50070）。当需要访问HDFS上的目录及文件时，推荐使用http://master:50070/nn_browsedfscontent.jsp

在集群服务器的终端输入“hdfs dfs”命令，可以完成对HDFS目录及文件的大部分管理操作。
(1) 创建新目录
hdfs dfs -mkdir [-p] <path> -p:不加只能逐级创建目录，加了可以多级创建目录
例:
[root@master]#hdfs dfs –mkdir –p /user/dfstest
[root@master]#hdfs dfs –mkdir –p /user/test/example
(2) 上传文件

需先关闭防火墙：service iptables stop
命令解释
hdfs dfs [-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>] 将文件从本地文件系统拷贝到HDFS文件系统，主要参数<localsrc>为本地文件路径，<dst>为拷贝的目标路径。
hdfs dfs [-moveFromLocal <localsrc> ... <dst>] 将文件从本地文件系统移动到HDFS文件系统，主要参数<localsrc>为本地文件路径，<dst>为移动的目标路径。
hdfs dfs [-put [-f] [-p] [-l] <localsrc> ... <dst>]
将文件从本地文件系统上传到HDFS文件系统，主要参数<localsrc>为本地文件路径，<dst>为上传的目标路径。
例:
将集群服务器节点上的本地文件a.txt上传到HDFS目录/user/dfstest中。(a.txt请自行新建)
[root@master hadoop-2.6.4] #hdfs dfs –copyFromLocal a.txt /user/dfstest
[root@master hadoop-2.6.4] #hdfs dfs –moveFromLocal a.txt /user/dfstest/b.txt
[root@master hadoop-2.6.4] #hdfs dfs –put a.txt /user/dfstest/c.txt

(3) 下载文件
命令解释
hdfs dfs [-copyToLocal [-p] [-ignoreCrc] [-crc] <src>... <localdst>] 将文件从HDFS文件系统拷贝到本地文件系统，主要参数<src>为HDFS文件系统路径，<localdst>为本地文件系统路径。
hdfs dfs [-get [-p] [-ignoreCrc] [-crc] <src>...<localdst>] 获取HDFS文件系统上指定路径的文件到本地文件系统，主要参数<src>为HDFS文件系统路径，<localdst>为本地文件系统路径。
例:
从/user/dfstest中下载a.txt和c.txt，存储在集群服务器节点master上的本地目录/data/hdfs_test/中。（hdfs_test目录请自行创建）
[root@master hdfs_test] #hdfs dfs –copyToLocal /user/dfstest/a.txt
[root@master hdfs_test] #hdfs dfs get /user/dfstest/c.txt
[root@master hdfs_test] # ls

(3) 查看文件内容
命令解释
hdfs dfs [-cat [-ignoreCrc] <src> ...] 查看HDFS文件内容，主要参数<src>指示文件路径。
hdfs dfs [-tail [-f] <file>] 输出HDFS文件最后1024字节，主要参数<file>指定文件。
例：
[root@master hdfs_test] #hdfs dfs –cat /user/dfstest/a.txt
[root@master hdfs_test] #hdfs dfs –tail /user/dfstest/c.txt

(4) 删除文件或目录
命令解释
hdfs dfs [-rm [-f] [-r|-R] [-skipTrash] <src> ...] 删除HDFS上的文件，主要参数-r用于递归删除，<src>指定删除文件的路径。
hdfs dfs [-rmdir [--ignore-fail-on-non-empty] <dir> ...] 如果删除的是一个目录，则可以用该方法，主要参数<dir>指定目录路径。
例：
[root@master hdfs_test] #hdfs dfs –mkdir /user/dfstest/rmdir
[root@master hdfs_test] #hdfs dfs –rm /user/dfstest/c.txt
[root@master hdfs_test] #hdfs dfs –rmdir /user/dfstest/rmdir

2.上传文件到HDFS
（1）把本地计算机硬盘中的数据文件email_log.txt传输到集群服务器（master）的本地目录/root/hadoop。
可以使用SSH Secure等工具上传。
（2）在集群服务器（master）的终端执行HDFS命令，上传email_log.txt到HDFS目录/user/root/
Hdfs dfs -put /root/hadoop/email_log.txt /user/root/

指导手册03：Hadoop基础操作的更多相关文章

实训任务02：Hadoop基础操作
实训任务02:Hadoop基础操作班级学号姓名实训1:创建测试文件上传HDFS,并显示内容需求说明: 在本地计算机上创建测试文件helloH ...
hadoop - 基础操作
查看文件: [root@hadoop hadoop]# hadoop fs -lsr /drwxr-xr-x - root supergroup 0 2016-12-27 10:49 /homedrw ...
hadoop基础操作
通过hadoop上的hive完成WordCount 启动hadoop Hdfs上创建文件夹上传文件至hdfs 启动Hive 创建原始文档表导入文件内容到表docs并查看用HQL进行词频统计,结果 ...
指导手册04：运行MapReduce
指导手册04:运行MapReduce Part 1:运行单个MapReduce任务情景描述: 本次任务要求对HDFS目录中的数据文件/user/root/email_log.txt进行计算处理, ...
指导手册02：伪分布式安装Hadoop(ubuntuLinux)
指导手册02:伪分布式安装Hadoop(ubuntuLinux) Part 1:安装及配置虚拟机 1.安装Linux. 1.安装Ubuntu1604 64位系统 2.设置语言,能输入中文 3.创建 ...
【Linux 操作系统】Ubuntu 基础操作基础命令热键 man手册使用关机重启等命令使用
. : 关机, 如果将Linux默认运行等级设置为0, 系统将无法启动; -- : 多用户模式, 允许使用网络文件系统, 一般不使用图形界面登陆就是这种模式; -- : 多用户图形界面模式, 该模式下 ...
Hadoop基础-通过IO流操作HDFS
Hadoop基础-通过IO流操作HDFS 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.上传文件 /* @author :yinzhengjie Blog:http://www ...
指导手册01：安装Hadoop
指导手册01:安装Hadoop Part 1:安装及配置虚拟机 1.安装Linux. (1)打开VMvirtualBox (2) 控制->新建虚拟机,输入虚拟机名称“marst+学号” 类型: ...
Hadoop基础-HDFS的API常见操作
Hadoop基础-HDFS的API常见操作作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本文主要是记录一写我在学习HDFS时的一些琐碎的学习笔记, 方便自己以后查看.在调用API ...

随机推荐

Objective-C RunTime 学习笔记之基础结构体
1.OC 运行期常用对象结构体基本的结构体定义 typedef objc_class Class; /* 类 */ typedef objc_object *id; /* 各种类型,只要第一个字段为 ...
ZAmbIE [DDoS Attacks](DDOS攻击)
在youtube上发现的一个视频这是一个开源项目 git clone https://github.com/zanyarjamal/zambie.git chmod -R 777 zambie cd ...
python 使用函数参数注解
使用函数参数注解是一个很好的办法,它能提示程序员应该怎样正确使用这个函数. 函数注解只存储在函数的annotations 属性中
Gradle引人注目的特性集
Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化建构工具.它使用一种基于Groovy的特定领域语言来声明项目设置,而不是传统的XML.当前其支持的语言限于Java. ...
MySQL数据的导出和导入
MySQL环境变量设置,将%MySQL_HOME%下的MySQL Server 5.1/bin放到Path下. MySQL的mysqldump工具,基本用法是: shell> mysqldu ...
DIV层的使用方法
1.可以判断你选择的样式是否存在用下边的方法(如果存在的话执行某个方法) if ($(this).hasClass('cur')) 2.这个方法可以查询一个页面中同样的div层总共有几个 var i= ...
Java 实现追加excle文件内容
Java 实现追加excle文件内容一.示例一:excle(.xlsx) //jar import java.io.BufferedReader; import java.io.File; impo ...
HTTP长连接、短连接究竟是什么？
1. HTTP协议与TCP/IP协议的关系 HTTP的长连接和短连接本质上是TCP长连接和短连接.HTTP属于应用层协议,在传输层使用TCP协议,在网络层使用IP协议. IP协议主要解决网络路由和寻址 ...
Pandas之索引
Pandas的标签处理需要分成多种情况来处理,Series和DataFrame根据标签索引数据的操作方法是不同的,单列索引和双列索引的操作方法也是不同的. 单列索引 In [2]: import pa ...
Spring boot+mybatis+thymeleaf 实现登录注册，增删改查
本文重在实现理解,过滤器,业务,逻辑需求,样式请无视.. 项目结构如下 1.idea新建Spring boot项目,在pom中加上thymeleaf和mybatis支持.pom.xml代码如下 < ...

指导手册03：Hadoop基础操作

指导手册03：Hadoop基础操作的更多相关文章

随机推荐

热门专题