初识hadoop之分布式文件系统(HDFS)
Hadoop常用发行版:
Apache Hadoop
CDH Cloudera Distributed Hadoop
HDP Hortonworks Data Platfrom
分布式文件系统(HDFS)
HDFS架构
1个master(NameNode/NN)带n个slaves(DataNode/DN)
HDFS/YARN/HBase都是类似结构
一个文件会被拆分成多个Block
blocksize:128M
130M ==> 2个Block:128M和2M
NN:
1)负责客户端请求的响应
2)负责元数据(文件的名称、副本系数、Block存放的DN)的管理
DN:
1)存储用户的文件对应的数据块(Block)
2)要定期向NN发送心跳信息,汇报本身及其所有的block信息,健康状况
A typical deployment has a dedicated machine that runs only
the NameNode software. Each of the other machines in the cluster runs one
instance of the DataNode software.
NameNode + N个DataNode
建议:NN和DN部署在不同的节点上
replication factor:副本系数、副本因子
HDFS环境搭建
使用版本:hadoop-2.6.0-cdh5.7.0
Hadoop伪分布式安装步骤
1) jdk安装
解压:tar –zxvf jdk-7u79-linux-x64.tar.gz –C
~/app
添加到系统环境变量:~/.bash_profile
export
JAVA_HOME=/home/hadoop/app/jdk1.7.0_79
eport
PATH=$JAVA_HOME/bin:$PATH
使得环境变量生效:source ~/.bash_profile
验证java是否配置成功:java –version
2) 安装ssh
sudo
yum install ssh
ssh-keygen
-t rsa
cp
~/.ssh/id_rsa.pub ~/.ssh/authorizes_keys
3) 下载并解压hadoop
下载:直接在cdh网站下载
解压:tar –zxvf Hadoop-2.6.0-cdh5.7.0.tar.gz –C ~/app
4) hadoop配置文件的修改(hadoop_home/etc/hadoop)
hadoop-evn.sh
export JAVA_HOME=/home/Hadoop/app/jdk1.7.0_79
core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop000:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/tmp</value>
</property>
hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
slaves(配置DN的个数)添加主机名称
5) 启动hfds
格式化文件系统(仅第一次执行即可,不要重复执行,在bin目录下执行,即在客户端执行):
hdfs
namenode –format
启动hdfs:sbin/start-dfs.sh
验证是否启动成功:
jps
DataNode
SecondaryNameNode
NameNode
浏览器访问方式:http://hadoop000:50070
6) 停止hdfs
sbin/stop-dfs.sh
将hadoop的bin目录配置到环境变量当中
vi ~/.bash_profile
export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0
export PATH=$HADOOP_HOME/bin:$PATH
环境变量生效:
source ~/.bash_profile
查看环境变量:
echo $HADOOP_HOME
hdfs常用操作命令:
hdfs dfs(hadoop fs) +
-ls + / 查看根目录下的文件和文件夹
-mkdir + /test 在根目录下创建test文件夹
-put 文件名 + /
将文件上传到根目录当中(拷贝文件)
-copyFromLocal hello.txt + /test/a/b/h.txt 将文件拷贝到指定路径中
-text(-cat) + /文件名 查看文件的内容
-mkdir –p + /test/a/b 递归创建文件夹
-lsr + / 递归展示文件夹(-ls –R + /)
-get + /test/a/b/h.txt 将文件拷贝到本地
-rm + /hello.txt 删除文件
-rm + -R /test 删除文件夹
初识hadoop之分布式文件系统(HDFS)的更多相关文章
- Hadoop 分布式文件系统 - HDFS
当数据集超过一个单独的物理计算机的存储能力时,便有必要将它分不到多个独立的计算机上.管理着跨计算机网络存储的文件系统称为分布式文件系统.Hadoop 的分布式文件系统称为 HDFS,它 是为 以流式数 ...
- Hadoop分布式文件系统--HDFS结构分析
转自:http://blog.csdn.net/androidlushangderen/article/details/47377543 HDFS系列:http://blog.csdn.net/And ...
- 【转载】Hadoop分布式文件系统HDFS的工作原理详述
转载请注明来自36大数据(36dsj.com):36大数据 » Hadoop分布式文件系统HDFS的工作原理详述 转注:读了这篇文章以后,觉得内容比较易懂,所以分享过来支持一下. Hadoop分布式文 ...
- 大数据 --> 分布式文件系统HDFS的工作原理
分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...
- 大数据技术原理与应用——分布式文件系统HDFS
分布式文件系统概述 相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用 ...
- 你想了解的分布式文件系统HDFS,看这一篇就够了
1.分布式文件系统 计算机集群结构 分布式文件系统把文件分布存储到多个节点(计算机)上,成千上万的计算机节点构成计算机集群. 分布式文件系统使用的计算机集群,其配置都是由普通硬件构成的,与用多个处理器 ...
- Hadoop分布式文件系统HDFS详解
Hadoop分布式文件系统即Hadoop Distributed FileSystem. 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(Partition)并 ...
- Hadoop分布式文件系统HDFS的工作原理
Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应 ...
- Hadoop分布式文件系统HDFS
HDFS的探究: HDFS HDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数 ...
随机推荐
- postman trigger xdebug session in phpstorm
phpstorm是一款非常棒的php开发调试工具,一般情况下我们使用firefox/chrome的bookmark,开启phpstorm debug侦听,随后点击start debugger, 我们就 ...
- javascript使用web proxy来实现ajax cross-domain通信
在现代浏览器中,都强加了对javacript代码的访问限制,比如一个页面的js无法向非同源的url实现ajax请求,获得数据.在这时,是浏览器端会报错: No 'Access-Control-Allo ...
- 重写UIImageView的image属性
重写UIImageView的image属性 效果: 当你重写了UIImageView的image属性后你就会对UIImageView怎么显示图片了如指掌了:) 源码: UIImageView.h + ...
- hbase shell基础和常用命令详解
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服 ...
- C#用ckplayer.js播放 MP4格式视频实现 边加载边播放
MVC设计模式下 在View页面里面使用ckplayer.js 加载视频 ,在MP4格式视频上传之后 我发现某些视频可以边加载边播放 但是有一些又不行,找了下原因是因为视频的元数据信息在第一帧的时候就 ...
- January 12 2017 Week 2 Thursday
Although it rains, throw not away your watering pot. 纵然天下雨,休把水壶丢. Don't throw away your watering pot ...
- [BZOJ 1552] 排序机械臂
Splay大法是坠吼滴! 1552: [Cerc2007]robotic sort Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 436 Solved: ...
- C# winform 数据库操作知识点总结(干货)
1.数据库连接及操作 在说数据库操作之前,先说一下数据库连接操作字符串的获取 首先,点击服务器资源管理器,接下来选中数据连接右键点击添加连接,填入你要连接的服务器名称,点击单选框使用SQL Serve ...
- E、CSL 的魔法 【模拟】 (“新智认知”杯上海高校程序设计竞赛暨第十七届上海大学程序设计春季联赛)
题目传送门:https://ac.nowcoder.com/acm/contest/551#question 题目描述 有两个长度为 n 的序列,a0,a1,…,an−1a0,a1,…,an−1和 b ...
- ethereumjs/ethereumjs-blockchain-1-简介和API
https://github.com/ethereumjs/ethereumjs-blockchain SYNOPSIS概要 A module to store and interact with b ...