HDFS核心设计

一、HDFS核心设计

　　数据块（block）

　　　　数据块是HDFS上最基本的存储单位

　　　　HDFS块默认大小为128M

　　对块进行抽象会带来的好处

　　　　　　一个小文件的大小可以大于网络中任意一个磁盘的容量

　　　　　　使用块抽象而不是文件可以简化存储子系统

　　　　　　块非常适合用于数据备份进而提供数据容错能力和可用性

　　数据块复制

　　　　HDFS为了做到可靠性创建多分数据块，MapReduce就可以在他们所在节点上处理这些数据了

　　　　HDFS将每个文件存储成块序列

　　　　每个文件的block大小和复制因子都是可配置的 HDFS-site.xml

　　数据副本的存放策略

　　　　数据分块存储和副本的存放，是保证可靠性和高性能的关键

　　　　将每个文件的数据进行分块存储

　　　　　　每一个数据块又保存有多个副本

　　　　　　这些数据块副本分布在不同的机器节点上

　　　　在多数情况下，HDFS默认的副本系数是3

　　　　Hadoop默认对3个副本的存放策略

　　　　　　第一块:在本机器的HDFS目录下存储一个block

　　　　　　第二块：在不同rack（机架）的某个DataNode上存储一个block

　　　　　　第三块：在该机器的同一个rack下的某台机器上存储最后一个block

　　　　　　更多副本：随机节点

　　　　设置集群block的备份数

　　　　　　方法一：配置文件hdfs-site.xml

　　　　　　方法二：通过命令修改备份数

　　　　　　　　bin/hadoop fs -setrep -R 1 /

　　　　安全模式

　　　　　　安全模式是Hadoop集群的一种保护模式

　　　　　　用命令来操作安全模式

　　　　　　　　Hadoop dfsadmin -safemode leave //强制NameNode退出安全模式

　　　　　　　　Hadoop dfsadmin -safemode enter //进入安全模式

　　　　　　　　Hadoop dfsadmin -safemode get //查看安全模式状态

　　　　　　　　Hadoop dfsadmin -safemode wait //等待，一直到安全模式结束

　　　　负载均衡

　　　　　　机器和机器之间磁盘利用率不平衡HDFS集群非常容易出现的情况

　　　　　　　　尤其是在DataNode节点出现故障或在现有的集群上增添新的DataNode的时候

　　　　　　分析数据块分布和重新均衡DataNode上的数据分布的工具

　　　　　　　　$HADOOP_HOME/bin/start-balancer.sh -t 10%

　　　　　　负载均衡程序作为一个与独立的进程namenode进程分开执行

　　　　　　心跳机制

　　　　　　机架感知

　　　　　　　　大型Hadoop集群是以机架的形式来组织的

　　　　　　　　　　同一个机架上不同节点间的网络状况比不同机架之间的更为理想

　　　　　　　　默认情况下，Hadoop的机架感知是没有被启用的

　　　　　　　　　　启用机架感知功能，在namenode所在机器的core-site.xml中配置一个选项

HDFS核心设计的更多相关文章

1）HDFS分布式文件系统 2）HDFS核心设计 3 ）HDFS体系结构
一.HDFS简介 1.HDFS:Hadoop distributed file system 一个分布式文件系统基于流数据模式访问和处理超大文件的需要而开发适合应用在大规模数据集上 2. 优点处 ...
Hadoop2源码分析－HDFS核心模块分析
1.概述这篇博客接着<Hadoop2源码分析-RPC机制初识>来讲述,前面我们对MapReduce.序列化.RPC进行了分析和探索,对Hadoop V2的这些模块都有了大致的了解,通过对 ...
HDFS架构设计
原文:http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html 介绍 HDFS是个分布式 ...
HDFS 核心原理
HDFS 核心原理 2016-01-11 杜亦舒 HDFS(Hadoop Distribute File System)是一个分布式文件系统文件系统是操作系统提供的磁盘空间管理服务,只需要我们指定把文 ...
大数据技术 - 分布式文件系统 HDFS 的设计
本章内容介绍下 Hadoop 自带的分布式文件系统,HDFS 即 Hadoop Distributed Filesystem.HDFS 能够存储超大文件,可以部署在廉价的服务器上,适合一次写入多次读取 ...
HDFS的设计
当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统成为分布式文件系统(distribute ...
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件.它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的.为了容错,文件的所有数据块都会有副本.每个文件的数据块大小和副本 ...
2本Hadoop技术内幕电子书百度网盘下载：深入理解MapReduce架构设计与实现原理、深入解析Hadoop Common和HDFS架构设计与实现原理
这是我收集的两本关于Hadoop的书,高清PDF版,在此和大家分享: 1.<Hadoop技术内幕:深入理解MapReduce架构设计与实现原理>董西成著机械工业出版社2013年5月出 ...
大数据：Hadoop（HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略）
一.HDFS 的设计思路 1)思路切分数据,并进行多副本存储: 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题缺点不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处 ...

随机推荐

【K8S学习笔记】Part1：使用端口转发访问集群内的应用
本文介绍如何使用kubectl port-forward命令连接K8S集群中运行的Redis服务.这种连接方式有助于数据库的调试工作. 注意:本文针对K8S的版本号为v1.9,其他版本可能会有少许不同 ...
【React 资料备份】React v16.3之后的生命周期
React v16.4 的生命周期图 React v16.4 的生命周期变更缘由原来(React v16.0前)的生命周期在React v16推出的Fiber之后就不合适了,因为如果要开启asyn ...
撩课-Web大前端每天5道面试题-Day31
1.web storage和cookie的区别? Web Storage的概念和cookie相似, 区别是它是为了更大容量存储设计的. Cookie的大小是受限的, 并且每次你请求一个新的页面的时候C ...
LINQ to Objects系列(3)深入理解Lambda表达式
Lambda表达式是学好LINQ很重要的一个知识点,后面的LINQ查询中会大量地使用到Lambda表达式.这篇文章从以下几点进行总结. 1,Lambda表达式的前世今生 2,Lambda表达式的实际运 ...
步步深入MySQL：架构->查询执行流程->SQL解析顺序！
一.前言一直是想知道一条SQL语句是怎么被执行的,它执行的顺序是怎样的,然后查看总结各方资料,就有了下面这一篇博文了. 本文将从MySQL总体架构--->查询执行流程--->语句执行顺序 ...
C#连接Oracle方式
1.在web.config或者app.config文件中,不会像连接SqlServer的格式那样,直接把账号密码写入就可以了 C#是微软的,oracle是Oracle公司做出来的,两家是对立的,都懂得 ...
设计模式之单例模式（Singleton）（1）
单例模式是一种比较简单的设计模式,简单来说,就是确保一个类只有一个实例,而且自行实例化并向整个系统提供这个实例. 单例模式特点: 1)单例类只能有一个实例. 2)单例类必须自己创建自己的唯一实例. 3 ...
cakephp搭建配置完成后怎么关闭cake标识
在新搭建好cakephp矿建时,准备开发的时候我们会发现页面上有cakephp的标识,影响美观,和开发任务.那么怎么去掉呢? 1.找到FrontDesk\app\View\Layouts\defaul ...
js点击获取标签元素
14.数组去重方法一:利用冒泡 function elementName(evt){ evt = evt|| window.event; // IE: window.event // IE用src ...
drupal7 获取profile2模块自定义字段的值
$user=user_load($uid); $student=profile2_load_by_user($user,'student'); 这个函数官方有文档,通过用户对象返回用户的profile ...

HDFS核心设计

HDFS核心设计的更多相关文章

随机推荐

热门专题