当前集群 主机名称 IP地址 角色 统一安装目录 统一安装用户 sht-sgmhadoopnn-01 172.16.101.55 namenode,resourcemanager /usr/local/hadoop(软连接) /usr/local/hadoop-2.7.4 /usr/local/zookeeper(软连接) /usr/local/zookeeper-3.4.9 root sht-sgmhadoopnn-02 172.16.101.56 namenode,resourcemanag…
当前集群 主机名称 IP地址 角色 统一安装目录 统一安装用户 sht-sgmhadoopnn-01 172.16.101.55 namenode,resourcemanager /usr/local/hadoop(软连接) /usr/local/hadoop-2.7.4 /usr/local/zookeeper(软连接) /usr/local/zookeeper-3.4.9 root sht-sgmhadoopnn-02 172.16.101.56 namenode,resourcemanag…
实验环境 主机名称 IP地址 角色 统一安装目录 统一安装用户 sht-sgmhadoopnn-01 172.16.101.55 namenode,resourcemanager /usr/local/hadoop(软连接) /usr/local/hadoop-2.7.4 /usr/local/zookeeper(软连接) /usr/local/zookeeper-3.4.9 root sht-sgmhadoopnn-02 172.16.101.56 namenode,resourcemanag…
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 由于NameNode对于整个HDFS集群重要性,为避免NameNode单点故障,在集群里创建2个或以上NameNode(不要超过5个),保证高可用. 实现主备NameNode需要解决的问题:1.通过JournalNodes来保证Active NN与Standby NN之间的元数据同步 2.通过ZKFC来保证Active NN与Sta…
Hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作.在hadoop1时代,只有一个NameNode.如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了.这是hadoop1中的单点问题,也是hadoop1不可靠的表现.hadoop2就解决了这个问题. hadoop2.2.0中HDFS的高可靠指的是可以同时启动2个NameNode.其中一个处于工作状态,另一个处于随时待命状态.这样,当一个NameNode所在的服务器宕机时,可以在数据不丢失的情况下,手工或…
集群测试 上传小文件到集群,随便选择一个小文件上传到hdfs的根目录 [shaozhiqi@hadoop102 hadoop-3.1.2]$ bin/hdfs dfs -put wcinput/wc.input / [shaozhiqi@hadoop102 hadoop-3.1.2]$ 验证是否上传成功,验证ok,Replication的3代表三个副本数 image.png 上传一个大文件如我们的hadoop安装包 [shaozhiqi@hadoop102 hadoop-3.1.2]$ bin/…
使用CDH 5.13.1部署了HADOOP集群之后,需要进行基准性能测试. 一.hibench 安装 1.安装位置要求. 因为是全量安装,其中有SPARK的测试(SPARK2.0). 安装位置在SPARK 服务所在的节点上面. 下载hibench编译好的包与manve的包 hibench全部编译 mvn -Dspark=2.1 -Dscala=2.11 clean package 注:hibench目录中运行 编译好的包,可以在整个集群通用.直接 复制环境变量与安装目录 2.配置环境变量 exp…
前言 前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群.接下来这篇我详细的分享一下HDFS. HDFS前言: 设计思想:(分而治之)将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析. 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务. 分布式文件系统: 问题引发:海量数据超过了单台物理计算机的存储能力 解决方案:对数据分区存储与若干台物…
使用QJM实现HDFS的HA配置 1.背景 hadoop 2.0.0之前,namenode存在单点故障问题(SPOF,single point of failure),如果主机或进程不可用时,整个集群就变得不可用,直到namenode进行重启或产生新的namenode.主要有两种方式会影响到HDFS集群: 不可预期事件比如机器宕机,集群变得不可用直到操作人员重启namenode. 可预期事件比如软硬件升级也会导致集群的下线. HDFS的高可用特性解决了以上两个问题,通过在一个集群中运行两个冗余的…
HDFS的HA(高可用) 概述 (1)实现高可用最关键的策略是[消除单点故障].HA 严格来说应该分成各个组件的 HA 机制:HDFS 的 HA 和 YARN 的 HA. (2)Hadoop2.0 之前,在 HDFS 集群中 NameNode 存在单点故障(SPOF). (3)NameNode 主要在以下两个方面影响 HDFS 集群: a)NameNode 机器发生意外,如宕机,集群将无法使用,直到管理员重启 b)NameNode 机器需要升级,包括软件.硬件升级,此时集群也将无法使用 HDFS…