Hadoop集群环境搭建(一)

1集群简介

HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起

HDFS集群：

负责海量数据的存储，集群中的角色主要有 NameNode / DataNode

YARN集群：

负责海量数据运算时的资源调度，集群中的角色主要有 ResourceManager /NodeManager

本集群搭建案例，以3节点为例进行搭建，角色分配如下：

hdp-node-01    NameNode  SecondaryNameNode ResourceManager

hdp-node-02    DataNode    NodeManager

hdp-node-03    DataNode    NodeManager

2服务器准备

本案例使用虚拟机服务器来搭建HADOOP集群，所用软件及版本：

▨ Vmware 12.0

▨ Centos 7.0 64bit

3网络环境准备

▨ 采用NAT方式联网

▨ 网关地址：192.168.33.1

▨ 3个服务器节点IP地址：192.168.33.101、192.168.33.102、192.168.33.103

▨ 子网掩码：255.255.255.0

4服务器系统设置

▨ 添加HADOOP用户

▨ 为HADOOP用户分配sudoer权限

▨ 同步时间

▨ 设置主机名

◈ hdp-node-01

◈ hdp-node-02

◈ hdp-node-03

▨ 配置内网域名映射：

◈ 192.168.33.101 hdp-node-01

◈ 192.168.33.102 hdp-node-02

◈ 192.168.33.103 hdp-node-03

▨ 配置ssh免密登陆

▨ 配置防火墙

5JDK环境安装

▨ 上传jdk安装包

▨ 规划安装目录 /home/hadoop/apps/jdk_1.7.65

▨ 解压安装包

▨ 配置环境变量 /etc/profile

6HADOOP安装部署

▨ 上传HADOOP安装包

▨ 规划安装目录 /home/hadoop/apps/hadoop-2.6.5

▨ 解压安装包 tar –zxvf hadoop-2.6.5 –C apps/

▨ 修改配置文件 $HADOOP_HOME/etc/hadoop/

最简化配置如下：

vi hadoop-env.sh

# The java implementation to use.

export JAVA_HOME=/home/hadoop/apps/jdk1.7.0_45

vi core-site.xml

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://hdp-node-01:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/HADOOP/apps/hadoop-2.6.5/tmp</value>

</property>

</configuration>

vi hdfs-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.secondary.http.address</name>

<value>hdp-node-01:50090</value>

</property>

</configuration>

vi mapred-site.xml

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

vi yarn-site.xml

<configuration>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop01</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

vi salves

hdp-node-02

hdp-node-03

7启动集群

初始化HDFS

bin/hadoop  namenode  -format

启动HDFS

sbin/start-dfs.sh

启动YARN

sbin/start-yarn.sh

查看集群状态

jps

bin/hdfs dfsadmin -report

8测试——运行一个mapreduce程序

在HADOOP安装目录下，运行一个示例mr程序

cd $HADOOP_HOME/share/hadoop/mapreduce/

hadoop jar mapredcue-example-2.6.5.jar wordcount /wordcount/input  /wordcount/output

9HDFS使用

1、查看集群状态

命令： hdfs dfsadmin –report

可以看出，集群共有3个datanode可用

也可打开web控制台查看HDFS集群信息，在浏览器打开http://hdp-node-01:50070/

2、上传文件到HDFS

▣ 查看HDFS中的目录信息

命令： hadoop fs –ls /

▣ 上传文件

命令： hadoop fs -put ./ scala-2.10.6.tgz to /

HDFS集群和YARN集群的更多相关文章

第1节 HUE：14、15、16、hue与hdfs、yarn集群、hive、impala、mysql的整合
3.hue与其他框架的集成 3.1.hue与hadoop的HDFS以及yarn集成第一步:更改所有hadoop节点的core-site.xml配置记得更改完core-site.xml之后一定要重启 ...
Yarn篇--搭建yarn集群
一.前述有了上次hadoop集群的搭建,搭建yarn就简单多了.废话不多说,直接来二.规划三.配置如下 yarn-site.xml配置 <property> <n ...
Yarn集群的搭建、Yarn的架构和WordCount程序在集群提交方式
一.Yarn集群概述及搭建 1.Mapreduce程序运行在多台机器的集群上,而且在运行是要使用很多maptask和reducertask,这个过程中需要一个自动化任务调度平台来调度任务,分配资源,这 ...
YARN集群的mapreduce测试（六）
两张表链接操作(分布式缓存): ----------------------------------假设:其中一张A表,只有20条数据记录(比如group表)另外一张非常大,上亿的记录数量(比如use ...
YARN集群的mapreduce测试（五）
将user表计算后的结果分区存储测试准备: 首先同步时间,然后master先开启hdfs集群,再开启yarn集群:用jps查看: master上: 先有NameNode.SecondaryNameN ...
YARN集群的mapreduce测试（四）
将手机用户使用流量的数据进行分组,排序: 测试准备: 首先同步时间,然后master先开启hdfs集群,再开启yarn集群:用jps查看: master上: 先有NameNode.SecondaryN ...
YARN集群的mapreduce测试（三）
将user表.group表.order表关:(类似于多表关联查询) 测试准备: 首先同步时间,然后开启hdfs集群,开启yarn集群:在本地"/home/hadoop/test/" ...
YARN集群的mapreduce测试（二）
只有mapTask任务没有reduceTask的情况: 测试准备: 首先同步时间,然后开启hdfs集群,开启yarn集群:在本地"/home/hadoop/test/"目录创建u ...
YARN集群的mapreduce测试（一）
hadoop集群搭建中配置了mapreduce的别名是yarn [hadoop@master01 hadoop]$ mv mapred-site.xml.template mapred-site.xm ...

随机推荐

Linux系统运维基础测试题
1 Linux运维基础测试题(第一关) 通过这段时间学习Linux基础命令,为了检测自己对Linux基础命令掌握的情况,从网上整理13到测试题,并将其整理出来供大家参考学习. 1.1 习题 ...
配置p6spyLog输出sql完整日志
第一步: 配置maven <dependency> <groupid>p6spy</groupid> <artifactid>p6spy< ...
jquery把数组中年月相同的数组重新组成新的数组
//原数组var data = { results: [{ id:0, date:'2017-12-12', content:'123' },{ id:0, date:'2017-12-12', co ...
Could not obtain transaction-synchronized Session for current thread 错误的解决方法！
BsTable bsTable = new BsTable(); // String time = request.getParameter("date"); String tim ...
eclipse全选包
按住shift键,点击第一个jar包,然后点击最后一个jar包,就全选了所有jar包,然后添加build path 添加到类路径
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
Awakening Your Senses【唤醒你的感觉官能】
Awakening Your Senses Give youself a test. Which way is the wind blowing? How many kinds of wildflow ...
Kubernetes-apiserver
Kubernetes API服务器为API对象验证和配置数据,这些对象包含Pod.Service.ReplicationController等等.API Server提供REST操作以及前端到集群的共 ...
Win10正式版激活
参考:https://jingyan.baidu.com/article/47a29f2457af76c015239942.html https://jingyan.baidu.com/article ...
python2.7练习小例子（六）
6):题目:斐波那契数列. 程序分析:斐波那契数列(Fibonacci sequence),又称黄金分割数列,指的是这样一个数列:0.1.1.2.3.5.8.13.21.34.……. ...

HDFS集群和YARN集群