一个执着于技术的公众号

前言

今天来为粉丝圆梦啦

话不多说,咱直接进入实战环节

实验环境:

主机名        IP地址                 角色

qll251       192.168.1.251   NameNode 
qll252       192.168.1.252   DataNode1 
qll253       192.168.1.253   DataNode2

所需软件包:

  • hadoop-2.9.2.tar.gz

  • jdk-8u241-linux-x64.tar.gz

软件包下载地址:

Hadoop软件包官方下载地址:

https://hadoop.apache.org/releases.html

【今天我们以2.9.2版本为例,搭建出一套Hadoop大数据集群】

jdk软件包官方下载地址:

https://www.oracle.com/java/technologies/javase-jdk8-downloads.html

开始搭建

[本次实验,三台机器操作系统均采用CentOS7.5,同时关闭防火墙、关闭selinux]

1、在qll251上配置免密登录

配置在qll251上,可以ssh无密码登录qll251,qll252,qll253

[root@qll251 ~]# ssh-keygen    //一路回车即可
[root@qll251 ~]#ssh-copy-id root@192.168.1.251
[root@qll251 ~]#ssh-copy-id root@192.168.1.252
[root@qll251 ~]#ssh-copy-id root@192.168.1.253

2、三台机器上配置hosts文件,如下:

1)首先在192.168.1.251主机配置hosts

2)复制hosts到其它两机器:

[root@qll251 ~]# scp /etc/hosts root@192.168.1.252:/etc
[root@qll251 ~]# scp /etc/hosts root@192.168.1.253:/etc

注意:

在/etc/hosts中,不要把机器名字同时对应到127.0.0.1这个地址,否则会导致数据节点连接不上namenode,报错如下:

org.apache.hadoop.ipc.Client:Retrying connect to server: master/192.168.1.251:9000 

3、在三台节点上创建运行Hadoop用户

useradd -u 8000 hadoop
echo 123123 | passwd --stdin hadoop

注意:三台节点都需要创建hadoop用户,保持UID一致。

4、在三台节点上安装Java环境 JDK

1)我们先在qll251主机上配置jdk环境

【把 jdk-8u241-linux-x64.tar.gz 上传至/home下】

[root@qll251 home]# tar -zxvf jdk-8u241-linux-x64.tar.gz -C /usr/local
# 将jdk解压至/usr/local/下

2)配置jdk环境变量

# 编辑 /etc/profile,在文件最后添加以下内容:
export JAVA_HOME=/usr/local/jdk1.8.0_241
export JAVA_BIN=/usr/local/jdk1.8.0_241/bin
export PATH=${JAVA_HOME}/bin:$PATH
export CLASSPATH=.:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar

3)执行:

source /etc/profile    #使配置文件生效

java -version    #验证java运行环境是否安装成功

4)将jdk部署到另外两台机器上

[root@qll251 ~]# scp -r /usr/local/jdk1.8.0_241/ qll252:/usr/local
[root@qll251 ~]# scp -r /usr/local/jdk1.8.0_241/ qll253:/usr/local [root@qll251 ~]# scp /etc/profile qll252:/etc/
[root@qll251 ~]# scp /etc/profile qll253:/etc/

使新建立的环境变量立刻生效

[root@qll252 ~]# source /etc/profile
[root@qll253 ~]# source /etc/profile

4、在qll251安装Hadoop 并创建相应的工作目录

1)解压Hadoop安装文件

【把 jdk-8u241-linux-x64.tar.gz 上传至/home下】

[root@qll251 home]# tar -zxf hadoop-2.9.2.tar.gz -C /home/hadoop/
#我们把Hadoop的安装目录解压在:/home/hadoop/hadoop-2.9.2

2)创建hadoop相关的工作目录

[root@qll251 ~]# mkdir -p /home/hadoop/tmp  /home/hadoop/dfs/{name,data}

5、在qll251节点配置Hadoop

配置文件位置:/home/hadoop/hadoop-2.9.2/etc/hadoop

一共需要修改7个配置文件:

1)hadoop-env.sh,指定hadoop的java运行环境

该文件是hadoop运行基本环境的配置,需要修改的为java虚拟机的位置。

2)yarn-env.sh,指定yarn框架的java运行环境

该文件是yarn框架运行环境的配置,同样需要修改java虚拟机的位置。

3)配置文件slaves ,指定datanode 数据存储服务器

将所有DataNode的名字写入此文件中,每个主机名一行,配置如下:

4)配置文件core-site.xml,指定访问hadoop web界面访问路径

hadoop的核心配置文件,这里需要配置两个属性,fs.default.FS配置了hadoop的HDFS系统的命名,位置为主机的9000端口;

hadoop.tmp.dir配置了hadoop的tmp目录的根位置。

提供下源代码:

<property>
<name>fs.defaultFS</name>
<value>hdfs://qll251:9000</value>
</property> <property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property> <property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
 </property>

5)配置文件hdfs-site.xml

hdfs的配置文件,dfs.http.address配置了hdfs的http的访问位置;

dfs.replication配置了文件块的副本数,一般不大于从机的个数。

提供下源代码:

  <property>
<name>dfs.namenode.secondary.http-address</name>
<value>qll251:9001</value>
</property> <property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop/dfs/data</value>
</property> <property>
<name>dfs.replication</name>
<value>2</value>
</property> <property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
 </property>

6)配置文件mapred-site.xml

mapreduce任务的配置,由于hadoop2.x使用了yarn框架,所以要实现分布式部署,必须在mapreduce.framework.name属性下配置为yarn。mapred.map.tasks和mapred.reduce.tasks分别为map和reduce的任务数。

# 生成mapred-site.xml
[root@qll251 hadoop]# cp mapred-site.xml.template mapred-site.xml

提供下源代码:

 <property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property> <property>
<name>mapreduce.jobhistory.address</name>
<value>qll251:10020</value>
</property> <property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>qll251:19888</value>
</property>

7)配置节点yarn-site.xml

该文件为yarn框架的配置,主要是一些任务的启动位置

提供下源代码:

 <property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property> <property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property> <property>
<name>yarn.resourcemanager.address</name>
<value>qll251:8032</value>
</property> <property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>qll251:8030</value>
</property> <property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>qll251:8031</value>
</property> <property>
<name>yarn.resourcemanager.admin.address</name>
<value>qll251:8033</value>
</property> <property>
<name>yarn.resourcemanager.webapp.address</name>
<value>qll251:8088</value>
 </property>

6、修改hadoop安装文件的所属者及所属组

[root@qll251]# chown -R hadoop.hadoop /home/hadoop

7、设置qll251主机上的hadoop普通用户免密登录

生成基于hadoop用户的不输入密码登录:因为后期使用hadoop用户启动datenode节点需要直接登录到对应的服务器上启动datenode相关服务

# step 1:切换hadoop用户
[root@qll251 ~]# su - hadoop
[hadoop@qll251 ~]$ # step 2:创建密钥文件
[hadoop@qll251 ~]$ ssh-keygen # step 3:将公钥分别copy至qll251,qll252,qll253
[hadoop@qll251 ~]$ ssh-copy-id hadoop@qll251
[hadoop@qll251 ~]$ ssh-copy-id hadoop@qll252
[hadoop@qll251 ~]$ ssh-copy-id hadoop@qll253

8、将hadoop安装文件复制到其他DateNode节点

[root@qll251 ~]# su - hadoop
[hadoop@qll251 ~]$
[hadoop@qll251 ~]$ scp -r /home/hadoop/hadoop-2.9.2/ hadoop@qll252:~/
[hadoop@qll251 ~]$ scp -r /home/hadoop/hadoop-2.9.2/ hadoop@qll253:~/

9、qll251上启动Hadoop

1)格式化namenode

首先切换到hadoop用户,执行hadoop namenode的初始化,只需要第一次的时候初始化,之后就不需要了。

如果所示,format成功

我们查看下格式化后生成的文件吧;

2)启动hdfs:./sbin/start-dfs.sh,即启动HDFS分布式存储

3)启动yarn:./sbin/start-yarn.sh  即,启动分布式计算

注意:

其实我们也可以使用 start-all.sh脚本依次启动HDFS分布式存储分布式计算

/home/hadoop/hadoop-2.9.2/sbin/start-all.sh #启动脚本
/home/hadoop/hadoop-2.9.2/sbin/stop-all.sh # 关闭脚本

4启动历史服务

Hadoop自带历史服务器,可通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Hadoop历史服务器

开启后,可以通过Web页面查看历史服务器:
http://192.168.1.251:19888

10、我们验证下搭建的集群服务运行是否正常

1)查看HDFS分布式文件系统状态:

2)Web查看HDFS:    http://192.168.1.251:50070

3)Web查看hadoop集群状态:   http://192.168.1.251:8088 

4)Web查看历史服务器:http://192.168.1.251:

总结

本文的思路是:以安装部署Apache Hadoop2.x版本为主线,来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的,通过安装认识Hadoop才是目的。

  往期精彩

◆  干货 | 手把手教你如何搭建一个私有云盘

◆  干货 | Linux平台搭建网关服务器

◆  干货 | Linux主流发行版配置IP总结

◆  硬核科普服务器硬盘组成与基本原理

◆  一文带你速懂虚拟化KVM和XEN

◆  什么是集群?看完这篇你就知道啦!

实战|Hadoop大数据集群搭建的更多相关文章

  1. Ambari2.6.2 HDP2.6.5 大数据集群搭建

    Ambari 2.6.2 中 HDFS-2.7.3 YARN-2.7.3 HIVE-1.2.1 HBASE-1.1.2 ZOOKEEPER-3.4.6 SPARK-2.3.0 注:本文基于root用户 ...

  2. Docker搭建大数据集群 Hadoop Spark HBase Hive Zookeeper Scala

    Docker搭建大数据集群 给出一个完全分布式hadoop+spark集群搭建完整文档,从环境准备(包括机器名,ip映射步骤,ssh免密,Java等)开始,包括zookeeper,hadoop,hiv ...

  3. CDH版本大数据集群下搭建Hue(hadoop-2.6.0-cdh5.5.4.gz + hue-3.9.0-cdh5.5.4.tar.gz)(博主推荐)

    不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...

  4. Ubuntu14.04下Ambari安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐)

    不多说,直接上干货! 写在前面的话 (1) 最近一段时间,因担任我团队实验室的大数据环境集群真实物理机器工作,至此,本人秉持负责.认真和细心的态度,先分别在虚拟机上模拟搭建ambari(基于CentO ...

  5. CDH版本大数据集群下搭建的Hue详细启动步骤(图文详解)

    关于安装请见 CDH版本大数据集群下搭建Hue(hadoop-2.6.0-cdh5.5.4.gz + hue-3.9.0-cdh5.5.4.tar.gz)(博主推荐) Hue的启动 也就是说,你Hue ...

  6. 基于Docker搭建大数据集群(六)Hive搭建

    基于Docker搭建大数据集群(六)Hive搭建 前言 之前搭建的都是1.x版本,这次搭建的是hive3.1.2版本的..还是有一点细节不一样的 Hive现在解析引擎可以选择spark,我是用spar ...

  7. Ubuntu14.04下Cloudera安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐)(在线或离线)

    第一步: Cloudera Manager安装之Cloudera Manager安装前准备(Ubuntu14.04)(一) 第二步: Cloudera Manager安装之时间服务器和时间客户端(Ub ...

  8. 关于在真实物理机器上用cloudermanger或ambari搭建大数据集群注意事项总结、经验和感悟心得(图文详解)

    写在前面的话 (1) 最近一段时间,因担任我团队实验室的大数据环境集群真实物理机器工作,至此,本人秉持负责.认真和细心的态度,先分别在虚拟机上模拟搭建ambari(基于CentOS6.5版本)和clo ...

  9. 基于Docker搭建大数据集群(七)Hbase部署

    基于Docker搭建大数据集群(七)Hbase搭建 一.安装包准备 Hbase官网下载 微云下载 | 在 tar 目录下 二.版本兼容 三.角色分配 节点 Master Regionserver cl ...

随机推荐

  1. 在虚拟机里面运行java程序

    首先输入vi在里面写一个java程序 然后再查找jdk 复制jdk名字 然后安装jdk 安装完之后输入Javac加你创建的文件名 然后再输入Java 和文件名(这个不要加后缀)然后就打印出来了

  2. 『现学现忘』Docker基础 — 37、ONBUILD指令介绍

    目录 1.ONBUILD指令说明 2.演示ONBUILD指令的使用 3.补充:crul命令解释 1.ONBUILD指令说明 ONBUILD是一个特殊的指令,它后面跟的是其它指令,比如 RUN, COP ...

  3. 【Linux-vim】vim文件:查看某几行,把某几行复制到另一个文件中

    一.查看文件的某几行1.使用cat命令(1)查看文件的前10行: cat filename |head -n 10(2)查看文件后10行: cat filename |tail -n 10(3)查看文 ...

  4. 一次关于关系抽取(RE)综述调研的交流心得

    本文来自于一次交流的的记录,{}内的为个人体会. 基本概念 实事知识:实体-关系-实体的三元组.比如, 知识图谱:大量实时知识组织在一起,可以构建成知识图谱. 关系抽取:由于文本中蕴含大量事实知识,需 ...

  5. Codepen 每日精选(2018-3-24)

    按下右侧的"点击预览"按钮可以在当前页面预览,点击链接可以打开原始页面. 纯 css 画的抽象小鸟https://codepen.io/gregoryb/f... 纯 css 制作 ...

  6. python-人物风云榜(实现排名)

    Description 又到了云之国一年一度的任务风云榜更新的大日子了.给出每个人风云力数值,需要你给出每个人的排名.注意,排名存在并列的情况. Input 一共有 22 行.第一行一个整数 n ,表 ...

  7. python爬虫---虎牙直播封面采集

    代码: import requests from lxml import etree # html解析库 source = requests.get("https://www.huya.co ...

  8. java静态方法和实例方法的区别

    静态方法(方法前冠以static)和实例方法(前面未冠以static)的区别  调用静态方法或说类方法时,可以使用类名做前缀,也可以使用某一个具体的对象名:通常使用类名.static方法只能处理sta ...

  9. java中请给出例子程序:找出两个数的最大公约数和最小公倍数

    9.2 找出12和8的最大公约数和最小公倍数.     public class Test {     public static void main(String[] args) {         ...

  10. spring总览

    Spring 概述 1. 什么是spring? Spring 是个java企业级应用的开源开发框架.Spring主要用来开发Java应用,但是有些扩展是针对构建J2EE平台的web应用.Spring  ...