Mac-搭建Hadoop集群

You have to work very hard to believe that you are really powerless.

Mac-搭建Hadoop集群

我用到了：VMware Fusion、CentOS7、FileZilla、jdk-8u181-linux-x64.tar.gz和hadoop-2.7.6.tar.gz

1、集群部署规划

NameNode单点部署：

节点名称	NN1	NN2	DN	RM	NM	规划IP	other
tjt01	NameNode		DataNode		NodeManager	172.16.114.130	hive/hdfs
tjt02		SecondaryNameNode	DataNode	ResourceManager	NodeManager	172.16.114.131	hbase/kms
tjt03			DataNode		NodeManager	172.16.114.132	mysql/spark

2、三台客户机相关准备

2.1、安装VMware虚拟机

在虚拟机中安装CentOS镜像，由初始安装的CentOS7版本的镜像，完整克隆出另外两台虚拟机

2.2、修改主机名

[root@tjt01 tjt]# vi /etc/hostname

分别修改三台虚拟机主机名：tjt01、tjt02、tjt03

2.3、修改host文件

配置主机host：

[root@tjt01 tjt]# vi /etc/hosts

将配置发送到其他的主机，同时在其他主机上配置：

scp -r /etc/hosts root@tjt02:/etc/

scp -r /etc/hosts root@tjt03:/etc/

测试host文件修改结果：

ping tjt01

ping tjt02

ping tjt03

2.4、设置SSH免密登录

每两台主机之间设置免密码，自己的主机与自己的主机之间也要求设置免密码；

输入：ssh-keygen -t rsa

然后按下四次回车，之后在把密匙发到其他主机上，输入：ssh-copy-id tjt01 并按提示输入密码，然后是ssh-copy-id 02和ssh-copy-id 03同样的操作；

之后，在另外两台虚拟机上也执行相同的步骤：

ssh-keygen -t rsa

ssh-copy-id tjt01

ssh-copy-id tjt02

ssh-copy-id tjt03

测试SSH免密登录：

ssh tjt01、ssh tjt02、ssh tjt03

2.5、安装配置JDK

虚拟机默认安装了一个openjdk，卸载掉：

rpm -qa | grep jdk

可以查看已经安装了的openjdk

yum remove *openjdk*

干掉openjdk

yum remove copy-jdk-configs-3.3-.el7_5.noarch

干掉jdk-configs

将JDK安装包上传到/opt下，可以通过XShell的rz上传，也可以用FileZilla：

到/opt 目录下解压：tar xzvf jdk-8u181-linux-x64.tar.gz

设置JAVA_HOME：

输入：vi /etc/profile，在profile文件中的编辑模式下加上下方export配置：

export JAVA_HOME=/opt/jdk1..0_181

export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/sbin

修改好之后使文件生效：source /etc/profile

复制JDK到另外两个节点：

在这之前要先把另外两台虚拟机上的openjdk也干掉：

yum remove *openjdk*

yum remove copy-jdk-configs-3.3-.el7_5.noarch

然后复制jdk到另外两个虚拟机上：

scp -r /opt/jdk1..0_181 root@tjt02:/opt/

scp -r /opt/jdk1..0_181 root@tjt03:/opt/

向其他节点复制profile文件：

scp /etc/profile root@tjt02:/etc/

scp /etc/profile root@tjt03:/etc/

然后每个节点分别执行 source /etc/profile ，使profile生效下，并通过java-version简单测试下，jdk复制是否成功：

tjt02:

tjt03:

3、安装Hadoop

3.1、上传并解压Hadoop

解压：tar zxvf hadoop-2.7.6.tar.gz

3.2、搭建Hadoop集群

配置文件在hadoop2.7.6/etc/hadoop/下，修改设置hadoop2.7.6目录下的可执行权限

3.2.1、修改 core-site.xml

[root@tjt01 hadoop]# vi core-site.xml

然后在core-site.xml文件中编辑如下：

<!-- 指定HDFS中NameNode的地址 -->

     <property>

     <name>fs.defaultFS</name>

         <value>hdfs://tjt01:9000</value>

     </property>

<!-- 指定hadoop运行时产生文件的存储目录 --> <property>

     <name>hadoop.tmp.dir</name>

     <value>/opt/hadoop-2.7./data/full/tmp</value>

     </property>

3.2.2、修改hadoop-env.sh

[root@tjt01 hadoop]# vi hadoop-env.sh

修改JAVA_HOME：

3.2.3 修改hdfs-site.xml

[root@tjt01 hadoop]# vi hdfs-site.xml

修改 hdfs-site.xml 的配置如下：

<configuration> 

<!-- 设置dfs副本数，不设置默认是3个 -->

    <property>

        <name>dfs.replication</name>

        <value></value>

</property> 

<!-- 设置secondname的端口 -->

<property>

  <name>dfs.namenode.secondary.http-address</name>

        <value>tjt02:</value>

    </property>

</configuration>

3.2.4 修改 slaves

[root@tjt01 hadoop]# vi slaves

增加slaves 配置如下：

tjt01

tjt02

tjt03

3.2.5 修改mapred-env.sh

[root@tjt01 hadoop]# vi mapred-env.sh

修改其JAVA_HOME如下：

export JAVA_HOME=/opt/jdk1..0_181

3.2.6 修改mapred-site.xml

[root@tjt01 hadoop]# mv mapred-site.xml.template mapred-site.xml

[root@tjt01 hadoop]# vi mapred-site.xml

修改其configuration如下：

<configuration>

<!-- 指定mr运行在yarn上 -->

    <property>

     <name>mapreduce.framework.name</name>

     <value>yarn</value>

    </property>

</configuration>

3.2.7 修改yarn-env.sh

[root@tjt01 hadoop]# vi yarn-env.sh

修改其JAVA_HOME如下：

export JAVA_HOME=/opt/jdk1..0_181

3.2.8 修改yarn-site.xml

[root@tjt01 hadoop]# vi yarn-site.xml

修改配置如下：

<configuration>

<!-- reducer获取数据的方式 -->

<property>

 <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

     </property>

<!-- 指定YARN的ResourceManager的地址 --> 
<property>

        <name>yarn.resourcemanager.hostname</name>

        <value>tjt02</value>

     </property>

    <property>

        <name>yarn.nodemanager.vmem-check-enabled</name>

        <value>false</value>

        <description>Whether virtual memory limits will be enforced for containers</description>

    </property>

    <property>

        <name>yarn.nodemanager.vmem-pmem-ratio</name>

        <value></value>

        <description>Ratio between virtual memory to physical memory when setting memory limits

for containers</description>

   </property>

</configuration>

3.3 分发hadoop到各个节点

[root@tjt01 hadoop]# scp -r /opt/hadoop-2.7./ root@tjt02:/opt

[root@tjt01 hadoop]# scp -r /opt/hadoop-2.7./ root@tjt03:/opt

3.4 配置环境变量

[root@tjt01 hadoop]# vi /etc/profile

修改配置如下：

export HADOOP_HOME=/opt/hadoop-2.7.

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile 使profile文件生效；

[root@tjt01 hadoop]# source /etc/profile

3.5 分发profile到各个节点

[root@tjt01 hadoop]# scp /etc/profile root@tjt02:/etc/

[root@tjt01 hadoop]# scp /etc/profile root@tjt03:/etc/

到各自的服务节点上是profile 生效：

[root@tjt02 ~]# source /etc/profile

[root@tjt03 ~]# source /etc/profile

4 启动验证集群

4.1 启动集群

4.1.1 如果集群是第一次启动，需要格式化namenode

[root@tjt01 hadoop]# hdfs namenode -format

当看到19/05/03 03:45:47 INFO common.Storage: Storage directory /opt/hadoop-2.7.6/data/full/tmp/dfs/name has been successfully formatted. 就格式化OK了；

到此为止，上面存在有一个错误，不能在hdfs-site.xml文件中这么写注释【#tjt】：

4.1.2 启动Hdfs

[root@tjt01 hadoop-2.7.]# start-dfs.sh

4.1.3 启动Yarn

如果Namenode和ResourceManager不是同一台虚拟机的话，不能在NameNode上启动yarn，应该在ResourceManager所在的机器上启动yarn；我的yarn配置在tjt02服务器上，一次需要到tjt02机器上启动yarn

[root@tjt02 hadoop]# start-yarn.sh

4.1.4 jps查看进程

[root@tjt01 hadoop]# jps

[root@tjt02 hadoop]# jps

[root@tjt03 hadoop]# jps

4.1.5 web页面访问

在虚拟机tjt01上访问：http://172.16.114.130:50070

Datanode:

需要先在tjt3这台机器上关闭防火墙后，才可以在非linux服务器中的浏览器访问：

 //临时关闭

systemctl stop firewalld

//禁止开机启动

systemctl disable firewalld

本机访问：http://172.16.114.130:50070/

在虚拟机tjt02上访问：http://172.16.114.131:8088/cluster

4.2、Hadoop停止启动方式

1）各个服务组件逐一启动

分别启动hdfs 组件：

hadoop-deamon.sh start | stop namenode | datnode | secondarynamenode

启动yarn：

yarn-deamon.sh start | stop resourcemanager | nodemanager

2) 各个模块分开启动(常用)

start | stop-dfs.sh

start | stop-yarn.sh

3) 全部启动

start | stop-all.sh

其他

1、关闭防火墙

 //临时关闭

systemctl stop firewalld

//禁止开机启动

systemctl disable firewalld

2、创建用户，设置文件权限

创建用户，修改密码：

[root@tjt01 ~]# useradd tjt

[root@tjt01 ~]# passwd tjt

设置tjt用户具有root权限修改 /etc/sudoers 文件，找到下面一行，在root下面添加一行，如下所示:

修改完毕，现在可以用tjt帐号登录，然后用命令 su - ，即可获得root权限进行操作。

其实，当Web页面访问：http://172.16.114.130:50070，可以看到hadoop页面时Hadoop集群就成功构建好了。

Mac-搭建Hadoop集群的更多相关文章

搭建Hadoop集群 (一)
上面讲了如何搭建Hadoop的Standalone和Pseudo-Distributed Mode(搭建单节点Hadoop应用环境), 现在我们来搭建一个Fully-Distributed Mode的 ...
使用Windows Azure的VM安装和配置CDH搭建Hadoop集群
本文主要内容是使用Windows Azure的VIRTUAL MACHINES和NETWORKS服务安装CDH (Cloudera Distribution Including Apache Hado ...
virtualbox 虚拟3台虚拟机搭建hadoop集群
用了这么久的hadoop,只会使用streaming接口跑任务,各种调优还不熟练,自定义inputformat , outputformat, partitioner 还不会写,于是干脆从头开始,自己 ...
搭建Hadoop集群 (三)
通过搭建Hadoop集群 (二), 我们已经可以顺利运行自带的wordcount程序. 下面学习如何创建自己的Java应用, 放到Hadoop集群上运行, 并且可以通过debug来调试. 有多少种D ...
搭建Hadoop集群 (二)
前面的步骤请看搭建Hadoop集群 (一) 安装Hadoop 解压安装登录master, 下载解压hadoop 2.6.2压缩包到/home/hm/文件夹. (也可以从主机拖拽或者psftp压缩 ...
Linux下搭建Hadoop集群
本文地址: 1.前言本文描述的是如何使用3台Hadoop节点搭建一个集群.本文中,使用的是三个Ubuntu虚拟机,并没有使用三台物理机.在使用物理机搭建Hadoop集群的时候,也可以参考本文.首先这 ...
Hadoop入门进阶步步高（五）-搭建Hadoop集群
五.搭建Hadoop集群上面的步骤,确认了单机能够运行Hadoop的伪分布运行,真正的分布式运行无非也就是多几台slave机器而已,配置方面的有一点点差别,配置起来就很easy了. 1.准备三台se ...
Linux 搭建Hadoop集群成功
内容基于(自己的真是操作步骤编写) Linux 搭建Hadoop集群---Jdk配置 Linux 搭建Hadoop集群 ---SSH免密登陆一:下载安装 Hadoop 1.1:下载指定的Hadoop ...
阿里云搭建hadoop集群服务器，内网、外网访问问题（详解。。。）
这个问题花费了我将近两天的时间,经过多次试错和尝试,现在想分享给大家来解决此问题避免大家入坑,以前都是在局域网上搭建的hadoop集群,并且是局域网访问的,没遇见此问题. 因为阿里云上搭建的hadoo ...
虚拟机搭建Hadoop集群
安装包准备操作系统:ubuntu-16.04.3-desktop-amd64.iso 软件包:VirtualBox 安装包:hadoop-3.0.0.tar.gz,jdk-8u161-linux-x ...

随机推荐

云原生生态周报 Vol. 16 | CNCF 归档 rkt，容器运行时“上古”之战老兵凋零
作者列表:木苏,临石,得为,等等业界要闻安全漏洞 CVE-2019-9512 CVE-2019-9514 http2 的 DOS 漏洞,一旦攻击成功会耗尽服务器的 cpu/mem,从而导致服务不可 ...
JavaScript 加减危机——为什么会出现这样的结果？
在日常工作计算中,我们如履薄冰,但是 JavaScript 总能给我们这样那样的 surprise~ 0.1 + 0.2 = ? 1 - 0.9 = ? 如果小伙伴给出内心的结果: 0.1 + 0.2 ...
java自带日志框架打印info以下级别日志
本文为CSDN博主「LanTingShuXu」的原创文章,原文链接:https://blog.csdn.net/LanTingShuXu/article/details/80528558 java.u ...
2 java并行基础
我们认真研究如何才能构建一个正确.健壮并且高效的并行系统. 进程与线程进程(Process):是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础 ...
element admin中使用nprogress实现页面加载进度条
主要是知道是nprogress这个组件实现的就可以了,组件的使用方法可参考:https://blog.csdn.net/ltr15036900300/article/details/47321217 ...
vue知识点小结
vue.js中==和===的区别 1.== 用于比较.判断两者相等,比较时可自动换数据类型 2.=== 用于(严格)比较.判断两者(严格)相等,不会进行自动转换,要求进行比较的操作数必须类型一致,不一 ...
Vue开发日志
一搭建环境 mac 安装node brew install node 安装vue 全家桶 npm install -g vue-cli 选择一个目录做初始化 vue init webpack myp ...
javascript 对象的创建与继承模式
针对JS高级程序设计这本书,主要是理解概念,大部分要点源自书内.写这个主要是当个笔记加总结存在的问题请大家多多指正! 6.1理解对象创建对象的两个方法(暂时) //第一种,通过创建一个Object ...
cache verilog实现
cache原理: https://www.cnblogs.com/mikewolf2002/p/10984976.html cache的verilog实现实现的cache是16k, 4way组相连c ...
JDK安装—JAVA
下载JDK 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 关于版本选择需要注意的问题: 如果eclip ...

Mac-搭建Hadoop集群

Mac-搭建Hadoop集群的更多相关文章

随机推荐

热门专题