Hadoop

HDFS、Yarn、MapReduce

Hadoop集群环境搭建

完全分布式环境，伪分布式将其中的多台服务器改为一台，并将配置文件中的相关内容更改即可

1、安装Linux系统模型机

关闭防火墙：

CentOS:

systemctl stop firewalld

systemctl disable firewalld.service

Ubuntu:

ufw disable

修改环境变量：

vim /etc/profile.d/my_env.sh

配置JDK环境变量：vim /etc/profile.d/my_env.sh

#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_212

export PATH=$PATH:$JAVA_HOME/bin

配置Hadoop环境变量

#HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-3.1.3

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

更新环境变量：

source /etc/profile

设置host映射：Linux系统、Windows系统

修改静态IP地址：虚拟机、Linux系统和Windows系统

 CentOS:

 vim /etc/sysconfig/network-scripts/ifcfg-ens33

2、复制Linux系统

修改复制后的各个系统的静态IP地址和主机名

3、密钥免密登录

生成密钥：

ssh-keygen -t rsa

分发密钥：

ssh-copy-id 服务器地址

4、配置完全分布式环境

修改配置文件：core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 、workers

core-site.xml文件：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

 <!-- 指定 NameNode 的地址 -->

     <property>

     <name>fs.defaultFS</name>

     <value>hdfs://hadoop102:8020</value>

     </property>

     <!-- 指定 hadoop 数据的存储目录 -->

     <property>

     <name>hadoop.tmp.dir</name>

     <value>/opt/module/hadoop-3.1.3/data</value>

     </property>

     <!-- 配置 HDFS 网页登录使用的静态用户为 an -->

     <property>

     <name>hadoop.http.staticuser.user</name>

     <value>an</value>

     </property>

    <!--如果需要用到 spark 的话，需要在 core-site.xml 中加入如下：【否则会出错】-->

    <property>

    <name>hadoop.proxyuser.root.hosts</name>

    <value>*</value>

    </property>

    <property>

    <name>hadoop.proxyuser.root.groups</name>

    <value>*</value>

    </property>

</configuration>

hdfs-site.xml文件：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>

    <name>dfs.replication</name>

    <value>3</value>

    <!--默认为3，搭建伪分布式时只有一个节点、改为1即可-->

    </property>

    <!-- nn web 端访问地址-->

    <property>

     <name>dfs.namenode.http-address</name>

     <value>hadoop102:9870</value>

     </property>

    <!-- 2nn web 端访问地址-->

     <property>

     <name>dfs.namenode.secondary.http-address</name>

     <value>hadoop104:9868</value>

     </property>

</configuration>

yarn-site.xml文件：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

 <!-- 指定 MR 走 shuffle -->

     <property>

     <name>yarn.nodemanager.aux-services</name>

     <value>mapreduce_shuffle</value>

     </property>

     <!-- 指定 ResourceManager 的地址-->

     <property>

     <name>yarn.resourcemanager.hostname</name>

     <value>hadoop103</value>

     </property>

     <!-- 环境变量的继承 -->

     <property>

     <name>yarn.nodemanager.env-whitelist</name>

    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP

    RED_HOME</value>

     </property>

    <!-- 开启日志聚集功能 -->

    <property>

     <name>yarn.log-aggregation-enable</name>

     <value>true</value>

    </property>

    <!-- 设置日志聚集服务器地址 -->

    <property>

     <name>yarn.log.server.url</name>

     <value>http://hadoop102:19888/jobhistory/logs</value>

    </property>

    <!-- 设置日志保留时间为 7 天 -->

    <property>

     <name>yarn.log-aggregation.retain-seconds</name>

     <value>604800</value>

    </property>

</configuration>

mapred-site.xml文件：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <!-- 指定 MapReduce 程序运行在 Yarn 上 -->

     <property>

     <name>mapreduce.framework.name</name>

     <value>yarn</value>

     </property>

     <!-- 历史服务器端地址 -->

    <property>

     <name>mapreduce.jobhistory.address</name>

     <value>hadoop102:10020</value>

    </property>

    <!-- 历史服务器 web 端地址 -->

    <property>

     <name>mapreduce.jobhistory.webapp.address</name>

     <value>hadoop102:19888</value>

    </property>

</configuration>

分发到各个Linux服务器

5、启动集群

格式化：hdfs namenode -format

启动和关闭HDFS： start-dfs.sh  stop-dfs.sh

启动和关闭Yarn： strat-yarn.sh  stop-yarn.sh

统一启动和关闭：start-all.sh stop-all.sh

启动历史服务器：mapred --daemon start historyserver

启动和关闭脚本：

#!/bin/bash

if [ $# -lt 1 ]

then

 echo "No Args Input..."

 exit ;

fi

case $1 in

"start")

 echo " =================== 启动 hadoop 集群 ==================="

 echo " --------------- 启动 hdfs ---------------"

 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"

 echo " --------------- 启动 yarn ---------------"

 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"

 echo " --------------- 启动 historyserver ---------------"

 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start

historyserver"

;;

"stop")

 echo " =================== 关闭 hadoop 集群 ==================="

 echo " --------------- 关闭 historyserver ---------------"

 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop

historyserver"

 echo " --------------- 关闭 yarn ---------------"

 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"

 echo " --------------- 关闭 hdfs ---------------"

 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"

;;

*)

 echo "Input Args Error..."

;;

esac

6、常用端口号

查看 JobHistory hadoop102:19888:jobhistory

Hadoop环境的搭建的更多相关文章

Ubuntu下hadoop环境的搭建（伪分布模式）
Ubuntu下hadoop环境的搭建(伪分布模式) 一.必要资源的下载 1.Java jdk(jdk-8u25-linux-x64.tar.gz)的下载具体链接为: http://www.oracl ...
Hadoop学习---Eclipse中hadoop环境的搭建
在eclipse中建立hadoop环境的支持 1.需要下载安装eclipse 2.需要hadoop-eclipse-plugin-2.6.0.jar插件,插件的终极解决方案是https://githu ...
Linux上安装Hadoop集群(CentOS7+hadoop-2.8.0)--------hadoop环境的搭建
Linux上安装Hadoop集群(CentOS7+hadoop-2.8.0)------https://blog.csdn.net/pucao_cug/article/details/71698903 ...
hadoop集群搭建--CentOS部署Hadoop服务
在了解了Hadoop的相关知识后,接下来就是Hadoop环境的搭建,搭建Hadoop环境是正式学习大数据的开始,接下来就开始搭建环境!我们用到环境为:VMware 12+CentOS6.4 hadoo ...
【转】RHadoop实践系列之一:Hadoop环境搭建
RHadoop实践系列之一:Hadoop环境搭建 RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析.Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来 ...
【Hadoop环境搭建】Centos6.8搭建hadoop伪分布模式
阅读目录 ~/.ssh/authorized_keys 把公钥加到用于认证的公钥文件中,authorized_keys是用于认证的公钥文件方式2: (未测试,应该可用) 基于空口令创建新的SSH密钥 ...
hadoop集群环境的搭建
hadoop集群环境的搭建今天终于把hadoop集群环境给搭建起来了,能够运行单词统计的示例程序了. 集群信息如下: 主机名 Hadoop角色 Hadoop jps命令结果 Hadoop用户 Had ...
hadoop环境搭建之关于NAT模式静态IP的设置 ---VMware12+CentOs7
很久没有更新了,主要是没有时间,今天挤出时间验证了一下,果然还是有些问题的,不过已经解决了,就发上来吧. PS:小豆腐看仔细了哦~ 关于hadoop环境搭建,从单机模式,到伪分布式,再到完全分布式,我 ...
虚拟机搭建hadoop环境
这里简单用三台虚拟机,搭建了一个两个数据节点的hadoop机群,仅供新人学习.零零碎碎,花了大概一天时间,总算完成了. 环境 Linux版本:CentOS 6.5 VMware虚拟机 jdk1.6.0 ...
大数据学习系列之一 ----- Hadoop环境搭建(单机)
一.环境选择 1,服务器选择阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核内存:1G 硬盘:40G ip:39.108.77.250 2,配置选择 JD ...

随机推荐

云服务器安装Mysql之后，设置可以进行远程连接,Duplicaticate wntry '%-root' for key 'PRIMARY
云服务器安装Mysql之后,设置可以进行远程连接 1.首先连接mysql mysql -u root -p 2.MySql5版本 GRANT ALL ON *.* TO root@'%' IDENTI ...
python正则分组匹配
import re s = ''' {"type":"buy","order_no":"202006161314138669164 ...
wsl ubuntu vscode 安装 Fira Code
如果使用windows terminal(其实就是powershell)那么只需要在windows 中安装 Fira Code 即可,但是如果需要让wsl 中的vscode 也用Fira Code 就 ...
ChatGPT留给知乎、小红书的时间不多了
大家好啊,今天我打算给大家整点好活!挑战一下用ChatGPT打入各平台内部. 知乎挑战! 首先了解一下"知乎体" 知乎体是以专业知识为基础,以清晰的条理对问题进行阐述,并解决该问题 ...
分布式id的方案
1 简介在分布式系统架构中,通常会涉及到分布式全局唯一ID的生成在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识. 如在金融.电商.支付.等产品的系统中,数据日渐增长,对数据分库分表后需 ...
boot-repair
sudo add-apt-repository ppa:yannubuntu/boot-repair && sudo apt-get update sudo apt-get insta ...
4 .NET Core笔试题
1.说说.NET7中 _ViewImports文件的作用? 2.什么是Razor页面? 3.说说.NET5中 __ViewStart文件的作用? 4.如何在Razor页面中实现数据模型绑定? 5.如何 ...
selenium结合tenacity的retry实现验证码失败重试
说在前面验证码登录的demo后续可以单独讲解,VIP学员对这部分应该都是掌握的,此处不再赘述本文假设了一个场景你通过OCR识别的验证码是有一定的错误几率的本文是通过识别后的验证码去加一个随机字 ...
jupyter环境搭建
前言 jupyter,一个交互式的笔记本,进行数据分析时比pycharm要好用和专业一些. jupyter安装的正确姿势在别的教程里,他们讲的是通过pip install jupyter或者brew ...
调式源码解决 seata 报错 can not get cluster name 问题
最近在使用Spring Cloud整合分布式事务seata,项目启动之后,控制台一直报错: can not get cluster name in registry config 'service.v ...

Hadoop环境的搭建