hadoop 部署在centos 7 上
一、准备工作 (文章写于 2019-6) 根据官方文档而来,请注意时间,官方可能有更新,以官方文档为准
1. 配置网站参考: http://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.html
http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html
2.准备版本:
先选定响应的hadoop和hbase版本,下面是2019-7-3日的截图信息:
准备3台centOS 7
关闭防火墙: systemctl stop firewalld.service
禁用防火墙: systemctl disable firewalld.service
查看防火墙状态 firewall-cmd --state
重启 reboot
二、实现三台机器ssh免密码登录
首先,你要确保知道你的三台机子的名称和ip
比如:我的三台分别是
10.25.0.165 hadoop01
10.25.0.221 hadoop02
10.25.0.232 hadoop03
1.检查机器的名称和IP
检查机器名称
用root账户登录,然后使用hostname命令查看机器名称
[root@localhost etc]# hostname
localhost.localdomain
[root@localhost etc]#
把他修改成我们想要的名称
hostname hadoop01
修改之后检查一下,如果修改不成功,可以进入配置文件进行名称的修改。
vim /etc/hostname ##用vi进行修改
类似的,将其他两个机器,
分别改名为hadoop02和hadoop03
使用ifconfig来检查电脑的ip
[root@hadoop01 etc]# ifconfig
如果你的虚拟机使用的是桥接的,ifconfig之后你还是不确定你的IP,建议使用CRT工具连接试试,能够成功联通的就是正确的IP。
2.修改/etc/hosts文件
修改三台机器的
/etc/hosts
文件,在里面添加如下内容(添加就行了,不需要删除)
修改方法:可以使用vim命令,也可以再写一个hosts文件,拿到linux上覆盖。
10.25.0.165 hadoop01
10.25.0.221 hadoop02
10.25.0.232 hadoop03
Tip:IP地址不需要和我的一样,这里只是做一个映射。
配置完成后使用ping命令检查这3个机器是否相互ping得通(互相检查一下)。
[root@hadoop01 etc]# ping -c 3 hadoop02
PING hadoop02 (10.25.0.221) 56(84) bytes of data.
64 bytes from hadoop02 (10.25.0.221): icmp_seq=1 ttl=64 time=0.416 ms
64 bytes from hadoop02 (10.25.0.221): icmp_seq=2 ttl=64 time=0.431 ms
64 bytes from hadoop02 (10.25.0.221): icmp_seq=3 ttl=64 time=0.458 ms
--- hadoop02 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms
rtt min/avg/max/mdev = 0.416/0.435/0.458/0.017 ms
[root@hadoop01 etc]#
ping得通,说明机器是互联的,hosts配置正确。
4.SSH免密码登陆--参考另外一篇博客
三台机器之间可以互多测试几遍
三、安装jdk和hadoop
1.安装jdk
见另外一篇教程
2.下载hadoop
http://hadoop.apache.org/releases.html
选择合适的版本进行下载,我这边使用的是由上面的图中选择对应合适的版本: 2.8.5
https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/
3.上传文件并进行解压
在opt目录下新建一个名为hadoop的目录,并将下载得到的hadoop-2.9.1.tar.gz上载到该目录下。
进入该目录,并进行解压操作:
[root@hadoop01 ~]# cd /opt/hadoop
[root@hadoop01 hadoop]# tar -xvf hadoop-2.8.5.tar.gz
在三台机器上重复这一操作。
在/root目录下新建几个目录,复制粘贴执行下面的命令:
mkdir /root/hadoop
mkdir /root/hadoop/tmp
mkdir /root/hadoop/var
mkdir /root/hadoop/dfs
mkdir /root/hadoop/dfs/name
mkdir /root/hadoop/dfs/data
四:配置Hadoop守护进程的环境 hadoop-env.sh
进入:
/usr/local/hadoop/hadoop-2.8.5/etc/hadoop
vi hadoop-env.sh
将 export JAVA_HOME=${JAVA_HOME}
修改为:
export JAVA_HOME=/opt/java/jdk1.8.0_171
说明:修改为自己的JDK路径
备注:
管理员应该使用etc / hadoop / hadoop-env.sh和etc / hadoop / mapred-env.sh以及etc / hadoop / yarn-env.sh脚本来对Hadoop守护进程的进程环境进行特定于站点的自定义。
至少,您必须指定JAVA_HOME,以便在每个远程节点上正确定义它。
管理员可以使用下表中显示的配置选项配置各个守护程序:
官方文档:
五:配置Hadoop守护进程
主要修改的配置文件都在这里,我们可以看一下。
[root@hadoop01 hadoop]# ls /usr/local/hadoop/hadoop-2.8.5/etc/hadoop
capacity-scheduler.xml core-site.xml hadoop-metrics2.properties hdfs-site.xml httpfs-signature.secret kms-env.sh log4j.properties mapred-queues.xml.template slaves yarn-env.cmd
configuration.xsl hadoop-env.cmd hadoop-metrics.properties httpfs-env.sh httpfs-site.xml kms-log4j.properties mapred-env.cmd mapred-site.xml ssl-client.xml.example yarn-env.sh
container-executor.cfg hadoop-env.sh hadoop-policy.xml httpfs-log4j.properties kms-acls.xml kms-site.xml mapred-env.sh mapred-site.xml.template ssl-server.xml.example yarn-site.xml
其中:
core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。
1) 修改core-site.xml
在<configuration>节点内加入配置:
<property>
<name>hadoop.tmp.dir</name>
<value>/root/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name> //-NameNode URI
<value>hdfs://hadoop01:9000</value>
</property>
官方文档:
中文:
2)配置Hadoop守护进程的运行参数 hdfs-site.xml
在<configuration>节点内加入配置:
<property>
<name>dfs.namenode.name.dir</name> //NameNode持久存储命名空间和事务日志的本地文件系统上的路径。
<value>/root/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name> //逗号分隔的DataNode本地文件系统上的路径列表,它应该存储其块。如果这是逗号分隔的目录列表,则数据将存储在所有命名目录中,通常位于不同设备上。
<value>/root/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
其余的配置信息
3)新建并且修改
mapred-site.xml
该版本中,有一个名为mapred-site.xml.template的文件,复制该文件,然后改名为mapred-site.xml,命令是:
cp /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/mapred-site.xml
修改这个新建的mapred-site.xml文件,在<configuration>节点内加入配置:
<property>
<name>mapred.job.tracker</name>
<value>hadoop01:49001</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/root/hadoop/var</value>
</property>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
参考官方文档:
4)修改slaves文件
列出etc / hadoop / slaves文件中的所有从属主机名或IP地址,每行一个。Helper脚本(如下所述)将使用etc / hadoop / slaves文件一次在多个主机上运行命令。它不用于任何基于Java的Hadoop配置。为了使用此功能,必须为用于运行Hadoop的帐户建立ssh信任(通过无密码ssh或其他方式,如Kerberos)。
在conf/slaves文件中列出所有slave的主机名或者IP地址,一行一个。
修改 /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/slaves 文件,将里面的localhost删除,添加如下内容:
hadoop02
hadoop03
5)修改 yarn-site.xml 文件
修改 /usr/local/hadoop/hadoop-2.8.5/etc/hadoop/yarn-site.xml文件, 在<configuration>节点内加入配置(注意了,内存根据机器配置越大越好,我这里只配2个G是因为机器不行):
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<description>The address of the applications manager interface in the RM.</description>
<name>yarn.resourcemanager.address</name>
<value>${yarn.resourcemanager.hostname}:8032</value>
</property>
<property>
<description>The address of the scheduler interface.</description>
<name>yarn.resourcemanager.scheduler.address</name>
<value>${yarn.resourcemanager.hostname}:8030</value>
</property>
<property>
<description>The http address of the RM web application.</description>
<name>yarn.resourcemanager.webapp.address</name>
<value>${yarn.resourcemanager.hostname}:8088</value>
</property>
<property>
<description>The https adddress of the RM web application.</description>
<name>yarn.resourcemanager.webapp.https.address</name>
<value>${yarn.resourcemanager.hostname}:8090</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>${yarn.resourcemanager.hostname}:8031</value>
</property>
<property>
<description>The address of the RM admin interface.</description>
<name>yarn.resourcemanager.admin.address</name>
<value>${yarn.resourcemanager.hostname}:8033</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
<discription>每个节点可用内存,单位MB,默认8182MB</discription>
</property>
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.1</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
参考官方的解释:
参考中文翻译:
六、启动hadoop
完成所有必要的配置后,将文件分发到所有计算机上的HADOOP_CONF_DIR目录。这应该是所有计算机上的同一目录。
通常,建议HDFS和YARN作为单独的用户运行。在大多数安装中,HDFS进程以'hdfs'的形式执行。YARN通常使用'yarn'帐户。
将hadoop移动到另外两个机器上:
scp -r /usr/local/hadoop/hadoop-2.8.5 root@hadoop02:/usr/local/hadoop
scp -r /usr/local/hadoop/hadoop-2.8.5 root@hadoop03:/usr/local/hadoop
1.在namenode上执行初始化
因为hadoop01是namenode,hadoop02和hadoop03都是datanode,所以只需要对hadoop01进行初始化操作,也就是对hdfs进行格式化。
[root@hadoop01 hadoop]# cd /usr/local/hadoop/hadoop-2.8.5/bin
[root@hadoop01 bin]# ./hadoop namenode -format
...
...
不报错的话,就是顺利的执行完初始化了;
格式化成功后,可以在看到在/root/hadoop/dfs/name/目录多了一个current目录,而且该目录内有一系列文件:
[root@hadoop01 bin]# cd /root/hadoop/dfs/name/
[root@hadoop01 name]# ls
current in_use.lock
[root@hadoop01 name]# ls current/
edits_0000000000000000001-0000000000000000002 edits_0000000000000000005-0000000000000000006 fsimage_0000000000000000004 fsimage_0000000000000000006 seen_txid
edits_0000000000000000003-0000000000000000004 edits_inprogress_0000000000000000007 fsimage_0000000000000000004.md5 fsimage_0000000000000000006.md5 VERSION
[root@hadoop01 name]#
2.执行启动命令:
[root@hadoop01 name]# cd /usr/local/hadoop/hadoop-2.8.5/sbin
[root@hadoop01 sbin]# ./start-all.sh
...
启动完成后,输入命令jps来判断是否启动成功
五、测试hadoop
hadoop01是我自己的主机,ip是10.25.0.165
所以访问:
http://10.25.0.165:50070/
http://10.25.0.165:8088/
执行命令 hdfs
解决办法:在 /etc/profile 中加入
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.5/bin
export PATH=$PATH:$HADOOP_HOME
如下命令查看状态:
hdfs dfsadmin -report
hadoop 部署在centos 7 上的更多相关文章
- COMCMS 微进阶篇,从0开始部署到Centos 7.4
言:上一篇,我们介绍了,如何本地调试和部署到windows服务器. 本篇,将带大家,从0到1,开始部署到Centos系统上... 经过测试,可以完美支持Centos.这也是.net core 跨平台的 ...
- CentOS 7 上部署Mono 4 和Jexus 5.6
概述 在这篇文章中我们将讨论如何在CentOS 7操作系统,安装 jexus. mono 和 配置 jexus,因此它将能够在这种环境中运行一个asp.net mvc 4 应用.这篇文章是描述如何在 ...
- 如何在CentOS 7上部署Google BBR【搬运、机翻】
如何在CentOS 7上部署Google BBR 本文章搬运自 https://www.vultr.com/docs/how-to-deploy-google-bbr-on-centos-7 [注:文 ...
- 【ASP.NET Core快速入门】(四)在CentOS上安装.NET Core运行时、部署到CentOS
下载.NET Core SDK 下载地址:https://www.microsoft.com/net/download/windows 第一步:Add the dotnet product feed( ...
- 在CentOS 7上部署Ghost博客
作者:waringid 一.简介 跟静态博客不同的是,Ghost 这种轻量级的动态博客,有一个管理后台,可以直接写作和管理博客.本质上,跟 WordPress 是相通的,只是 Ghost 搭建在 No ...
- 【转载】在Centos系统上采用二进制文件部署Node.js环境
Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境,用来方便地搭建快速的易于扩展的网络应用.Node.js 使用了一个事件驱动.非阻塞式 I/O 的模型,使其轻量又 ...
- 在 CentOS 7上Virtualbox+phpVirtualBox完整虚拟化环境部署
一.phpVirtualBox简介 VirtualBox是一套为不同操作系统而设的 x86 虚拟化产品.它是一个机器/硬件的虚拟化产品,功能上与 VMware Server.Parallel ...
- 菜鸟入门【ASP.NET Core】4:在CentOS上安装.NET Core运行时、部署到CentOS
下载.NET Core SDK 下载地址:https://www.microsoft.com/net/download/windows 第一步:Add the dotnet product feed( ...
- hadoop进阶----hadoop经验(一)-----生产环境hadoop部署在超大内存服务器的虚拟机集群上vs几个内存较小的物理机
生产环境 hadoop部署在超大内存服务器的虚拟机集群上 好 还是 几个内存较小的物理机上好? 虚拟机集群优点 虚拟化会带来一些其他方面的功能. 资源隔离.有些集群是专用的,比如给你三台设备只跑一个 ...
随机推荐
- ELK学习005:Kibana 安装与运行
下载安装Kibana 1. 下载地址:https://www.elastic.co/cn/downloads/kibana 2. 解压下载的压缩包 [root@localhost ~]# tar -z ...
- powersploit的两个信息收集的脚本
0x00 简介 powersploit是基于powershell的渗透工具包,里面都是powershell的脚本工具文件.工具包地址:https://github.com/PowerShellMafi ...
- PR2018制作电子相册
PR2018制作电子相册 新建序列,自定义的参数 重置工作区域的面板 调节声音的大小 剪辑区域小图标的功能介绍 1,点亮状态表示可以自动对齐吸附,方便拼接视频,2,图标表示视频接音频同时选中的,不点亮 ...
- PHP0025:PHP 博客项目开发2
- PMP--2.2 效益管理计划
一.文件背景概述 1. 所需文件/数据 制定效益管理计划需要使用商业论证和需求评估中的数据和信息,例如,成本效益分析数据. 成本效益分析数据是在商业论证和需求评估中得到的,在成本效益分析中已经把 ...
- git本地创建多个分支互不干扰
git本地创建多个分支,互不干扰. 情景:在做某个需求a时,先需要修改紧急bug b:发版时发的是远程dev的代码. 方式一(推荐): (1)本地已有分支dev,写了需求a,先commit,即将工 ...
- cf949C
题意简述:有n个点,每一个点都有一个权值,然后有m个条件,每一个条件是a[x]!=a[y],让选择最少的点且至少选择1个,然后让这个点的权值+1,使得条件仍满足 所有数对k取模 题解:如果a[x]+1 ...
- JAVA JDK keytool 生成数字证书
简介: 数字证书作为网络安全数据传输的凭证,web在传输时客户端(浏览器)和 服务端(服务器)先进行会话握手,在握手过程中服务端会验证客户端的是否已经在服务端做了认证,这是单向认证.如果是双向认证的话 ...
- Document节点
概述 document节点对象代表整个文档,每张网页都有自己的document对象.window.document属性就指向这个对象.只要浏览器开始载入 HTML 文档,该对象就存在了,可以直接使用. ...
- Linux网络课程学习第五天
学习心得: 通过本章节课学习收获很多,不仅学会了使用vim编辑器以及编写简单的shell脚本.从一个从未接触过Linux系统的我一下学会并掌握了这么多自我感觉进步还是挺大的.但是还是要坚持学下去,毕竟 ...