大数据攻城狮之Hadoop伪分布式篇

对于初学大数据的萌新来说，初次接触Hadoop伪分布式搭建的同学可能是一脸萌笔的，那么这一次小编就手把手的教大家在centos7下搭建Hadoop伪分布式。

底层环境: VMware Workstation 15.0,centos7

SSH工具: xshell

软件包: hadoop-2.7.6.tar.gz jdk-8u201-linux-x64.tar.gz

由于对于大数据的学习初期的同学，对于centos的安装应该非常熟练，故在这里不详述，这里我们开始说具体的步骤：

这里给出大家一个思维导图,方便大家对于伪分布式搭建的理解。

思维导图

第一步：网络配置

（1）查询主机名

查询命令:

hostname

修改命令:

 hostnamectl set-hostname 新的名字

示例图片 :
　　　　　　

（2）查询IP 地址

查询命令：

ip add

注释:

ip add 适用于centos7及以后的版本;

ifconfig 适用于centos6及其以前的版本;

那么问题来了，我们怎么知道那个是我们的IP地址呢？

当然，小编，在这里给大家准备了具体的实例图片：

图例解释：

ip add 就是我们上文提到的查询IP地址的命令；

172.17.54.7 就是我们需要的IP地址。

（3）设置/etc/hosts 文件

使用vim ，编辑/etc/hosts 文件;

相信大家对于编辑文件都是信手拈来，那么我们看看具体哪个是/etc/hosts 文件呢？

没错，这就是传说中的/etc/hosts 文件.

在这里我们需要把我们查到的具体ip 地址输入到我们的第三行，也就是红线的地方；

背后我们需要加上空格输入自己的主机名；

举个栗子就是：192.168.255.230 你的主机名

（二）环境变量的配置

我们使用xshell将我的hadoop和jdk上传到目录下后，解压。就可以开始配置环境变量了，我们在环境变量配置这一块有很多个地

方，比如说/etc/profile和~/.bashrc。这两个地方都是可以配置环境变量的。

为了方便我们的后期的使用，我们这里将hadoop和jdk进行了改名，因为他们的名字非常的长，不容易记忆。
所以我们需要对它进行简单化操作，我们将其改名为hadoop和jdk1.8，方便我们的后期的配置，
为后文埋下伏笔。

这里我们先看看具体的图片，环境变量的文件到底是何方神圣：

没错，这就是传说中的环境变量。

在这里我们需要设置我们的jdk和hadoop的环境变量。

在小编红线圈起来的地方，我来给大家具体详解一下我们需要输入的内容。

export JAVA_HOME=你的jdk所在的路径精确到jdk1.8

// 此处我们设置Java的home

export HADOOP_HOME=你的hadoop所在的路径精确到我们改名后的hadoop

// 此处我们设置hadoop的home

export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH

// 此处我们将我们设置好的两个jdk和hadoop的home导入环境变量

// ------/bin 这个目录下存放的是常用的环境变量。

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

// 此处我们具体设置我们hadoop常用的命令,也将他导入进来。

exportPATH=.:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_COMMON_LIB_NATIVE_DIR:$PATH

// 此处我们将所有的配置都导入环境变量之中。

配到这里我们距离成功已经很近了，这是后我们需要重启环境变量才能开始使用

source /etc/profile

// 重启环境变量

如果重启环境变量，没有报错。我们就可以开始查看我们是否配置成功了

查看jdk的版本号

java -version

那么我们怎么知道是不是对的·呢？

小编在这里给大家准备了具体的示例图片：

如果查询到的版本号和你下载的版本好相符，那么我们的环境变量就大功告成了！！

这样的话我们的配置差不多就走了二分之一了，接下来我们具体看Hadoop的配置如何走呢？

环境变量测试成功

（三）Hadoop的配置

对于Hadoop的文件配置，我们需要配置大约有五个文件，分别是：

(1) core-site.xml (2)hdfs-site.xml (3)hadoop-env.sh (4)yarn-env.sh (5)slaves

（1）core-site.xml

首先，给大家看看具体core-site.xml文件的具体内容：

然后我们开始上手编辑内容，切记我们多有的内容都必须写在

<configuration>

这里写我们编辑的内容

</configuration>

那么我们需要写什么配置信息呢？

这里我们需要写上我们的配置信息先给大家看看模板：

那么下来我们具体说一下这些代码都是啥意思

<property>

            <name>hadoop.tmp.dir</name> // 设置存储name，data文件的存放文件

            <value>file:/usr/local/hadoop/tmp</value> // 设置此文件的绝对路径

            <description>zhushi</description>	//添加注释，可有可无

</property>

<property>

            <name>fs.defaultFS</name>	// 设置访问此集群的端口

            <value>hdfs://hadoop:9000</value> //设置具体的IP，具体的端口，此处可以写自己的主机名

</property>

(2) hdfs-site.xml

接下来我们具体设置hdfs-site.xml文件：
同样的道理我们需要在

<configuration>

    这里写我们编辑的内容

</configuration>

这里我也给出大家一个模板：

作为第一次发文章的我考虑到大家对这个不是很了解，继续给大家讲讲具体的内容

<property>

                <name>dfs.replication</name> //需要设置的数据块

                <value>1</value> // 这里伪分布式为1

</property>

<property>

                <name>dfs.namenode.name.dir</name>    // 设置namenode的存放文件

                <value>file:/usr/local/hadoop/tmp/dfs/name</value> //namenode文件存放的绝对路径

</property>

<property>

                <name>dfs.datanode.data.dir</name>    //    设置datanode的存放文件

                <value>file:/usr/local/hadoop/tmp/dfs/data</value>    // 设置datanode文件存放的绝对路径

</property>

(3) hadoop-env.sh

为了保证文件的正确性，这是具体的文件图片：

export JAVA_HOME=/你的jdk存放路径	可以参考你的环境变量的路径

# The jsvc implementation to use. Jsvc is required to run secure datanodes

# that bind to privileged ports to provide authentication of data transfer

# protocol. Jsvc is not required if SASL is configured for authentication of

# data transfer protocol using non-privileged ports.

#export JSVC_HOME=${JSVC_HOME}

export HADOOP_CONF_DIR=/你改名后的hadoop文件的存放路径/etc/hadoop // 用来寻找你的hadoop的配置文件

(4) yarn-env.sh

这里的yarn-env.sh文件配置非常的简单，我们距离成功共可以说是近在咫尺了。

export YARN_CONF_DIR="${YARN_CONF_DIR:-$HADOOP_YARN_HOME/conf}"

# some Java parameters

# export JAVA_HOME=/home/y/libexec/jdk1.6.0/

if [ "$JAVA_HOME" != "" ]; then

#echo "run java in $JAVA_HOME"

JAVA_HOME=/usr/local/jdk1.8 // 这一行是我们需要配置的，我们j这里需要加入jdk的文件存放的路径；

fi

if [ "$JAVA_HOME" = "" ]; then

echo "Error: JAVA_HOME is not set."

exit 1

fi

(5) slaves

这一块我们需要插入具体的主机名，就是我们刚才的写在/etc/hosts里，IP地址之后的名字。

（四）配置免密操作

执行如下命令：

ssh-keygen -t rsa // 进行免密操作

发送密钥到指定文件夹

ssh-copy-id -i .ssh/id_rsa.pub 用户名字@192.168.x.xxx

（五）格式化hdfs

### 格式化命令

hdfs namenode -format

（六）集群成功与否校验

start-all.sh	// 启动hdfs

start-yarn.sh // 启动守护进程

最后、我们使用jps查看自己的节点，这里给大家配上图片

jps	查看集群节点

没错，如果到了这里，你成功了，你就非常牛逼了，你就是万中无一的建站奇才，升职加薪，走上人生巅峰，
指日可待。

# （七）集群web访问

如果你希望通过web浏览器访问集群的华，那我们小编就来教你怎么做
(1)关闭防火墙

systemctl stop firewalld.service

(2)关闭开机自启

systemctl disable firewalld.service

(3)输入你的ip地址加端口号

http://hostname:50070

这样给大家看看最后的结果：

如果是这样：那么我们访问差不多就成功了，确认是否有对应数据，没有的话，就是存在问题，继续检查自己的代码数据,这是第一次写博客,如果有什么问题,请大家指正,有什么问题,大家可以在下方留言评论。谢谢大家

大数据攻城狮之Hadoop伪分布式篇的更多相关文章

大数据攻城狮之进阶技能-Github的使用
引用百度百科中的介绍: github GitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名GitHub. GitHub于2008年4月10日正式上线 ...
大数据攻城狮之Linux基础------rpm软件管理
rpm的英文名称为: Redhat package manager 常用的命令加组合: i 安装 rpm -ivh 软件包名当然我们的rpm也可以支持多包同时操作 rpm -ivh 软件包1 软件包 ...
大数据攻城狮之进阶技能-使用Git上传自己的项目至GitHub仓库
在开始讲解之前我们默认已经存在仓库和安装Git,没有下载的可以去https://git-scm.com/ Git官方网站下载或者是私聊博主. 下面我们说一说Git的使用,比如说如何生成密钥,连接远程仓 ...
【大前端攻城狮之路】JavaScript函数式编程
转眼之间已入五月,自己毕业也马上有三年了.大学计算机系的同学大多都在北京混迹,大家为了升职加薪,娶媳妇买房,熬夜加班跟上线,出差pk脑残客户.同学聚会时有不少兄弟已经体重飙升,开始关注13号地铁线上铺 ...
【大前端攻城狮之路·二】Javascript&QA⼯程师
今天给大家分享的主题的是Javascript&QA⼯程师.看到这个主题,可能有人问:前端开发完就OK了,剩下的丢给测试就行,哪里还需要关心这些?但事实上呢,测试是前端开发非常重要的环节,也是迈 ...
Android优秀资源整理合集(论菜鸟到高级攻城狮)
转载请注明转自:http://blog.csdn.net/u011176685/article/details/51434702 csdn文章:Android优秀资源整理合集(论菜鸟到高级攻城狮) 时 ...
遗留系统：IT攻城狮永远的痛
我常常觉得我们非常幸运,我们现在所处的时代是一个令人振奋的时代,我们进入了软件工业时代.在这个时代里,我们进行软件开发已经不再是一个一个的小作坊,我们在进行着集团化的大规模开发.我们开发的软件不再是为 ...
大数据系列（2）——Hadoop集群坏境CentOS安装
前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...
Fiddler无所不能——之测试开发攻城狮必备利器
Fiddler无所不能——之测试开发攻城狮必备利器 1.模拟真实网络环境4g网.3g网络.2g网络.弱网.请求超时开启弱网Rules——Performance——勾选Simulate Modem S ...

随机推荐

js >> 右移操作符
十进制十六进制二进制右移>> 十进制值 F 1F FF
acedinitget
// 提示用户选择选择方式 acedInitGet(0, _T("W CP")); int nRs = acedGetKword(_T("\n请输入关键字确定选择方式[窗 ...
关于static关键字的思考
静态方法是否能调用非静态成员变量? static关键字具有如下特点: 一.static关键字修饰的属性/方法可以通过类名直接调用,而不必先new一个对象. 二.sta ...
【剑指Offer】66、机器人的运动范围
题目描述: 地上有一个m行和n列的方格.一个机器人从坐标0,0的格子开始移动,每一次只能向左,右,上,下四个方向移动一格,但是不能进入行坐标和列坐标的数位之和大于k的格子. 例如,当k为18时 ...
nexus3.x启动不起来
1.首先说两种启动命令,网上最多的是用./nexus start.这种是后台启动,看不到实时日志:./nexus run 是实时启动可以看到日志. 2.linux下解压nexus-3.6.2-01-u ...
css 字体单位之间的区分以及字体响应式实现
问题场景: 在实现响应式布局的过程中,如何设置字体大小在不同的视窗尺寸以及不同的移动设备的可读性? 需要了解的有: 1.px,em,pt之间的换算关系 1em = 16px 1px = 1/16 e ...
gcc和gdb的基本操作
gcc和gdb yum 在线安装软件,使用阿里云镜像站,OPSX 选择你安装的系统点帮助查看配置命令行 yum --list | grep gdb #查找要安装的软件 yum install -y ...
找零钱的算法实现(Java)
简单的算法基本思路就是将面值从大到小统计(外循环), 若当前金额大于某面值, 则当前金额减掉该面值, 并将面值对应张数+1, 继续往下判断(内循环) public void Change(int m ...
编写who命令
第一个版本: /* who1.c - a first version of the who program * open, read UTMP file, and show results. */ # ...
洛谷 P1308 统计单词数【字符串处理】
题目描述一般的文本编辑器都有查找单词的功能,该功能可以快速定位特定单词在文章中的位置,有的还能统计出特定单词在文章中出现的次数. 现在,请你编程实现这一功能,具体要求是:给定一个单词,请你输出它在给 ...

大数据攻城狮之Hadoop伪分布式篇

大数据攻城狮之Hadoop伪分布式篇的更多相关文章

随机推荐

热门专题