Linux环境Hadoop安装配置

1. 准备工作

(1)linux配置IP(NAT模式)
(2)linux关闭防火墙
(3)设置主机名
(4)设置映射
(5)设置免密登录

2. 安装jdk

(1)上传安装包:
(2)解压：
(3)配置环境变量：

3. 分发jdk到其他节点

(1)发送文件：
(2)验证：

4. 安装hadoop

(1)上传安装包:
(2)解压：
(3)配置环境变量：
(4)修改配置文件：
(5)修改slaves文件：
(6)格式化namenode
Hadoop集群结构
HDFS_DownLoad
HDFS_Upload
namenode工作机制
datanode工作机制
maptask决定机制
yarn工作流程
mapreduce流程
shuffle机制

转载地址：YBCarry

Linux下，配置Hadoop的相关配置文件：

1. 准备工作

(1)linux配置IP(NAT模式)

相关信息必须与VMnet8保持一致
通过命令：vi /etc/sysconfig/network-scripts/ifcfg-(自己的名字) 进行编辑

TYPE=Ethernet

BOOTPROTO=none

DEFROUTE=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_FAILURE_FATAL=no

IPV6_ADDR_GEN_MODE=stable-privacy

NAME=ens33

UUID=9cbcf25a-600d-4d9c-88ad-ab509ab6e52a

DEVICE=ens33

ONBOOT=yes

IPADDR=192.168.44.121

PREFIX=24

GATEWAY=192.168.44.2

DNS1=8.8.8.8

IPV6_PEERDNS=yes

IPV6_PEERROUTES=yes

IPV6_PRIVACY=no

重启网络服务：service network restart

(2)linux关闭防火墙

查看防火墙状态：firewall-cmd --state ->running
关闭防火墙-本次有效：systemctl stop firewalld.service
禁用防火墙-永久生效：systemctl disable firewalld.service ->not running

(3)设置主机名

位置：vi /etc/hostname，输入主机名
**注意：**需要重启：reboot

(4)设置映射

位置：vi /etc/hosts，输入集群全部IP和主机名
格式：192.168.44.111 bigdata111

(5)设置免密登录

生成密钥：ssh-keygen (三次回车键)
拷贝到主机：ssh-copy-id 主机名 (所有节点都拷贝)

2. 安装jdk

(1)上传安装包:

CRT：alt+p

winscp：拖入目录

(2)解压：

tar -zxvf jdkXXXXX.tar.gz -C 目标目录

(3)配置环境变量：

命令：

export JAVA_HOME=jdk目标目录

export PATH=JAVA_HOME/bin

**注意：**需要使环境变量生效：source /etc/profile

3. 分发jdk到其他节点

(1)发送文件：

scp jdk 目标主机名:目标目录

scp /etc/profile 目标主机名:目标目录

source /etc/profile

(2)验证：

javac java java -version

4. 安装hadoop

(1)上传安装包:

CRT：alt+p

winscp：拖入目录

(2)解压：

tar -zxvf HadoopXXXXX.tar.gz -C 目标目录

(3)配置环境变量：

命令：

vi /etc/profile

export HADOOP_HOME=HADOOP目标目录

export PATH=HADOOP_HOME/bin:$HADOOP_HOME/sbin

**注意：**需要使环境变量生效：source /etc/profile

(4)修改配置文件：

hadoop-env.sh

export JAVA_HOME=Java路径

core-site.xml

  <!-- 指定HDFS中NameNode的地址 -->

  <property>

          <name>fs.defaultFS</name>

          <value>hdfs://bigdata121:9000</value>

  </property>

  <!-- 指定hadoop运行时产生文件的存储目录 -->

  <property>

          <name>hadoop.tmp.dir</name>

          <value>/opt/module/hadoop-2.7.3/tmp</value>

  </property>

  <!-- 回收站设置，保存时间两天  -->

  <property>

          <name>fs.trash.interval</name>

          <value>2880</value>

  </property>

hdfs-site.xml

  <!-- 指定HDFS副本的数量,数据块冗余度（默认为3） -->

  <property>

          <name>dfs.replication</name>

          <value>2</value>

  </property>

  <!-- 指定hadoop产生namenode、datanode文件的存储目录 -->

    <!--注释配置HDFS的权限检查，默认是true-->

    <property>

        <name>dfs.permissions</name>

        <value>false</value>

    </property>

    <!-- hdfs副本的配置bigdata122 -->

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>bigdata122:50090</value>

    </property>

    <!-- 配置checkpoint时间 -->

    <property>

        <name>dfs.namenode.checkpoint.period</name>

        <value>3600</value>

	</property>

mapred-site.xml(默认没有) $ cp mapred-site.xml.template mapred-site.xml mapreduce.framework.name yarn

yarn-site.xml

  <!--配置Yarn的ResourceManager的地址-->

  <property>

          <name>yarn.resourcemanager.hostname</name>

          <value>bigdata121</value>

  </property>

  <property>

  	<name>yarn.resourcemanager.address</name>

  	<value>bigdata121:8032</value>

  </property>

  <property>

  	<name>yarn.resourcemanager.scheduler.address</name>

  	<value>bigdata121:8030</value>

  </property>

  <property>

  	<name>yarn.resourcemanager.resource-tracker.address</name>

  	<value>bigdata121:8031</value>

  </property>

  <!--NodeManager执行MR任务的方式是Shuffle洗牌-->

  <property>

          <name>yarn.nodemanager.aux-services</name>

          <value>mapreduce_shuffle</value>

  </property>

  <property>

  		<name>yarn.nodemanager.pmem-check-enabled</name>

  		<value>false</value>

  </property>

  <property>

  		<name>yarn.nodemanager.vmem-check-enabled</name>

  		<value>false</value>

  </property>

(5)修改slaves文件：

加入从节点的主机名

(6)格式化namenode

hadoop namenode -format

(7)启动：

start-all.sh	//不推荐这种方式

//Hadoop启动停止

分别启动hdfs组件： hadoop-daemon.sh start|stop   namenode|datanode|secondartnamenode

启动yarn：		yarn-daemon.sh		start|stop	resourecemanager|nodemanager

各个模块分开启动：（配置ssh是前提）

start|stop-dfs.sh		start|stop-yarn.sh

重复格式化：hadoop.tmp.dir

停止集群
删除原来的tmp文件。(rm -rf)
重新格式化
启动集群

Hadoop集群结构

HDFS_DownLoad

HDFS_Upload

namenode工作机制

datanode工作机制

maptask决定机制

yarn工作流程

mapreduce流程

shuffle机制

Linux环境Hadoop安装配置的更多相关文章

Linux环境Hive安装配置及使用
Linux环境Hive安装配置及使用一.Hive Hive环境前提二.Hive架构原理解析三.Hive-1.2.2单机安装流程 (1) 解压apache-hive-1.2.2-bin.tar.g ...
Linux环境ZooKeeper安装配置及使用
Linux环境ZooKeeper安装配置及使用一.ZooKeeper 1.1 zookeeper作用 1.2 zookeeper角色 1.3 zookeeper功能二.集群规划三.安装流程 (1 ...
ubuntu linux环境下安装配置jdk和tomcat
关于linux搭建服务器,ubuntu中jdk和tomcat的安装和配置一.jdk的安装配置 1:去官网下载好自己需要的版本,注意,linux压缩文件通常以tar.gz结尾,别下载错了.本次我下载安 ...
Linux环境下安装配置Mysql
首先我们的使用的是linux的 centOS6 版本安装mysql: 1.查看有没有安装包 yum list mysql* 2.进行安装mysql:一般我们在服务器端安装的都是服务端( mysql- ...
Linux 环境下安装配置 TigerVNC Server 并启用当前会话远程服务（X0VNC）
曾经喜欢用 RealVNC Server 实现 Linux/Windows 的远程控制,因为 RealVNC 为收费商业软件,支持文件传输,性能优化方面也做得不错.但 RealVNC 从 5.0 版本 ...
1. VMware搭建Linux环境，安装配置centos6.5
1. 安装VMware,后新建虚拟机 2. 为我们的虚拟机挂载操作系统 3.开启我们的虚拟机,为我们的虚拟机进行安装操作系统 4.配置虚拟机连接网络修改linux的mac地址修改mac地址配置文件 ...
Linux环境下安装配置vsftpd服务(三种认证模式)
一.FTP简介文件传输协议(英文:File Transfer Protocol,缩写:FTP)是用于在网络上进行文件传输的一套标准协议.它工作于网络传输协议的应用层,使用客户/服务器模式,主要是用来 ...
Linux环境下安装配置JDK1.8
最近在搞虚拟机,记录下虚拟机内java环境的搭建流程一.下载合适版本的jdk 此处选择JDK1.8,各位同学可以根据自己的需求选择对应的版本,下载地址为: https://www.oracle.co ...
Linux环境jdk安装配置
1.jdk安装包:jdk-8u191-linux-x64.tar.gz2.拷贝 jdk-8u191-linux-x64.tar.gz 到/usr/local命令如下:cp jdk-8u191-linu ...

随机推荐

python之scrapy篇(二)
一.创建工程 scarpy startproject xxx 二.编写iteam文件 # -*- coding: utf-8 -*- # Define here the models for your ...
MySql Docker 主主配置
MySql 主主准备2台Linux服务器,并且在两台服务器上,同时安装docker,国内的同学可以使用aliyun的镜像安装. curl -fsSL https://get.docker.com - ...
使用纯 CSS 实现滚动阴影效果
开门见山,有这样一种非常常见的情况,对于一些可滚动的元素而言.通常在滚动的时候会给垂直于滚动的一侧添加一个阴影,用于表明当前有元素被滚动给该滚出了可视区域,类似这样: 可以看到,在滚动的过程中,会出现 ...
强大生产力工具Alfred
今天要给大家介绍的工具是Alfred,一款Mac下的高效生产力产品.它能做什么呢?简单的说就是:让你能够通过打几个字,就可以完成原本需要一顿操作的事情.举一个简单的栗子:如果我们要在Google搜索一 ...
项目API接口鉴权流程总结
权益需求对接中,公司跟第三方公司合作,有时我们可能作为甲方,提供接口给对方,有时我们也作为乙方,调对方接口,这就需要API使用签名方法(Sign)对接口进行鉴权.每一次请求都需要在请求中包含签名信息, ...
LeetCode225 用队列实现栈
使用队列实现栈的下列操作: push(x) -- 元素 x 入栈 pop() -- 移除栈顶元素 top() -- 获取栈顶元素 empty() -- 返回栈是否为空注意: 你只能使用队列的基本操作 ...
Java线程安全与锁优化，锁消除，锁粗化，锁升级
线程安全的定义来自<Java高并发实战>"当多个线程访问一个对象的时候,如果不用考虑这些线程在运行时环境下的调度和交替执行,也不需要进行额外的同步,或者在调用方法的时候进行任何 ...
Linux 安装JDK配置环境(rpm安装和压缩版安装)
jdk安装 (rpm安装) jdk下载地址: https://www.oracle.com/cn/java/technologies/javase/javase-jdk8-downloads.html ...
linux最大打开文件句柄数
linux最大打开文件句柄数,即打开文件数最大限制,就是规定的单个进程能够打开的最大文件句柄数量(Socket连接也算在里面,默认大小1024) liunx中文件句柄有两个限制,一种是用户级的,一种是 ...
【Spring】Spring的事务管理 - 1、Spring事务管理概述（数据库事务、Spring事务管理的核心接口）
Spring事务管理概述文章目录 Spring事务管理概述数据库事务什么是Spring的事务管理? Spring对事务管理的支持 Spring事务管理的核心接口 Platform Transac ...

Linux环境Hadoop安装配置

Linux环境Hadoop安装配置

1. 准备工作

(1)linux配置IP(NAT模式)

(2)linux关闭防火墙

(3)设置主机名

(4)设置映射

(5)设置免密登录

2. 安装jdk

(1)上传安装包:

(2)解压：

(3)配置环境变量：

3. 分发jdk到其他节点

(1)发送文件：

(2)验证：

4. 安装hadoop

(1)上传安装包:

(2)解压：

(3)配置环境变量：

(4)修改配置文件：

(5)修改slaves文件：

(6)格式化namenode

Hadoop集群结构

HDFS_DownLoad

HDFS_Upload

namenode工作机制

datanode工作机制

maptask决定机制

yarn工作流程

mapreduce流程

shuffle机制

Linux环境Hadoop安装配置的更多相关文章

随机推荐

热门专题