Hadoop伪分布式模式部署
Hadoop的安装有三种执行模式:
- 单机模式(Local (Standalone) Mode):Hadoop的默认模式,0配置。Hadoop执行在一个Java进程中。使用本地文件系统。不使用HDFS,一般用于开发调试MapReduce程序的应用逻辑。
- 伪分布式模式(Pseudo-Distributed Mode):需简单配置,相当于仅仅有一个节点的集群,Hadoop的全部守护进程执行在同一台机器上。该模式在单机模式之上添加了代码调试功能,同意你检查内存使用情况,HDFS输入输出。以及其它的守护进程交互。
- 全然分布式模式(Fully-Distributed Mode):依据须要进行配置。多节点,一般用于生产环境。可觉得是由伪分布式模式的一个节点变为多个节点。
准备工作
这里的准备工作能够查看Hadoop单机模式部署准备工作。
总结一下就是:
- Linux系统环境
- 安装JDK及其环境变量、ssh及ssh的免password登录
- Hadoop安装包
- 环境变量的配置
环境搭建
改动core-site.xml
改动$HADOOP_HOME/etc/hadoop/core-site.xml
文件。在默认情况下,这个文件为空。没有不论什么配置。这里须要指定NameNode
的ip和port(默认port是8020)。
- <configuration>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://192.168.1.134:9000</value>
- </property>
- </configuration>
192.168.1.134是我的本机地址。能够写localhost或127.0.0.1。可是假设须要Eclipse远程调用Hadoop的时候,须要些详细的ip地址。否则调不通。
改动hdfs-site.xml
HDFS是分布式文件系统。为了安全性考虑,会将上传至HDFS的文件的每一个分块复制到N个节点上,即复制N次(这里的N成为复制因子)。这里将复制因子改为1。
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- </configuration>
启动最小Hadoop伪分布式模式
经过上面的最小配置后,Hadoop已经能够启动伪分布式模式了。
格式化文件系统
第一次执行Hadoop的时候须要格式化其文件系统:
- $ bin/hdfs namenode -format
假设成功,会打印:
- 。。。
- 14/10/14 19:09:05 INFO common.Storage: Storage directory /tmp/hadoop-lxh/dfs/name has been successfully formatted.
- 。
- 。。
启动NameNode守护进程和DataNode守护进程
直接通过Hadoop提供的脚本start-dfs.sh
就可以:
- $ sbin/start-dfs.sh
启动日志保存在$HADOOPLOGDIR文件夹中(默认是$HADOOP_HOME/logs)。
查看启动的进程
能够通过jps
查看已经启动的进程:
- 31536 SecondaryNameNode
- 31381 DataNode
- 31254 NameNode
- 31643 Jps
说明DataNode
、NameNode
、SecondaryNameNode
已经启动成功。
查看NameNode的web接口
通过默认的NameNode的web接口http://localhost:50070/,能够查看NameNode收集的信息。相当于关于Hadoop提供的一个信息查询系统。
Hello World
运行官网提供的验证程序。
- $ hdfs dfs -mkdir /input
- $ hdfs dfs -put $HADOOP_HOME/etc/hadoop/* /input
- $ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep /input /output 'dfs[a-z.]+'
- $ hdfs dfs -cat /output/*
最后一条命令是显示最后的运行结果:
- 6 dfs.audit.logger
- 4 dfs.class
- 3 dfs.server.namenode.
- 2 dfs.period
- 2 dfs.audit.log.maxfilesize
- 2 dfs.audit.log.maxbackupindex
- 1 dfsmetrics.log
- 1 dfsadmin
- 1 dfs.servers
- 1 dfs.replication
- 1 dfs.file
停止进程
伪分布式模式中的第一个Hello World运行成功后,能够关闭进程了。
- $ stop-dfs.sh
配置YARN
通过配置一些參数,并启动ResourceManager守护进程和NodeManager守护进程,能够在伪分布式模式中,在YARN
上执行MapReduce任务。
上面的最小配置不变。
改动mapred-site.xml
在默认的Hadoop安装包中,没有mapred-site.xml文件,能够复制mapred-site.xml.template,并改动。指定在YARN中执行MapReduce任务:
- <configuration>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- </configuration>
改动yarn-site.xml
指明须要向MapReduce应用提供的Shuffle服务。
- <configuration>
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce_shuffle</value>
- </property>
- </configuration>
执行
能够通过start-yarn.sh
启动ResourceManager守护进程和NodeManager守护进程,通过stop-yarn.sh
停止。
补充配置
Hadoop默认将HDFS文件系统写在/tmp/hadoop-中。由于系统重新启动会清理/tmp文件夹。所以须要保证重新启动系统不丢失数据,须要改动默认数据保存位置。
core-site.xml
- <property>
- <name>hadoop.tmp.dir</name>
- <value>file:/home/lxh/hadoop/tmp/hadoop</value>
- </property>
hdfs-site.xml
- <property>
- <name>dfs.namenode.name.dir</name>
- <value>file:/home/lxh/hadoop/hdfs/name</value>
- </property>
- <property>
- <name>dfs.datanode.data.dir</name>
- <value>file:/home/lxh/hadoop/hdfs/data</value>
- </property>
Hadoop伪分布式模式部署的更多相关文章
- 初学者值得拥有【Hadoop伪分布式模式安装部署】
目录 1.了解单机模式与伪分布模式有何区别 2.安装好单机模式的Hadoop 3.修改Hadoop配置文件---五个核心配置文件 (1)hadoop-env.sh 1.到hadoop目录中 2.修 ...
- Hadoop伪分布式模式搭建
title: Hadoop伪分布式模式搭建 Quitters never win and winners never quit. 运行环境: Ubuntu18.10-server版镜像:ubuntu- ...
- Hadoop伪分布式模式安装
一.Hadoop介绍 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上:而且 ...
- 在Hadoop伪分布式模式下安装Hive(derby,mysql)
我的Hadoop版本是1.2.0,mysql版本是5.6.12. 先介绍一下嵌入式derby模式: 1.下载/解压 在hive官网上选择要下载的版本,我选择的版本是hive-0.10.0. 下载好解压 ...
- 在Hadoop伪分布式模式下安装Hbase
安装环境:Hadoop 1.2.0, Java 1.7.0_21 1.下载/解压 在hbase官网上选择自己要下的hbase版本,我选择的是hbase-0.94.8. 下载后解压到/usr/local ...
- VMware workstation 下Hadoop伪分布式模式安装
详细过程: 1.VMware安装: 2.centos 6 安装 3.jdk下载安装配置 4.Hadoop 安装配置 1.VMware Workstation 安装: https://www.vmwar ...
- Hadoop伪分布式模式
搭建在单一服务器 基于官方文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/SingleCluster ...
- Hadoop完全分布式模式安装部署
在Linux上搭建Hadoop系列:1.Hadoop环境搭建流程图2.搭建Hadoop单机模式3.搭建Hadoop伪分布式模式4.搭建Hadoop完全分布式模式 注:此教程皆是以范例讲述的,当然你可以 ...
- Hadoop伪分布模式配置部署
.实验环境说明 注意:本实验需要按照上一节单机模式部署后继续进行操作 1. 环境登录 无需密码自动登录,系统用户名 shiyanlou,密码 shiyanlou 2. 环境介绍 本实验环境采用带桌面的 ...
随机推荐
- Hierarchical Storage structure
1.hierarchical storage structure This notion of inserting a smaller, faster storage device (e.g ...
- hdu 1085 Holding Bin-Laden Captive! (母函数)
//给你面值为1,2,5的三种硬币固定的数目,求不能凑出的最小钱数 //G(x)=(1+x+...+x^num1)(1+x^2+...+x^2num2)(1+x^5+,,,+x^5num3), //展 ...
- Node.js入门-Node.js 介绍
Node.js 是什么 Node.js 不是一种独立的语言,与 PHP,Python 等"既是语言优势平台"不同,它也不是一个 JavaScrip 框架,不同于 CakePHP,D ...
- Thread.Sleep(0)的意义 操作系统中CPU的竞争策略
在线程的学习中遇到的 不太明白就搜了一下 有一篇觉得写得很好的分享一下 转载:http://www.360doc.com/content/12/1220/07/1054746_255212714.s ...
- javascript学习(9)——[设计模式]单例
单例模式,相信大家对此都不陌生,我们主要讲下javascript中几个比较常见的设计模式: (1).普通的单体 (2).具有局部变量的强大单体 (3).惰性单体 (4).分支单体 下面我们就一一进行介 ...
- XML 学习之保存节点
XmlDocumnet WriteTo 方法 说明: 保存xmldocument对象节点到xmlwriter(即xml文件写入流) 实例: public static void WriteXml( X ...
- ELK 之四:搭建集群处理日PV 四亿次超大访问量优化方法
最近公司的网站访问量越来越大,采用4台高配置服务器做后端Server,前端使用一个负载,日志从后端4台服务器收集到ELK统计,但是最近Logstash经常出问题,每次启动运行三四个小时就挂了,分析是由 ...
- Arcengine 开发,FeatureClass新增feature时“The Geometry has no z-value”或"The Geometry has null z-value"的解决方案
Arcengine 开发,当图层含有Z值时,新增的feature没有Z值就会 出现“The Geometry has no z-value”的错误.意思很明显,新增的geometry没有Z值. 此时按 ...
- WebRTC–getUserMedia & Canvas
下面是一个使用getUserMedia接口和Canvas的drawImage方法实现的截图功能(截取视频中的一帧). 基本思路是这样子的: getUserMedia获取一个MediaStream, s ...
- mysql基础(mysql数据库导入到处) 很基础很实用
一.MYSQL的命令行模式的设置:桌面->我的电脑->属性->环境变量->新建->PATH=“:path\mysql\bin;”其中path为MYSQL的安装路径.二.简 ...