详细版在虚拟机安装和使用hadoop分布式集群

　　集群模式:

　　一台master 　　192.168.85.2

　　一台slave 　　　192.168.85.3　

　　jdk　　　　　　jdk1.8.0_74(版本不重要,看喜欢)

　　hadoop版本　　2.7.2(版本不重要,2.*都差不多)

　　本文从安装Ubuntu14.04后开始一步步搭建hadoop集群:

　　简单说一下虚拟机linux系统的搭建:

　　因为要搭建hadoop集群,所以预计至少两台虚拟机,这个不着急,我们可以布置一台然后克隆出另一台,然后稍微改动一下配置

　　我用的镜像是ubuntu-14.04.3-server-amd64.iso,为了主机连接和网络连接建立两个网卡,相关内容可以查看另外一篇博文:本机上搭建虚拟机的网络玩法,安装过程中注意安装openssh服务就好了,安装好之后可以用工具ssh到虚拟机上面操作更方便.安装的时候可以直接指定主机名为master比较好识别,用户名指定为hadoop

　　1.安装jdk

　　查看是否安装jdk

java -version

　　如果未安装参考:Ubuntu系统如何卸载并安装新版本的jdk(permission denied问题),已安装则跳过此步

　　2.下载hadoop

　　我下载的地址http://mirror.bit.edu.cn/apache/hadoop/common/,上面会有很多种版本可以选择,对试用来说都是一样的.随便下一个

　　通过ftp或者ssh传送到虚拟机上解压:

tar zxvf hadoop-2.7..tar.gz

　　重命名:

mv hadoop-2.7. hadoop

　　查看安装目录:

hadoop@master:~/hadoop$ pwd

/home/hadoop/hadoop

　　接下来配置多个配置文件,配置文件集中在安装目录下的的etc/hadoop下,我们将目录切换到该目录下方便操作,我将配置的内容贴出来:

　　slaves文件

vi slaves

　　内容改为

master

　　core-site.xml文件

vi core-site.xml

　　在<configuration>标签中添加如下内容:

<property>

        <name>hadoop.tmp.dir</name>

        <value>/home/hadoop/hadoop/tmp</value>

        <description>Abase for other temporary directories.</description>

    </property>

    <property>

        <name>fs.default.name</name>

        <value>hdfs://master:9000</value>

    </property>

　　hdfs-site.xml

vi hdfs-site.xml

　　添加:

<property>

    <name>dfs.name.dir</name>

    <value>/home/hadoop/hadoop/dfs/name</value>

    <description>Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently.</description>

</property>

<property>

    <name>dfs.data.dir</name>

    <value>/home/hadoop/hadoop/dfs/data</value>

    <description>Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks.</description>

</property>

<property>

    <name>dfs.replication</name>

    <value></value>

</property>

　　mapred-site.xml,这个文件需要从模板中复制一份过来:

cp mapred-site.xml.template mapred-site.xml 
vi mapred-site.xml

　　添加

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

　　yarn-site.xml

vi yarn-site.xml

　　添加:

<property>

    <name>yarn.resourcemanager.hostname</name>

    <value>master</value>

</property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

　　到这边理论上hadoop已经可以跑了.但是在hadoop启动过程中因为脚本的限定可能会报一些环境配置错误,我经过实践为了一绝后患先将该配置的东西配置好

　　首先是的java_home配置:

vi hadoop-env.sh

　　修改

export JAVA_HOME=/home/hadoop/jdk1..0_74

　　然后添加hadoop环境变量配置(在java配置下面添加就行):

export HADOOP_DEV_HOME=/home/hadoop/hadoop

export PATH=$PATH:$HADOOP_DEV_HOME/bin

export PATH=$PATH:$HADOOP_DEV_HOME/sbin

export HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME}

export HADOOP_COMMON_HOME=${HADOOP_DEV_HOME}

export HADOOP_HDFS_HOME=${HADOOP_DEV_HOME}

export YARN_HOME=${HADOOP_DEV_HOME}

export HADOOP_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop

export YARN_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop

　　保存更改

source ~/.bashrc

　　格式化hdfs

bin/hdfs namenode -format

　　在克隆虚拟机之前先将主机配置好.

vi /etc/hosts

　　修改

127.0.0.1       localhost

#127.0.1.1      master

192.168.85.2    master

192.168.85.3    slave1

　　克隆虚拟机,并启动克隆的机器.修改主机名和ip

vi /etc/hostname

　　修改为slave1

vi /etc/network/interfaces

　　看到

# This file describes the network interfaces available on your system

# and how to activate them. For more information, see interfaces().

# The loopback network interface

auto lo

iface lo inet loopback

# The primary network interface

auto eth0

iface eth0 inet dhcp

auto eth1

iface eth1 inet static

address 192.168.85.2

netmask 255.255.255.0

　　修改为

# This file describes the network interfaces available on your system

# and how to activate them. For more information, see interfaces().

# The loopback network interface

auto lo

iface lo inet loopback

# The primary network interface

auto eth0

iface eth0 inet dhcp

auto eth1

iface eth1 inet static

address 192.168.85.3

netmask 255.255.255.0

　　重启机器

　　到此,hadoop集群就搭建完了.

　　安装两台机器后,需要让master无密码登录到slave上面

ssh localhost

cd ~/.ssh

ssh-keygen -t rsa

　　一直确认即可;

　　Master 节点需能无密码 ssh 本机，这一步还是在 Master 节点上执行：

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

　　完成后可以使用 ssh Master 验证一下。接着将公匙传输到 Slave1 节点：

scp ~/.ssh/id_rsa.pub hadoop@Slave1:/home/hadoop/

　　scp时会要求输入Slave1上hadoop用户的密码(hadoop)，输入完成后会提示传输完毕。

　　接着在 Slave1节点 上将ssh公匙保存到相应位置，执行

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

　　我们来测试一下是否可以运行:

sbin/start-dfs.sh

sbin/start-yarn.sh

　　这个命令启动了master和slave上面的东西,用jps查看内容

hadoop@master:~$ jps

 SecondaryNameNode

 Jps

 ResourceManager

 NameNode

　　在slave1中执行jps

 Jps

 DataNode

 NodeManager

　　登录http://192.168.85.2:50070/可以看到master和slave的分布以及启动状况

　　执行经典案例wordcount.

　　新建一个text1.txt并上传到集群

cd

mkdir input

cd input

echo "hello world" > test1.txt

hadoop fs –mkdir input

　　最后一条命令可能会报错,报错找不到input文件夹,那是因为hdfs初始化还没有根目录,加上/就好了

hadoop fs –mkdir /input

　　查看文件:

hadoop@master:~/hadoop$ hadoop fs -ls /

Found  items

drwxr-xr-x   - hadoop supergroup           -- : /input

　　上传文件到input中并查看

hadoop@master:~/hadoop$ hadoop fs -put ../input/*.txt /input
hadoop@master:~/hadoop$ hadoop fs -ls /
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2016-05-10 10:38 /input
hadoop@master:~/hadoop$ hadoop fs -ls /input
Found 2 items
-rw-r--r-- 1 hadoop supergroup 12 2016-05-10 10:38 /input/test1.txt
-rw-r--r-- 1 hadoop supergroup 13 2016-05-10 10:38 /input/test2.txt

　　接下来就是用hadoop自带的一个脚本运行该文件,计算单词数

hadoop/bin/hadoop jar hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7..jar wordcount /input/test1.txt output2

　　格式是hadoop脚本+jar命令+jar脚本+方法+输入文件+输出文件.

　　job开始执行输出

// :: INFO client.RMProxy: Connecting to ResourceManager at master/192.168.85.2:

// :: INFO input.FileInputFormat: Total input paths to process :

// :: INFO mapreduce.JobSubmitter: number of splits:

// :: INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1462879083278_0001

// :: INFO impl.YarnClientImpl: Submitted application application_1462879083278_0001

// :: INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/application_1462879083278_0001/

// :: INFO mapreduce.Job: Running job: job_1462879083278_0001

// :: INFO mapreduce.Job: Job job_1462879083278_0001 running in uber mode : false

// :: INFO mapreduce.Job:  map % reduce %

// :: INFO mapreduce.Job:  map % reduce %

// :: INFO mapreduce.Job:  map % reduce %

// :: INFO mapreduce.Job: Job job_1462879083278_0001 completed successfully

// :: INFO mapreduce.Job: Counters:

    File System Counters

        FILE: Number of bytes read=

        FILE: Number of bytes written=

        FILE: Number of read operations=

        FILE: Number of large read operations=

        FILE: Number of write operations=

        HDFS: Number of bytes read=

        HDFS: Number of bytes written=

        HDFS: Number of read operations=

        HDFS: Number of large read operations=

        HDFS: Number of write operations=

    Job Counters

        Launched map tasks=

        Launched reduce tasks=

        Data-local map tasks=

        Total time spent by all maps in occupied slots (ms)=

        Total time spent by all reduces in occupied slots (ms)=

        Total time spent by all map tasks (ms)=

        Total time spent by all reduce tasks (ms)=

        Total vcore-milliseconds taken by all map tasks=

        Total vcore-milliseconds taken by all reduce tasks=

        Total megabyte-milliseconds taken by all map tasks=

        Total megabyte-milliseconds taken by all reduce tasks=

    Map-Reduce Framework

        Map input records=

        Map output records=

        Map output bytes=

        Map output materialized bytes=

        Input split bytes=

        Combine input records=

        Combine output records=

        Reduce input groups=

        Reduce shuffle bytes=

        Reduce input records=

        Reduce output records=

        Spilled Records=

        Shuffled Maps =

        Failed Shuffles=

        Merged Map outputs=

        GC time elapsed (ms)=

        CPU time spent (ms)=

        Physical memory (bytes) snapshot=

        Virtual memory (bytes) snapshot=

        Total committed heap usage (bytes)=

    Shuffle Errors

        BAD_ID=

        CONNECTION=

        IO_ERROR=

        WRONG_LENGTH=

        WRONG_MAP=

        WRONG_REDUCE=

    File Input Format Counters

        Bytes Read=

    File Output Format Counters

        Bytes Written=

　　http://master:8088/proxy/application_1462879083278_0001/可以查看当前job的运行状态,在运行过程中可以查看.看到map 100% reduce 100%就是运行成功了,可以登录http://192.168.85.2:8088/cluster查看具体信息

　　最后关闭hadoop集群

sbin/stop-dfs.sh

sbin/stop-yarn.sh

　　是不是很简单呢.

详细版在虚拟机安装和使用hadoop分布式集群的更多相关文章

Hadoop教程(五)Hadoop分布式集群部署安装
Hadoop教程(五)Hadoop分布式集群部署安装 1 Hadoop分布式集群部署安装在hadoop2.0中通常由两个NameNode组成,一个处于active状态,还有一个处于standby状态 ...
CentOS6安装各种大数据软件第四章：Hadoop分布式集群配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
超详细从零记录Hadoop2.7.3完全分布式集群部署过程
超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程.包含,Ubuntu服务器创建.远程工具连接配置.Ubuntu服务器配置.Hadoop文件配置.Had ...
Hadoop分布式集群搭建hadoop2.6+Ubuntu16.04
前段时间搭建Hadoop分布式集群,踩了不少坑,网上很多资料都写得不够详细,对于新手来说搭建起来会遇到很多问题.以下是自己根据搭建Hadoop分布式集群的经验希望给新手一些帮助.当然,建议先把HDFS ...
一脸懵逼学习Hadoop分布式集群HA模式部署（七台机器跑集群）
1)集群规划:主机名 IP 安装的软件运行的进程master 192.168.199.130 jdk.hadoop ...
超快速使用docker在本地搭建hadoop分布式集群
超快速使用docker在本地搭建hadoop分布式集群超快速使用docker在本地搭建hadoop分布式集群学习hadoop集群环境搭建是hadoop入门的必经之路.搭建分布式集群通常有两个办法: ...
大数据系列之Hadoop分布式集群部署
本节目的:搭建Hadoop分布式集群环境环境准备 LZ用OS X系统 ,安装两台Linux虚拟机,Linux系统用的是CentOS6.5:Master Ip:10.211.55.3 ,Slave ...
基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
1. 介绍在过去几年中,神经网络已经有了很壮观的进展,现在他们几乎已经是图像识别和自动翻译领域中最强者[1].为了从海量数据中获得洞察力,需要部署分布式深度学习.现有的DL框架通常需要为深度学习设置 ...
Hadoop分布式集群搭建
layout: "post" title: "Hadoop分布式集群搭建" date: "2017-08-17 10:23" catalog ...

随机推荐

chrome插件:打开新tab时自动打开百度
下载安装: 解压到某一目录如要修改自动跳转链接:修改go.js中的url (function (){ chrome.tabs.getCurrent(function(tab){ chrome.ta ...
JDK和JRE的区别
JDK(Java Development Kit)是针对Java开发员的产品,是整个Java的核心,包括了Java运行环境JRE.Java工具和Java基础类库.Java Runtime Enviro ...
hdu_3966_Aragorn's Story(树链剖分裸题)
题目连接:http://acm.hdu.edu.cn/showproblem.php?pid=3966 题意:给你一棵树,然后给定点之间的路径权值修改,最后单点查询题解:树链剖分裸题,这里我用树状数 ...
禁止一些地区的ip用户访问网站
01 framework.php 中获取请求的ip地址.保存为常量 define('IP', request::get_clientip()); 02 setting表中.属于system模块,保存 ...
read file in a single line
String text= new Scanner(File('input.txt')).useDelimiter("\\A").next(); java version!
Apache的最小配置
以下配置是Apache的最小配置,路径为/usr/local/apache2/conf/include/lww.xhprof.conf <VirtualHost *:> ServerNam ...
utf8 文件错误保存为gbk 中文乱码解决方法
用zend studio 将utf-8 格式的文件保存为 gbk 了,之后无论怎么装换中文都是乱码用 beyond compare(文件比较工具对编码支持的比较强大) 打开,改下编码,中文就 ...
AOP与动态代理有什么联系
曾遇到“AOP与动态代理有什么联系”的问题,现把个人观点整理如下: 我觉得,动态代理是AOP的主要实现手段之一,AOP是动态代理的一种应用深化 AOP是一种思想,或者是方法论,类似OOP,是OOP的有 ...
编译 wl18xx驱动源码
在做beagleboneblack移植的时候,wl18xx的驱动源码是自动编译的.但是移植到其他平台优越平台不一样,所以就不能自动编译所以用其他方式编译.http://e2e.ti.com/supp ...
使用oracle数据库开发，异常总结
最近两天使用的oracle数据库开发项目时遇到了2个异常,第一个是执行sql语句时报异常:“ORA-00911: 无效字符”,如下图: sql语句如下: 断点调试,把sql语句拷贝到pl/sql里执行 ...

详细版在虚拟机安装和使用hadoop分布式集群

详细版在虚拟机安装和使用hadoop分布式集群的更多相关文章

随机推荐

热门专题