hadoop-0.23.9安装以及第一个mapreduce测试程序

hadoop是一个能够对大量数据进行分布式处理的软件框架。它实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

这里是一些公司使用hadoop的情况，POwerByWIki ：http://wiki.apache.org/hadoop/PoweredBy，可以看到目前hadoop在世界范围内的的使用情况。

对这个东西的介绍也就不再多说，并且关于他的一个架构大家可以google去查询（主从关系Master-Slaves），我更多的是想通过hadoop这个并行框架学习如何去写mapreduce，所以就今天这里只说说一开始如何安装并配置hadoop，并且最后利用《hadoop实战》上的一个简单的wordcount来测试我们的hadoop是否搭建成功。（当然hadoop本身适用于集群的数据处理工作，但是这里我只是学习下简单的mapreduce，所以可以将它配置为一个伪分布式的模式，只在本机上运行就ok！）

[环境说明]：

Ubuntu12.10 +hadoop-0.23.9+openjdk1.7.0

[Start]：

首先我们需要一个hadoop的releases版本，可以从这个链接下载：http://mirrors.cnnic.cn/apache/hadoop/common/

然后

tar -xzf hadoop-0.23.9.tar.gz

     sudo mv hadoop-0.23.9 /usr/local/      (目录自己设定，后面的配置文件目录要保持一致)

cd /usr/local/

     sudo ln -s hadoop-0.23.9/  hadoop

完成后需要安装我们的java jdk了，可以直接sudo apt-get install openjdk-7-jre

安装完后可以看看java的版本： java -version

[Step 2]:

安装ssh-server，ubuntu默认只会安装ssh的client，你的机子如果每安装过ssl-server端，别人是没办法ssh你的机子。

sudo apt-get install openssh-server或是 sudo apt-get install ssh

然后配置本机无密钥登录，

ssh-keygen -t rsa -P ""

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

可以检测下是否成功,即登录自己的自己，with command : ssh localhost

[Step 3]:

当然我么需要为hadoop自己建立一个用户组，这样是为了以后的事物处理，在这个用户组下在建立一个hadoop用户，当然master管辖下的一个slave，在集群上，就会有许多的用户了，相当于Mul-slave。

创建hadoop用户组：

sudo addgroup hadoop

创建hadoop用户：

sudo adduser -ingroup hadoop hadoop

给hadoop这个用户设置权限，编辑/etc/sudoers文件，给hadoop用户赋予root用户同样的权限，

在root ALL=(ALL:ALL) ALL下添加 hadoop ALL=(ALL:ALL) ALL，

[Step 4]:

在这一步，我们就开始配置我们的hadoop的配置:

chown -R hadoop:hadoop /usr/local/hadoop
chown -R hadoop:hadoop /usr/local/hadoop-0.23.9

切换用户:su hadoop

1. 配置jdk及hadoop环境变量

编辑 sudo vim /etc/profile ,添加以下配置信息：

#java environment

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-i386/

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

#hadoop environment

export HADOOP_PREFIX=/usr/local/hadoop-0.23.9

export PATH=$PATH:$HADOOP_PREFIX/bin

export PATH=$PATH:$HADOOP_PREFIX/sbin

export HADOOP_MAPRED_HOME=${HADOOP_PREFIX}

export HADOOP_COMMON_HOME=${HADOOP_PREFIX}

export HADOOP_HDFS_HOME=${HADOOP_PREFIX}

export YARN_HOME=${HADOOP_PREFIX}

export HADOOP_CONF_DIR=${HADOOP_PREFIX}/etc/hadoop

export YARN_CONF_DIR=${HADOOP_PREFIX}/etc/hadoop

2.hadoop 文件配置

hadoop@szm-Lenovo:~$ cd /usr/local/hadoop/etc/hadoop/

hadoop@szm-Lenovo:/usr/local/hadoop/etc/hadoop$ vim yarn-env.sh

添加配置信息:

export HADOOP_FREFIX=/usr/local/hadoop
export HADOOP_COMMON_HOME=${HADOOP_FREFIX}
export HADOOP_HDFS_HOME=${HADOOP_FREFIX}
export PATH=$PATH:$HADOOP_FREFIX/bin
export PATH=$PATH:$HADOOP_FREFIX/sbin
export HADOOP_MAPRED_HOME=${HADOOP_FREFIX}
export YARN_HOME=${HADOOP_FREFIX}
export HADOOP_CONF_HOME=${HADOOP_FREFIX}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_FREFIX}/etc/hadoop

之后就需要配置hadoop的运行配置文件：
hadoop@szm-Lenovo:/usr/local/hadoop/etc/hadoop$ vim core-site.xml

配置为：

<configuration>

<property> 

    <name>fs.defaultFS</name> 

    <value>hdfs://localhost:12200</value> 

  </property>

  <property>  

    <name>hadoop.tmp.dir</name> 

    <value>/usr/local/hadoop/hadoop-root</value> 

  </property> 

<property>

  <name>fs.arionfs.impl</name>

  <value>org.apache.hadoop.fs.pvfs2.Pvfs2FileSystem</value>

  <description>The FileSystem for arionfs.</description>

</property>

</configuration>

hadoop@szm-Lenovo:/usr/local/hadoop/etc/hadoop$ vim hdfs-site.xml

<configuration>

 <property>

    <name>dfs.namenode.name.dir</name>

    <value>file:/usr/local/hadoop/data/dfs/name</value>

    <final>true</final>

    </property>

    <property>

    <name>dfs.namenode.data.dir</name>

    <value>file:/usr/local/hadoop/data/dfs/data</value>

    <final>true</final>

    </property>

    <property>  

    <name>dfs.replication</name>

    <value>1</value>

    </property>

    <property>

    <name>dfs.permission</name>

    <value>false</value>

    </property>

</configuration>

hadoop@szm-Lenovo:/usr/local/hadoop/etc/hadoop$ vim mapred-site.xml (原来存在的是有后缀为.template的文件，改掉)

<configuration>

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

    </property>

    <property>

    <name>mapreduce.job.tracker</name>

    <value>hdfs://localhost:9001</value>

    <final>true</final>

    </property>

    <property>

    <name>mapreduce.map.memory.mb</name>

    <value>1536</value>

    </property>

    <property>

    <name>mapreduce.map.java.opts</name>

    <value>-Xmx1024M</value>

    </property>

    <property>

    <name>mapreduce.reduce.memory.mb</name>

    <value>3072</value>

    </property>

    <property>

    <name>mapreduce.reduce.java.opts</name>

    <value>-Xmx2560M</value>

    </property>

    <property>

    <name>mapreduce.task.io.sort.mb</name>

    <value>512</value>

    </property>

 <property>

    <name>mapreduce.task.io.sort.factor</name>

    <value>100</value>

    </property>    

    <property>

    <name>mapreduce.reduce.shuffle.parallelcopies</name>

    <value>50</value>

    </property>

    <property>

    <name>mapreduce.system.dir</name>

    <value>file:/usr/local/hadoop/data/mapred/system</value>

    </property>

    <property>

    <name>mapreduce.local.dir</name>

    <value>file:/usr/local/hadoop/data/mapred/local</value>

    <final>true</final>

    </property>

</configuration>

hadoop@szm-Lenovo:/usr/local/hadoop/etc/hadoop$ vim yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

<property> 

    <name>yarn.nodemanager.aux-services</name> 

    <value>mapreduce.shuffle</value> 

  </property> 

  <property> 

    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> 

    <value>org.apache.hadoop.mapred.ShuffleHandler</value> 

  </property> 

  <property> 

    <name>mapreduce.framework.name</name> 

    <value>yarn</value> 

  </property> 

  <property> 

    <name>user.name</name> 

    <value>hadoop</value> 

  </property> 

  <property> 

    <name>yarn.resourcemanager.address</name> 

    <value>localhost:54311</value> 

  </property> 

  <property> 

    <name>yarn.resourcemanager.scheduler.address</name> 

    <value>localhost:54312</value> 

  </property>

<property> 

    <name>yarn.resourcemanager.webapp.address</name> 

    <value>localhost:54313</value> 

  </property> 

  <property> 

    <name>yarn.resourcemanager.resource-tracker.address</name> 

    <value>localhost:54314</value> 

  </property> 

  <property> 

    <name>yarn.web-proxy.address</name> 

    <value>localhost:54315</value> 

  </property> 

  <property> 

    <name>mapred.job.tracker</name> 

    <value>localhost</value> 

  </property>

</configuration>

编辑完成后就差不多将hadoop的配置信息改完了，其中的localhost因为是运行在本机的伪分布式，当然可以根据实际的集群关系该为该宿主机的信息

[Step 5]:

测试我们的hadoop是否运行,

hadoop@szm-Lenovo:~$ cd /usr/local/hadoop/sbin/

hadoop@szm-Lenovo:/usr/local/hadoop/sbin$ ./start-dfs.sh

Starting namenodes on [localhost]
localhost: starting namenode, logging to /usr/local/hadoop-0.23.9/logs/hadoop-hadoop-namenode-szm-Lenovo.out
localhost: starting datanode, logging to /usr/local/hadoop-0.23.9/logs/hadoop-hadoop-datanode-szm-Lenovo.out
Starting secondary namenodes [3dns-2.adobe.com]
3dns-2.adobe.com: starting secondarynamenode, logging to /usr/local/hadoop-0.23.9/logs/hadoop-hadoop-secondarynamenode-szm-Lenovo.out

hadoop@szm-Lenovo:/usr/local/hadoop/sbin$ ./start-yarn.sh

hadoop@szm-Lenovo:/usr/local/hadoop/sbin$ ./start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /usr/local/hadoop-0.23.9/logs/yarn-hadoop-resourcemanager-szm-Lenovo.out
localhost: starting nodemanager, logging to /usr/local/hadoop-0.23.9/logs/yarn-hadoop-nodemanager-szm-Lenovo.out

可以用java的Jps命令查看hadoop是否成功运行：

hadoop@szm-Lenovo:/usr/local/hadoop/sbin$ jps

1200 Jps

27288 NameNode

32150 ResourceManager

28138 SecondaryNameNode

32375 NodeManager

27668 DataNode

如果显示为上面的信息，则证明hadoop正常运行，上面的几个进程namenode是集群上的宿主节点信息，然后还有mapreduce对应的任务检测进程，可以查看集群节点的任务提交情况，然后处理。(我也是刚开始看，架构还不是很懂)

[STep 6 ]:

成功后我们就可以测试下第一个mapreduce程序，利用它自带的一个wordcount例子来运行下，

在一个目录下建立文件：hadoop@szm-Lenovo:~/jkl$ touch test.txt

编辑文件内容为：hadoop@szm-Lenovo:~/jkl$ cat test.txt
a s d f g h j k l p o i u y t r e w q z x c v b n m s d f a g h y t c v g f d s

在hadoop的hdfs文件系统建立一个文件夹

hadoop@szm-Lenovo:~/jkl$ hadoop fs -mkdir /test

提交test.txt

hadoop@szm-Lenovo:~/jkl$ hadoop fs -copyFromLocal test.txt /test

产看提交信息：

hadoop@szm-Lenovo:~/jkl$ hadoop fs -ls /test

Found 1 items
-rw-r--r-- 1 hadoop supergroup 80 2013-10-10 16:29 /test/test.txt

然后运行wordcount：

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-0.23.9.jar wordcount /test/test.txt /test/out

查看结果信息:

hadoop@szm-Lenovo:~/jkl$ hadoop fs -ls /test/out
Found 2 items
-rw-r--r-- 1 hadoop supergroup 0 2013-10-10 16:32 /test/out/_SUCCESS
-rw-r--r-- 1 hadoop supergroup 104 2013-10-10 16:32 /test/out/part-r-00000

查看单词统计结果：

hadoop@szm-Lenovo:~/jkl$ hadoop fs -cat /test/out/part-r-00000

运行结果就是上面的样子，一个整体的体验流程就是这样，然后我们需要现在单机上学习如何写我们的mapreduce程序。若是想拓展当然可以搞一个真正的集群，可惜，现在没有硬件设备。就是自己的PC。好了，就到这里，手酸了。

hadoop-0.23.9安装以及第一个mapreduce测试程序的更多相关文章

Java和eclipxe的安装以及第一个程序
首先我们需要下载java开发工具包JDK,下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 注意事项:安装 ...
redis-desktop-manager 0.9.3 安装（最后一个免费版本）
使用Chocolatey(Windows包管理工具)安装官方安装说明 https://chocolatey.org/install 安装redis-desktop-manager 官方安装说明 ht ...
HDFS设计思路，HDFS使用，查看集群状态，HDFS，HDFS上传文件，HDFS下载文件，yarn web管理界面信息查看，运行一个mapreduce程序，mapreduce的demo
26 集群使用初步 HDFS的设计思路 l 设计思想分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l 在大数据系统中作用: 为各类分布式 ...
【hadoop之翊】——基于CentOS的hadoop2.4.0伪分布安装配置
今天总算是把hadoop2.4的整个开发环境弄好了,包括 windows7上eclipse连接hadoop,eclipse的配置和測试弄得烦躁的一逗比了~ 先上一张成功的图片,hadoop的伪分布式安 ...
hadoop 2.2.0集群安装
相关阅读: hbase 0.98.1集群安装本文将基于hadoop 2.2.0解说其在linux集群上的安装方法,并对一些重要的设置项进行解释,本文原文链接:http://blog.csdn.net ...
hadoop 0.20.2伪分布式安装详解
adoop 0.20.2伪分布式安装详解 hadoop有三种运行模式: 伪分布式不需要安装虚拟机,在同一台机器上同时启动5个进程,模拟分布式. 完全分布式至少有3个节点,其中一个做master,运行名 ...
hadoop 2.2.0集群安装详细步骤（简单配置，无HA）
安装环境操作系统:CentOS 6.5 i586(32位)java环境:JDK 1.7.0.51hadoop版本:社区版本2.2.0,hadoop-2.2.0.tar.gz 安装准备设置集群的host ...
SmartIDE v1.0.23 一个非常不敏捷的发布
SmartIDE v1.0版本(CLI Build v1.0.23.4650,Server Build v1.0.23.4646)已经发布,在超过4000 个 Builds 之后,我们终于发布了v1. ...
[视频解说]Java(JDK的下载安装及第一个程序执行)
(JDK的下载安装及第一个程序执行) 内容:Java JDK 的安装以及HelloWorld 程序的执行欢迎童鞋们前往围观 http://v.youku.com/v_show/id_XODA3Mzk ...

随机推荐

Protocol Buffer使用
Protocol Buffer使用简介字数2630 阅读5067 评论1 喜欢12 我们项目中使用protocol buffer来进行服务器和客户端的消息交互,服务器使用C++,所以本文主要描述pr ...
Install mcrypt for php on Mac OSX 10.10 Yosemite for a Development Server
mcrypt is a file encryption method using secure techniques to exchange data. It is required for some ...
STM32的SPI问题。
问题描述: 之前一直使用的单片机是LPC2109,对其SPI很熟悉.基本就是原本拿来稍作修改就用.由于某种原因需要使用STM32,然后设备的驱动是之前写好的,只修改了一些硬件控制端口,由于硬件驱动使用 ...
silverlight 控件自定义样式实现方法
1:在app.xaml中加入需实现的样式,如: <Application.Resources> <Style x:Key="NodeStyle" TargetTy ...
javaScript基础之闭包
不管是Jquery还是EXTJS,现代的js框架中大量应用了js的一些特性,比如:匿名函数,闭包等等,导致源代码非常难以阅读. 不过要想真正的使用好前台的UI技术,还是需要去深入的理解这些概念. ...
【BZOJ】【2223】【COCI 2009】PATULJCI
可持久化线段树同BZOJ 3524,但是不要像我一样直接贴代码……TAT白白WA了一次,so sad /*********************************************** ...
导入 github 步骤
https://github.com/dotnet/corefx 如果出现未能找到解决方案的情况,则找项目文件打开,如:
Taxi Trip Time Winners' Interview: 3rd place, BlueTaxi
Taxi Trip Time Winners' Interview: 3rd place, BlueTaxi This spring, Kaggle hosted two competitions w ...
[设计模式] 12 代理模式 proxy
在GOF的<设计模式:可复用面向对象软件的基础>一书中对代理模式是这样说的:为其他对象提供一种代理以控制对这个对象的访问.结合上面的游戏代理的例子和下面的图,我们来进行分析一下.以前你是这 ...
ext3grep 恢复删除
Linux ext2/ext3 文件删除恢复工具ext3grep安装使用 2010-08-23 18:03:10| 分类: 默认分类|举报|字号订阅一．安装前系统环 ...

hadoop-0.23.9安装以及第一个mapreduce测试程序

hadoop-0.23.9安装以及第一个mapreduce测试程序的更多相关文章

随机推荐

热门专题