Hadoop学习历程（一、编译）

【Hadoop学习历程（一、编译）】的更多相关文章

[Hadoop] Hadoop学习历程 [持续更新中…]

1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成,而这就是Hadoop FS Shell.它主要是用于对Hadoop平台进行文件系统的管理. 有关HDFS的介绍博客请移步:Hadoop学习笔记之Hadoop基础. 有关Hadoop FS Shell的学习文档:Hadoop FS Shell学习文档. 2. Hadoop Streaming 我们知…

Hadoop学习历程（一、编译）

近期对Hadoop很感兴趣,下面是在CentOS系统上进行编译的分享系统情况如下: 1. CentOS 6.2 64位 2. hadoop-2.2.0 3. jdk 1.6.0_31 4. maven 3.1.0 5. protobuf-2.5.0 6. cmake 2.8.12.1 系统中已经安装好了JDK,并正确进行了设置,这里不说明JDK的安装与设置,请自行查阅第一步:安装maven 1.1 下载文件 apache-maven-3.1.0-alpha-1-…

Hadoop学习历程（五、真正的分布式系统搭建）

之前都是单节点进行的操作与测试,现在进行真正的多节点系统搭建 1. 准备系统与配置共准备4台机器搭建Hadoop集群.基于CentOS6.2,jdk1.6.0_31,Hadoop2.2.0版本 192.168.1.132 NameNode Master132.Hadoop (Master) 192.168.1.110 DateNode Slave110.Hadoop (Slave) 192.168.1.141 DateNode Slave141.Hadoop (Slave) 1…

Hadoop学习历程（二、配置）

以下是进行单节点Hadoop配置的内容,多节点也类似 1. 进行Hadoop的安装 1.1 上文进行了Hadoop的编译,将编译结果目录 hadoop-2.2.0 拷贝为 /usr/hadoop 目录 1.2 编辑/etc/profile 文件,增加如下的内容 export HADOOP_PREFIX=/usr/hadoop export PATH=$PATH:$HADOOP_PREFIX/bin export PATH=$PATH:$HADOOP_PREFIX/sbin export HADO…

Hadoop学习历程（四、运行一个真正的MapReduce程序）

上次的程序只是操作文件系统,本次运行一个真正的MapReduce程序. 运行的是官方提供的例子程序wordcount,这个例子类似其他程序的hello world. 1. 首先确认启动的正常:运行 start-all.sh 2. 执行jps命令检查:NameNode,DateNode,SecondaryNameNode,ResourceManager,NodeManager是否已经启动正常.这里我遇到了一个问题,NodeManager没有正常启动.错误信息如下: 2014-01-07 13:46…

Hadoop学习历程（三、第一个程序）

根据之前的操作,我们已经可以正常的启动Hadoop了,关于真正的集群我会在之后进行说明.现在我们来看一下第一个程序吧 1. 在eclipse上建立一个java项目 2. 将 /usr/hadoop/share/hadoop/common/hadoop-common-2.2.0.jar 文件导入到项目中 3. 将 /usr/hadoop/share/hadoop/common/lib/commons-logging-1.1.1.jar 文件导入到项目中 4. 编写代码如下 import java.…

Hadoop学习之旅三：MapReduce

MapReduce编程模型在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的诸如Web请求日志.爬虫抓取的文档之类的数据需要处理,由于数据量巨大,只能将其分散在成百上千台机器上处理,如何处理并行计算.如何分发数据.如何处理错误,所有这些问题综合在一起,需要大量的代码处理,因此也使得原本简单的运算变得难以处理. 为了解决上述复杂的问题,Google设计一个新的抽象模型,使用这…

Hadoop学习（5）-- Hadoop2

在Hadoop1(版本<=0.22)中,由于NameNode和JobTracker存在单点中,这制约了hadoop的发展,当集群规模超过2000台时,NameNode和JobTracker已经不堪重负.于是,全新架构的hadoop2(版本>=0.23)诞生了,可以支持分布式NameNode.NameNode HA(NameNode High Available),实现了NameNode的横向扩展,使得集群规模最大可支持上万个节点. 一.Hadoop2介绍 1.Hadoop1局限性 NameN…

Hadoop学习笔记(5) ——编写HelloWorld(2)

Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写. DFS是什么,之前已经了解过,它是一个分布式文件存储系统.不管是远程或本地的文件系统,其实从接口上讲,应该是一至的,不然很难处理.同时在第2节的最后,我们列出了很多一些DFS的操作命令,仔细看一下,这…

Hadoop学习笔记(3)——分布式环境搭建

Hadoop学习笔记(3) ——分布式环境搭建前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台作为从机(slaver).同时,这台主机,我们就用第一章中搭建好的环境来. 我们采用与第一章中相似的步骤来操作: 运行环境搭建在前面,我们知道,运行hadoop是在linux上运行的.所以我们单机就在…