自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔记系列>.其实,早在2014年Hadoop2.x版本就已经开始流行了起来,并且已经成为了现在的主流.当然,还有一些非离线计算的框架如实时计算框架Storm,近实时计算框架Spark等等.相信了解Hadoop2.x的童鞋都应该知道2.x相较于1.x版本的更新应该不是一丁半点,最显著的体现在两点: (1)H…
1. Hadoop FS Shell Hadoop之所以可以实现分布式计算,主要的原因之一是因为其背后的分布式文件系统(HDFS).所以,对于Hadoop的文件操作需要有一套全新的shell指令来完成,而这就是Hadoop FS Shell.它主要是用于对Hadoop平台进行文件系统的管理. 有关HDFS的介绍博客请移步:Hadoop学习笔记之Hadoop基础. 有关Hadoop FS Shell的学习文档:Hadoop FS Shell学习文档. 2. Hadoop Streaming 我们知…
之前都是单节点进行的操作与测试,现在进行真正的多节点系统搭建 1. 准备系统与配置 共准备4台机器搭建Hadoop集群.基于CentOS6.2,jdk1.6.0_31,Hadoop2.2.0版本 192.168.1.132 NameNode Master132.Hadoop (Master) 192.168.1.110 DateNode  Slave110.Hadoop   (Slave) 192.168.1.141 DateNode    Slave141.Hadoop   (Slave) 1…
近期对Hadoop很感兴趣,下面是在CentOS系统上进行编译的分享 系统情况如下: 1. CentOS 6.2 64位    2. hadoop-2.2.0    3. jdk 1.6.0_31    4. maven 3.1.0    5. protobuf-2.5.0    6. cmake 2.8.12.1 系统中已经安装好了JDK,并正确进行了设置,这里不说明JDK的安装与设置,请自行查阅 第一步:安装maven 1.1 下载文件 apache-maven-3.1.0-alpha-1-…
一.uber(u:ber)模式 MapReduce以Uber模式运行时,所有的map,reduce任务都在一个jvm中运行,对于小的mapreduce任务,uber模式的运行将更为高效. uber模式配置,在mapred-site.xml中进行配置,如下 mapreduce.job.ubertask.enable配置为true,默认为false. mapreduce.job.ubertask.maxmaps默认为9.mapreduce.job.ubertask.maxreduces默认为1. m…
上次的程序只是操作文件系统,本次运行一个真正的MapReduce程序. 运行的是官方提供的例子程序wordcount,这个例子类似其他程序的hello world. 1. 首先确认启动的正常:运行 start-all.sh 2. 执行jps命令检查:NameNode,DateNode,SecondaryNameNode,ResourceManager,NodeManager是否已经启动正常.这里我遇到了一个问题,NodeManager没有正常启动.错误信息如下: 2014-01-07 13:46…
根据之前的操作,我们已经可以正常的启动Hadoop了,关于真正的集群我会在之后进行说明.现在我们来看一下第一个程序吧 1. 在eclipse上建立一个java项目 2. 将 /usr/hadoop/share/hadoop/common/hadoop-common-2.2.0.jar 文件导入到项目中 3. 将 /usr/hadoop/share/hadoop/common/lib/commons-logging-1.1.1.jar 文件导入到项目中 4. 编写代码如下 import java.…
以下是进行单节点Hadoop配置的内容,多节点也类似 1. 进行Hadoop的安装 1.1 上文进行了Hadoop的编译,将编译结果目录 hadoop-2.2.0 拷贝为 /usr/hadoop 目录 1.2 编辑/etc/profile 文件,增加如下的内容 export HADOOP_PREFIX=/usr/hadoop export PATH=$PATH:$HADOOP_PREFIX/bin export PATH=$PATH:$HADOOP_PREFIX/sbin export HADO…
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 拓扑: 知识准备: 1.eclipse在win7本机电脑上,而部署的hadoop可以是在本机windows 也可以是远程Linux 伪分布式.完全分布式.HA集群 2.为了方便开发,引入hadoop的eclipse插件(插件并不是必需的),方便之处有两点:(1)对hadoop中的文件可视化(2)创建MapReduce Project…
1创建工程 点击project--Maven--next 2通过maven导入项目依赖jar包 (1)设置maven自动导入依赖jar包 勾选 Import Maven projects automatically,点击apply (2)配置pom.xml文件 pom.xml配置文件如下: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.…