程序代码为 ~\hadoop-2.7.4\share\hadoop\mapreduce\sources\hadoop-mapreduce-examples-2.7.4-sources\org\apache\hadoop\examples\WordCount.java 第一次  删除了package import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configur…
1.概述 最近有同学反应,如何在配置了HA的Hadoop平台运行MapReduce程序呢?对于刚步入Hadoop行业的同学,这个疑问却是会存在,其实仔细想想,如果你之前的语言功底不错的,应该会想到自动重连,自动重连也可以帮我我们解决运行MapReduce程序的问题.然后,今天我赘述的是利用Hadoop的Java API 来实现. 2.介绍 下面直接附上代码,代码中我都有注释. 2.1Java操作HDFS HA的API 代码如下: /** * */ package cn.hdfs.mr.examp…
hive介绍 什么是hive? hive:由Facebook开源用于解决海量结构化日志的数据统计 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据映射为数据库的一张表,并提供类SQL查询功能.本质就是将HQL(hive sql)转化为MapReduce程序 我们使用MapReduce开发会很麻烦,但是程序员很熟悉sql,于是hive就出现了,可以让我们像写sql一样来编写MapReduce程序,会自动将我们写的sql进行转化.但底层使用的肯定还是MapReduce. hive处理…
本文的目的是实现在windows环境下实现模拟运行Map/Reduce程序.最终实现效果:MapReduce程序不会被提交到实际集群,但是运算结果会写入到集群的HDFS系统中. 一.环境说明:     操作系统:win7     eclipse:Version: Mars Release (4.5.0)     hadoop:2.5.1 二.预备文档(仅是说明,以第三步为准): System.setProperty("HADOOP_USER_NAME", "root"…
 hadoop map-reduce程序的编译需要依赖hadoop的jar包,我尝试javac编译map-reduce时指定-classpath的包路径,但无奈hadoop的jar分布太散乱,根据自己写的程序来一个个指定jar包的位置又太麻烦,于是又尝试修改java的classpath配置文件,结果不知道为什么编译时还是提示找不到jar包,于是只有用最后一劳永逸的方法:把hadoop的所有jar包都copy到java当前classpath寻找的路径文件中: 我的hadoop安装在/usr/loc…
这篇文章里我们将用配置 YARN,在 YARN 上运行 MapReduce. 1.修改 yarn-env.sh 环境变量里的 JAVA_HOME 路径 [bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoop/yarn-env.sh export JAVA_HOME=/opt/modules/jdk1.7.0_67   2.修改 etc/hadoop/yarn-site.xml,添加如下的两个属性   <configuration> <pro…
(1)配置集群 (a)配置hadoop-2.7.2/etc/hadoop/yarn-env.sh 配置一下JAVA_HOME export JAVA_HOME=/home/hadoop/bigdatasoftware/jdk1.8.0_161 (b)配置yarn-site.xml <!-- reducer获取数据的方式 --> <property> <name>yarn.nodemanager.aux-services</name> <value>…
搞定了hadoop配置之后,可以写代码运行了,首先要配一下CLASS_PATH,修改/etc/profile export JAVA_HOME=/usr/lib/jvm/java--openjdk-i386 export HADOOP_INSTALL=/home/zhanglanyun/workspace/hadoop export PATH=$PATH:$HADOOP_INSTALL/bin export CLASSPATH=.:$JAVA_HOME/lib/:$HADOOP_INSTALL/…
一.代码编写 1.1 单词统计 回顾我们以前单词统计的例子,如代码1.1所示. package counter; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.…
(注:虽然连接成功但是还是执行不了.以后有时间再解决吧 看到的人别参考仅作个人笔记)先mark下 1.首先在window下载好一个eclipse.和拷贝好linux里面hadoop版本对应的插件(我是用hadoop-eclipse-plugin-2.3.0.jar) 2.拷贝hadoop-eclipse-plugin-2.3.0.jar到window下eclipse plugins里面 3.配置hadoop目录window--->preference---->hadoop map/reduce…