Eclipse下使用Hadoop单机模式调试MapReduce程序

在单机模式下Hadoop不会使用HDFS，也不会开启任何Hadoop守护进程，所有程序将在一个JVM上运行并且最多只允许拥有一个reducer

在Eclipse中新创建一个hadoop-test的Java工程（特别要注意的是Hadoop需要1.6或1.6以上版本的JDK）

在Hadoop的官网http://www.apache.org/dyn/closer.cgi/hadoop/common/上选择合适的地址下载hadoop-1.2.1.tar.gz

解压hadoop-1.2.1.tar.gz得到hadoop-1.2.1目录

将hadoop-1.2.1目录下和hadoop-1.2.1\lib目录下的jar包导入到hadoop-test工程中

接下来编写MapReduce程序（该程序用来统计每月收支结余）

Map：

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.Mapper;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reporter;

public class MapBus extends MapReduceBase

		implements Mapper<LongWritable, Text, Text, LongWritable> {

	@Override

	public void map(LongWritable key, Text date,

			OutputCollector<Text, LongWritable> output,

			Reporter reporter) throws IOException {

		//2013-01-11,-200

		String line = date.toString();

		if(line.contains(",")){

			String[] tmp = line.split(",");

			String month = tmp[0].substring(5, 7);

			int money = Integer.valueOf(tmp[1]).intValue();

			output.collect(new Text(month), new LongWritable(money));

		}

	}

}

Reduce:

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reducer;

import org.apache.hadoop.mapred.Reporter;

public class ReduceBus extends MapReduceBase

		implements Reducer<Text, LongWritable, Text, LongWritable> {

	@Override

	public void reduce(Text month, Iterator<LongWritable> money,

			OutputCollector<Text, LongWritable> output, Reporter reporter)

			throws IOException {

		int total_money = 0;

		while(money.hasNext()){

			total_money += money.next().get();

		}

		output.collect(month, new LongWritable(total_money));

	}

}

Main：

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

public class Wallet {

	public static void main(String[] args){

		if(args.length != 2){

			System.err.println("param error!");

			System.exit(-1);

		}

		JobConf jobConf = new JobConf(Wallet.class);

		jobConf.setJobName("My Wallet");

		FileInputFormat.addInputPath(jobConf, new Path(args[0]));

		FileOutputFormat.setOutputPath(jobConf, new Path(args[1]));

		jobConf.setMapperClass(MapBus.class);

		jobConf.setReducerClass(ReduceBus.class);

		jobConf.setOutputKeyClass(Text.class);

		jobConf.setOutputValueClass(LongWritable.class);

		try{

			JobClient.runJob(jobConf);

		}catch(Exception e){

			e.printStackTrace();

		}

	}

}

还需准备待分析的文件，在E:\cygwin_root\home\input路径下创建2个文件，一个文件名为：2013-01.txt，另一个文件名为：2013-02.txt

2013-01.txt：

2013-01-01,100

2013-01-02,-100

2013-01-07,100

2013-01-10,-100

2013-01-11,100

2013-01-21,-100

2013-01-22,100

2013-01-25,-100

2013-01-27,100

2013-01-18,-100

2013-01-09,500

2013-02.txt：

2013-02-01,100

设置好运行参数后，就可以通过Run As -> Java Application运行MapReduce程序了

java.io.IOException: Failed to set permissions of path:

\tmp\hadoop-linkage\mapred\staging\linkage1150562408\.staging to 0700

报这个错误的主要原因是后期的hadoop版本增加了对文件路径的校验，我的修改方式比较简单，将hadoop-core-1.2.1.jar替换为hadoop-0.20.2-core.jar即可正常运行

下面是MapReduce程序运行时打印的日志

14/02/11 10:54:16 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=

14/02/11 10:54:16 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.

14/02/11 10:54:16 WARN mapred.JobClient: No job jar file set.  User classes may not be found. See JobConf(Class) or JobConf#setJar(String).

14/02/11 10:54:16 INFO mapred.FileInputFormat: Total input paths to process : 2

14/02/11 10:54:17 INFO mapred.JobClient: Running job: job_local_0001

14/02/11 10:54:17 INFO mapred.FileInputFormat: Total input paths to process : 2

14/02/11 10:54:17 INFO mapred.MapTask: numReduceTasks: 1

14/02/11 10:54:17 INFO mapred.MapTask: io.sort.mb = 100

14/02/11 10:54:17 INFO mapred.MapTask: data buffer = 79691776/99614720

14/02/11 10:54:17 INFO mapred.MapTask: record buffer = 262144/327680

14/02/11 10:54:17 INFO mapred.MapTask: Starting flush of map output

14/02/11 10:54:18 INFO mapred.MapTask: Finished spill 0

14/02/11 10:54:18 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting

14/02/11 10:54:18 INFO mapred.LocalJobRunner: file:/E:/cygwin_root/home/input/2013-01.txt:0+179

14/02/11 10:54:18 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000000_0' done.

14/02/11 10:54:18 INFO mapred.MapTask: numReduceTasks: 1

14/02/11 10:54:18 INFO mapred.MapTask: io.sort.mb = 100

14/02/11 10:54:18 INFO mapred.MapTask: data buffer = 79691776/99614720

14/02/11 10:54:18 INFO mapred.MapTask: record buffer = 262144/327680

14/02/11 10:54:18 INFO mapred.MapTask: Starting flush of map output

14/02/11 10:54:18 INFO mapred.MapTask: Finished spill 0

14/02/11 10:54:18 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000001_0 is done. And is in the process of commiting

14/02/11 10:54:18 INFO mapred.LocalJobRunner: file:/E:/cygwin_root/home/input/2013-02.txt:0+16

14/02/11 10:54:18 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000001_0' done.

14/02/11 10:54:18 INFO mapred.LocalJobRunner:

14/02/11 10:54:18 INFO mapred.Merger: Merging 2 sorted segments

14/02/11 10:54:18 INFO mapred.Merger: Down to the last merge-pass, with 2 segments left of total size: 160 bytes

14/02/11 10:54:18 INFO mapred.LocalJobRunner:

14/02/11 10:54:18 INFO mapred.TaskRunner: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting

14/02/11 10:54:18 INFO mapred.LocalJobRunner:

14/02/11 10:54:18 INFO mapred.TaskRunner: Task attempt_local_0001_r_000000_0 is allowed to commit now

14/02/11 10:54:18 INFO mapred.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to file:/E:/cygwin_root/home/output

14/02/11 10:54:18 INFO mapred.LocalJobRunner: reduce > reduce

14/02/11 10:54:18 INFO mapred.TaskRunner: Task 'attempt_local_0001_r_000000_0' done.

14/02/11 10:54:18 INFO mapred.JobClient:  map 100% reduce 100%

14/02/11 10:54:18 INFO mapred.JobClient: Job complete: job_local_0001

14/02/11 10:54:18 INFO mapred.JobClient: Counters: 13

14/02/11 10:54:18 INFO mapred.JobClient:   FileSystemCounters

14/02/11 10:54:18 INFO mapred.JobClient:     FILE_BYTES_READ=39797

14/02/11 10:54:18 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=80473

14/02/11 10:54:18 INFO mapred.JobClient:   Map-Reduce Framework

14/02/11 10:54:18 INFO mapred.JobClient:     Reduce input groups=2

14/02/11 10:54:18 INFO mapred.JobClient:     Combine output records=0

14/02/11 10:54:18 INFO mapred.JobClient:     Map input records=12

14/02/11 10:54:18 INFO mapred.JobClient:     Reduce shuffle bytes=0

14/02/11 10:54:18 INFO mapred.JobClient:     Reduce output records=2

14/02/11 10:54:18 INFO mapred.JobClient:     Spilled Records=24

14/02/11 10:54:18 INFO mapred.JobClient:     Map output bytes=132

14/02/11 10:54:18 INFO mapred.JobClient:     Map input bytes=195

14/02/11 10:54:18 INFO mapred.JobClient:     Combine input records=0

14/02/11 10:54:18 INFO mapred.JobClient:     Map output records=12

14/02/11 10:54:18 INFO mapred.JobClient:     Reduce input records=12

运行完成后将在E:\cygwin_root\home\output路径下生成2个文件：.part-00000.crc和part-00000。.part-00000.crc为一二进制文件，是一个保存了part-00000文件校验和的内部文件；part-00000文件中保存了最终的统计结果

01	500

02	100

特别要注意的是每次运行前都需要先将输出路径删掉，否则会报

org.apache.hadoop.mapred.FileAlreadyExistsException:

Output directory file:/E:/cygwin_root/home/output already exists

Hadoop做这个校验的目的是为了避免上一次MapReduce程序没有完成时，再次执行MapReduce程序产生的中间文件会覆盖掉上一次的中间文件

Eclipse下使用Hadoop单机模式调试MapReduce程序的更多相关文章

eclipse远程连接hadoop单机模式出现的问题
按照http://tydldd.iteye.com/blog/2007938配置单机模式主要是 (1)配置hadoop-env.sh,指定jdk的安装路径添加jdk路径 # The java im ...
Hadoop单机模式安装
一.实验环境说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序: ...
3-1.Hadoop单机模式安装
Hadoop单机模式安装一.实验介绍 1.1 实验内容 hadoop三种安装模式介绍 hadoop单机模式安装测试安装 1.2 实验知识点下载解压/环境变量配置 Linux/shell 测试Wo ...
centos7 hadoop 单机模式安装配置
前言由于现在要用spark,而学习spark会和hdfs和hive打交道,之前在公司服务器配的分布式集群,离开公司之后,自己就不能用了,后来用ambari搭的三台虚拟机的集群太卡了,所以就上网查了一 ...
Hadoop单机模式的配置与安装
Hadoop单机模式的配置与安装单机hadoop集群正常启动后进程情况 ResourceManager NodeManager SecondaryNameNode NameNode DataNode ...
windows下eclipse远程连接hadoop集群开发mapreduce
转载请注明出处,谢谢 2017-10-22 17:14:09 之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在 ...
Hadoop单机模式/伪分布式模式/完全分布式模式
一.Hadoop的三种运行模式(启动模式) 一.单机(非分布式)模式这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统. 默认情况下,Hadoop即处于该模式,用于开发 ...
Hadoop单机模式安装-(3)安装和配置Hadoop
网络上关于如何单机模式安装Hadoop的文章很多,按照其步骤走下来多数都失败,按照其操作弯路走过了不少但终究还是把问题都解决了,所以顺便自己详细记录下完整的安装过程. 此篇主要介绍在Ubuntu安装完 ...
Eclipse/MyEclipse下如何Maven管理多个Mapreduce程序？（企业级水平）
不多说,直接上干货! 如何在Maven官网下载历史版本 Eclipse下Maven新建项目.自动打依赖jar包(包含普通项目和Web项目) Eclipse下Maven新建Web项目index.jsp报 ...

随机推荐

USACO3.25Magic Squares（bfs）
/* ID: shangca2 LANG: C++ TASK: msquare */ #include <iostream> #include<cstdio> #include ...
[WebKit]浏览器的加载与页面性能优化
非常棒.非常系统的一份资料,值得阅读! 原文来自百度泛用户体验. 作者:nwind 本文将探讨浏览器渲染的loading过程,主要有2个目的: 了解浏览器在loading过程中的实现细节,具体都做了什 ...
Bootstrap插件的使用
昨天,我偶然间发现了它——BootStrap插件,它是一一套功能强大的前端组件.说起来,我跟这插件还真算得上有缘,我本来并不是去找这个插件的,我本来是找BootStarp Paginator这个分页插 ...
如何在 Windows 7 安裝 SharePoint Server 2010
转:http://support.microsoft.com/kb/2683572/zh-tw 關於作者: 本文由微軟最有價值專家 MVP 歐志信提供.微軟十分感謝 MVP 主動地將他們的經驗與上百 ...
Java 回调函数
下面使用java回调函数来实现一个测试函数运行时间的工具类: 如果我们要测试一个类的方法的执行时间,通常我们会这样做: public class TestObject { /** * 一个用来被测试的 ...
Visual Studio 2015 下载地址
Visual Studio 2015 发行说明: https://visualstudio.com/zh-cn/news/vs2015-vs.aspx Visual Studio 2015 特性简 ...
Upgrading to EF6
In previous versions of EF the code was split between core libraries (primarily System.Data.Entity.d ...
Xmind Pro 3.4.0.201311050558 Xmind 3.4 破解版 Crack
其实就一个附件.某大神那里的下不到了.从这里就好了. 使用方法请参见压缩包~ 如果连接不能用了请及时告知回复.>< 仅适用于与版本号为201311050558的Xmind.当然尊重正版开发 ...
HW5.19
public class MyTriangle { public static boolean isValid(double side1, double side2, double side3) { ...
POJ1423 - Big Number(Stirling公式)
题目大意求N!有多少位题解用公式直接秒杀... 代码: #include<iostream> #include<cmath> using namespace std; # ...

Eclipse下使用Hadoop单机模式调试MapReduce程序

Eclipse下使用Hadoop单机模式调试MapReduce程序的更多相关文章

随机推荐

热门专题