Map/Reduce个人实战--生成数据测试集

背景:
　　在大数据领域, 由于各方面的原因. 有时需要自己来生成测试数据集, 由于测试数据集较大, 因此采用Map/Reduce的方式去生成. 在这小编(mumuxinfei)结合自身的一些实战经历, 具体阐述下生成测试数据集的Map/Reduce程序该如何写?

场景构造:
　　假设某移动电信行业的某具体业务, 其记录了通话信息(包括拨打方/接听方/通话时间点/基站等要素). 产商是不可能提供真实的用户数据用于测试的, 但提供了基本的数据格式. 具体针对该业务场景, 我们简单规划如下:

num1            varchar(13)      -- 手机号码(130 xxxx xxxx ~ 139 xxxx xxxx)

num2            varchar(13)      -- 手机号码(130 xxxx xxxx ~ 139 xxxx xxxx)

lac             varchar(16)      -- 基站信息

timestamp       varchar(128)     -- yyyyMMdd hh:mm:ss格式

　　评注: 数据的分布在时间纬度上, 相对还是容易编造, 在其他纬度上, 要模拟真实的用户行为数据, 还是有一定的难度的.

Map/Reduce理论基础:
　　1). Map/Reduce的原理架构图
　　
　　评注: Map/Reduce的运行和流程基本如图所示(来源于网络), 这边我们对原理不再详细阐述.
　　2). Map/Reduce的类体系架构
　　详见如下关于Map/reduce的类系统架构的基础文章

方案分析:
　　在回顾完Map/Reduce的基础架构后, 针对数据生成, 我们提供如下的两种方案.
　　1). 传统的Map/Reduce的数据生成方案
　　2). 只有Map/没有Reduce的数据生成方案.
　　这两者有何区别呢? 如何在Job中控制和设置?
　　1). Map阶段的产出结果经过sort/shuffle到reduce的, 由此Reduce阶段后的数据是有一定的顺序性的. 而止于Map阶段的数据是呈现一定随机性. 聪明的你是否猜着了? bingo, 如果生成的数据需要一定的排序组合, 则需要传统方案. 而如果生成的数据随机即可, 则采用2方案就好.
　　2). Job的任务配置, 只需要配置numReduceTasks即可

job.setNumReduceTasks(0);

　　评注: 是不是很简单, 不好意思让你大跌眼镜了....^_^!
　　综合实际的案例分析, 我们的测试数据是随机分布的, 由此我们选用方案2.

解决方案:
　　我们选定的方案大致如下:
　　通过Map阶段来生成测试数据, 自定义InputFormat规则.
　　我们的目标是, 运行MapReduce程序, 生成CSV格式的数据文件, 内容组织如下:

#num1,num2,lac,timestamp

1380001234,13800005678,1,2014-08-27 10:30:00

1380002058,13800005678,1,2014-08-28 11:30:00

　　1). 自定义InputForamt, 以及内部的InputSplit和RecordReader
　　MyInputSplit的类定义如下:

// *) 继承与InputSplit, 通过实现Writable接口

public static class MyInputSplit

		extends InputSplit implements Writable {

	private int number;

	// 需要一个无参构造函数

	public MyInputSplit() {

	}

	public MyInputSplit(int number) {

	　　this.number = number;

	}

	@Override

	public long getLength()

		throws IOException, InterruptedException {

	　　return 0;

	}

	@Override

	public String[] getLocations()

		throws IOException, InterruptedException {

	　　return new String[]{};

	}

	public int getNumber() {

	　　return number;

	}

        // *) 反序列化

　　public void readFields(DataInput in)

　　　　　　　　throws IOException {

    	  number = WritableUtils.readVInt(in);

　　}

        // *) 序列化

　　public void write(DataOutput out)

　　　　　　　　throws IOException {

       　　WritableUtils.writeVInt(out, number);

　　}

}

　　评注: MyInputSplit必须实现Writable接口, 因为InputSplit在map/reduce过程中需要序列化/反序列化, 同时InputSplit的实现类需要提供一个无参构造函数, 因为需要反射来实例化该对象. 请不要问我为何知道的这么多, 我只想说: "请叫我活雷锋!".
　　MyRecordReader的定义如下所示:

public static class MyRecordReader

　　　　　　extends RecordReader<NullWritable, Text> {

　　private int current = 0;

　　private int number = 0;

　　private Text valueText = new Text();

　　// *) 初始化工作

　　@Override

　　public void initialize(InputSplit split, TaskAttemptContext context)

　　　　　　throws IOException, InterruptedException {

　　　　this.number = ((MyInputSplit)split).getNumber();

　　}

　　@Override

　　public boolean nextKeyValue() throws IOException, InterruptedException {

　　　　if ( current++ < number ) {

　　　　　　valueText.set(DataGeneratorUtility.genetateData());

　　　　　　return true;

　　　　}

　　　　return false;

　　}

　　@Override

　　public NullWritable getCurrentKey() throws IOException,

　　　　　　InterruptedException {

　　　　return NullWritable.get();　　

　　}

　　@Override

　　public Text getCurrentValue() throws IOException,

　　　　InterruptedException {

　　　　return valueText;　　

　　}

　　// *) 汇报进度

　　@Override

　　public float getProgress() throws IOException, InterruptedException {

　　　　return current * 1.0f / number;

　　}

　　@Override

　　public void close() throws IOException {

　　}

}

　　评注: MyRecordReader相对就简单了, 由于map默认是单线程执行, 因此采用带状态的函数nextKeyValue(), getCurrentKey(), getCurrentValue(). 不合理阿, 老师!!!
　　最后来展示下MyInputFormat的实现, 其整合了之上的InputSplit和RecordReader.

public class MyInputFormat

	　　extends InputFormat<NullWritable, Text> {

	@Override

	public List<InputSplit> getSplits(JobContext context)

			throws IOException, InterruptedException {

		int splitNumber = Integer.parseInt(

				context.getConfiguration().get("data.split_number"));

		int dataNumber = Integer.parseInt(

				context.getConfiguration().get("data.data_number"));

		List<InputSplit> results = new ArrayList<InputSplit>();

		for ( int i = 0; i < splitNumber; i++  ) {

			results.add(new MyInputSplit(dataNumber));

		}

		return results;

	}

	@Override

	public RecordReader<NullWritable, Text> createRecordReader(

			InputSplit split, TaskAttemptContext context)

			throws IOException, InterruptedException {

		return new MyRecordReader();

	}

}

　　评注: MyInputFormat的实现, 就是获取分片信息, 以及提供对应的RecordReader, 对于Map/Reduce程序而言, 起到一个桥梁的作用.

　　2). Map的定义处理

public class MyMap extends Mapper<NullWritable, Text, NullWritable, Text> {

　　@Override

　　protected void map(NullWritable key, Text value, Context context)

　　　　　　throws IOException, InterruptedException {

　　　　context.write(key, value);

　　}

}

　　评注: MyMap的工作非常的简单, 就是单纯的write key/value对
　　3). Job配置选项

public class MyJob extends Configured implements Tool {

	@Override

	public int run(String[] args) throws Exception {

　　　　　　Job job = Job.getInstance(getConf());

　　　　　　Path outputDir = new Path(args[0]);

　　　　　　FileOutputFormat.setOutputPath(job, outputDir);

　　　　　　job.setJobName("MyJob");

　　　　　　job.setJarByClass(MyJob.class);

　　　　　　job.setMapperClass(MyMap.class);

　　　　　　// *) 设置reducer task 为0

　　　　　　job.setNumReduceTasks(0);

　　　　　　job.setOutputKeyClass(NullWritable.class);

　　　　　　job.setOutputValueClass(Text.class);

　　　　　　// *) 设置MyInputFormat

　　　　　　job.setInputFormatClass(MyInputFormat.class);

　　　　　　// *) 传入相关参数

　　　　　　job.getConfiguration().set("data.split_number",  args[1]);

　　　　　　job.getConfiguration().set("data.data_number",  args[2]);

　　　　　　return job.waitForCompletion(true) ? 0 : 1;

	}

	public static void main(String[] args) throws Exception {

	    int res = ToolRunner.run(new Configuration(), new MyJob(), args);

	    System.exit(res);

	}

}

　　评注: 这边省略了部分参数的校验. 大致要点就是设置 NumReduceTasks(0), 然后设置InputFormatClass类MyInputFormat. Ok Let it go!!!

测试:
　　编译成jar之后, 在mapreduce跑

　　结果: mapreduce运行成功, 总共2个map, 每个map生成10行记录
　　验证map的文件个数

　　评注: part-m-00000, part-m-00001表明是map阶段生成的输出文件
　　对文件内容进行验证:

　　评注: 数据结果符合预期

总结:
　　这边讲述了利用map/reduce生成测试集的一个流程, 同时也是写给自己, 希望自己对mapreduced的内部机制,有个更清晰的理解.

Map/Reduce个人实战--生成数据测试集的更多相关文章

Map/Reduce 工作机制分析 --- 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
mapreduce: 揭秘InputFormat--掌控Map Reduce任务执行的利器
随着越来越多的公司采用Hadoop,它所处理的问题类型也变得愈发多元化.随着Hadoop适用场景数量的不断膨胀,控制好怎样执行以及何处执行map任务显得至关重要.实现这种控制的方法之一就是自定义Inp ...
分布式基础学习（2）分布式计算系统（Map/Reduce）
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很 ...
第九篇：Map/Reduce 工作机制分析 - 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...
hadoop学习WordCount+Block+Split+Shuffle+Map+Reduce技术详解
转自:http://blog.csdn.net/yczws1/article/details/21899007 纯干货:通过WourdCount程序示例:详细讲解MapReduce之Block+Spl ...
Hadoop Map/Reduce的工作流
问题描述我们的数据分析平台是单一的Map/Reduce过程,由于半年来不断地增加需求,导致了问题已经不是那么地简单,特别是在Reduce阶段,一些大对象会常驻内存.因此越来越顶不住压力了,当前内存问 ...
分布式基础学习【二】 —— 分布式计算系统（Map/Reduce）
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很大程 ...
Map/Reduce应用开发基础知识-摘录
Map/Reduce 这部分文档为用户将会面临的Map/Reduce框架中的各个环节提供了适当的细节.这应该会帮助用户更细粒度地去实现.配置和调优作业.然而,请注意每个类/接口的javadoc文档提供 ...

随机推荐

自定义弹出框基于zepto 记得引入zepto
html <!DOCTYPE html> <html> <meta charset="utf-8"> <title></tit ...
rest版的webservice
为了学习app做打算今天就自学了下webservice,rest应该是其中一种还有种就是soap,目前就先举个rest的demo吧准备ws的jar和spring的jar,如何要连接数据的话就自行 ...
Page Visibility API(页面可见性)
页面可见性: 就是对于用户来说,页面是显示还是隐藏, 所谓显示的页面,就是我们正在看的页面:隐藏的页面,就是我们没有看的页面. 因为,我们一次可以打开好多标签页面来回切换着,始终只有一个页面在我们眼前 ...
python之Excel操作
#coding:utf-8 __author__ = 'similarface' import xlrd book=xlrd.open_workbook('/Users/similarface/Dow ...
CentOS7 增加tomcat 启动，停止，使用systemctl进行配置
1,centos7 使用 systemctl 替换了 service命令参考:redhat文档: https://access.redhat.com/documentation/en-US/Red_ ...
mybatis批量更新 UPDATE mysql
oracle和mysql数据库的批量update在mybatis中配置不太一样: oracle数据库: <update id="batchUpdate" parameterT ...
Selenium for C#的入门Demo
原文转载:http://www.cnblogs.com/halia/p/3562132.html?utm_source=tuicool 最近刚开始接触Selenium, 发现很多例子都是用java写的 ...
HTML5基本元素初探
最近看了一些HTML5的基础知识,写了一些小案例,记录一下,方便查找. 1.新建的HTML5页面中显著的变化是:DOCTYPE声明变简洁(<!DOCTYPE html>) / <me ...
jQuery实现加入购物车飞入动画效果
<script src="jquery.js"></script> <script src="jquery.fly.min.js" ...
iOS开发UI篇—推荐两个好用的Xcode插件（提供下载链接）
iOS开发UI篇—推荐两个好用的Xcode插件(提供下载链接) 这里推荐两款好用的Xcode插件,并提供下载链接. 一.插件和使用如下: 1.两款插件对项目中图片提供自动提示功能的插件:KSImag ...

Map/Reduce个人实战--生成数据测试集

Map/Reduce个人实战--生成数据测试集的更多相关文章

随机推荐

热门专题