mapreduce的组件介绍

第一部分：重要的组件

Combiner

•什么是Combiner

•combine函数把一个map函数产生的<key,value>对（多个key, value）合并成一个新的<key2,value2>. 将新的<key2,value2>作为输入到reduce函数中，其格式与reduce函数相同。

•这样可以有效的较少中间结果，减少网络传输负荷。

•什么情况下可以使用Combiner

•可以对记录进行汇总统计的场景，如求和。

•求平均数的场景就不可以使用了

Combiner执行时机

•运行combiner函数的时机有可能会是merge完成之前，或者之后，这个时机可以由一个参数控制，即 min.num.spill.for.combine（default 3）

•当job中设定了combiner，并且spill数最少有3个的时候，那么combiner函数就会在merge产生结果文件之前运行

•通过这样的方式，就可以在spill非常多需要merge，并且很多数据需要做conbine的时候，减少写入到磁盘文件的数据数量，同样是为了减少对磁盘的读写频率，有可能达到优化作业的目的。

•Combiner也有可能不执行， Combiner会考虑当时集群的负载情况。

Combiner如何使用

•代码示例

•继承Reducer类

public static class Combiner extends MapReduceBase implements

Reducer<Text, Text, Text, Text> {

public void reduce(Text key, Iterator<Text> values,

OutputCollector<Text, Text> output, Reporter reporter)

throws IOException {

}

•配置作业时加入conf.setCombinerClass(Combiner.class)

Partitioner

•什么是Partitioner

•Mapreduce 通过Partitioner 对Key 进行分区，进而把数据按我们自己的需求来分发。

•什么情况下使用Partitioner

•如果你需要key按照自己意愿分发，那么你需要这样的组件。

•例如：数据文件内包含省份，而输出要求每个省份输出一个文件。

•框架默认的HashPartitioner

•public class HashPartitioner<K, V> extends Partitioner<K, V> {

/** Use {@link Object#hashCode()} to partition. */
public int getPartition(K key, V value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}
}

Partitioner如何使用

•实现Partitioner接口覆盖getPartition()方法

•配置作业时加入conf.setPartitionerClass(MyPartitioner.class);

•Partitioner示例

public static class MyPartitioner implements Partitioner<Text, Text> {

@Override
public int getPartition(Text key, Text value, int numPartitions) {

}

Partitioner需求示例

•需求描述

•数据文件中含有省份

•需要相同的省份送到相同的Reduce里

•从而产生不同的文件

•数据样例

•1 liaoning

•1 代表该省份有多少个直辖市

•步骤

•实现Partitioner，覆盖getPartition

•根据省份字段进行切分

RecordReader

•什么是RecordReader

•用于在分块中读取<Key,Value>对，也就是说每一次我们读取一条记录都会调用该类。

•主要是处理经过InputFormat分片完的数据

•什么时候使用RecordReader

•需要对输入的数据按自己的需求处理

•如：要求输入的key不是文件的偏移量而是文件的路径或者名字

•系统默认为LineRecordReader

•按照每行的偏移量做为map输出时的key值，每行的内容作为map的value值，默认的分隔符是回车和换行。

RecordReader需求示例

•需求

•更改map对应的输入的<key,value>值，key对应的文件的路径（或者是文件名），value对应的是文件的内容（content）。

•步骤

•重写InputFormat不对文件切分

•重写RecordReader

•在配置作业时使用自定义的组件进行数据处理

第二部分：Join

案例分析

•输入为2个文件，文件一内容如下

•空格分割：用户名手机号年龄

•内容样例

•Tom 1314567890 14

•文件二内容

•空格分割：手机号地市

•内容样例

•13124567890 hubei

•需要统计出的汇总信息为用户名手机号年龄地市

Map端Join

•设计思路

•使用DistributedCache.addCacheFile()将地市的文件加入到所有Map的缓存里

•在Map函数里读取该文件，进行Join

• 将结果输出到reduce

•需要注意的是

•DistributedCache需要在生成Job作业前使用

Reduce端Join

•设计思路

•Map端读取所有文件，并在输出的内容里加上标识代表数据时从哪个文件里来的

•在reduce对按照标识对数据进行保存

•然后根据Key的Join来求出结果直接输出

第三部分：排序

普通排序

•Mapreduce本身自带排序功能

•Text对象是不适合排序的，如果内容为整型不会安照编码顺序去排序

•一般情况下我们可以考虑以IntWritable做为Key,同时将Reduce设置成0 ,进行排序

部分排序

•即输出的每个文件都是排过序的

•如果我们不需要全局排序，那么这是个不错的选择。

全局排序

•产生背景

•Hadoop平台没有提供全局数据排序，而在大规模数据处理中进行数据的全局排序是非常普遍的需求。

•使用hadoop进行大量的数据排序排序最直观的方法是把文件所有内容给map之后，map不做任何处理，直接输出给一个reduce，利用hadoop的自己的shuffle机制，对所有数据进行排序，而后由reduce直接输出。

•快速排序基本步骤就是需要现在所有数据中选取一个作为支点。然后将大于这个支点的放在一边，小于这个支点的放在另一边。

设想如果我们有 N 个支点（这里可以称为标尺），就可以把所有的数据分成 N+1 个 part ，将这 N+1 个 part 丢给 reduce，由 hadoop 自动排序，最后输出 N+1 个内部有序的文件，再把这 N+1 个文件首尾相连合并成一个文件，收工。

由此我们可以归纳出这样一个用 hadoop 对大量数据排序的步骤：

1 ）对待排序数据进行抽样；

2 ）对抽样数据进行排序，产生标尺；

3 ） Map 对输入的每条数据计算其处于哪两个标尺之间；将数据发给对应区间 ID 的 reduce

4 ） Reduce 将获得数据直接输出。

•Hadoop 提供了Sampler接口可以返回一组样本，该接口为Hadoop的采样器。

public interface Sampler<K, V> {

K[] getSample(InputFormat<K, V> inf, Job job)

throws IOException, InterruptedException;

}

•Hadoop提供了一个TotalOrderPartitioner，可以使我们来实现全局排序。

二次排序

•产生背景

•MapReduce默认会对key进行排序

•将输出到Reduce的values也进行预先的排序

•实现方式

•重写Partitioner，完成key分区，进行第一次排序

•实现WritableComparator，完成自己的排序逻辑，完成key的第2次排序

•原理

•Map之前的数据

key1 1

key2 2

key2 3

key3 4

key1 2

•Mapduce只能排序key,所以为了二次排序我们要重新定义自己的key 简单说来就是<key value> value ,组合完后

<key1 1 > 1

<key2 2 > 2

<key2 3 > 3

<key3 4> 4

<key1 2 > 2

•原理

•接下来实现自定义的排序类，分组类，数据变成

<key1 1 > 1

<key1 2 > 2

<key2 2 > 2

<key2 3 > 3

<key3 4> 4

•最后 reduce处理后输出结果

key1 1

key1 2

key2 2

key2 3

key3 4

第四部分：计数器

•什么是计数器

计数器主要用来收集系统信息和作业运行信息，用于知道作业成功、失败等情况，比日志更便利进行分析。

•内置计数器

•Hadoop内置的计数器，记录作业执行情况和记录情况。包括MapReduce框架、文件系统、作业计数三大类。

•计数器由关联任务维护，定期传递给tasktracker，再由tasktracker传给jobtracker。

•计数器可以被全局聚集。内置的作业计数器实际上由jobtracker维护，不必在整个网络中传递。

•当一个作业执行成功后，计数器的值才是完整可靠的。

用户自定义Java计数器

•MapReduce框架允许用户自定义计数器

•计数器是全局使用的

•计数器有组的概念，可以由一个Java枚举类型来定义

•如何配置

•0.20.2以下的版本使用Reporter,

•0.20.2以上的版本使用context.getCounter(groupName, counterName) 来获取计数器配置并设置。

•动态计数器

•所谓动态计数器即不采用Java枚举的方式来定义

•Reporter中的获取动态计数器的方法

•public void incrCounter(String group,String counter,long amount)

组名称，计数器名称，计数值

•一些原则

•创建计数器时，尽量让名称易读

•获取计数器

•Web UI

•命令行 hadoop job-counter

•Java API

•在作业运行完成后，计数器稳定后获取。使用job.getCounters()得到Counters

第五部分：合并小文件示例

•产生背景

•Hadoop不适合处理小文件

•会占用大量的内存空间

•解决方案

•文件内容读取到SequenceFile内

mapreduce的组件介绍的更多相关文章

Hadoop以及组件介绍
一.背景介绍在接触过大数据相关项目的时候常常都会听到Hadoop这个东西,简单来说,他是一个用分布式计算来处理大数据的开源软件,下面包含了许多的组件和子项目,这篇文章将会介绍Hadoop的原理以及一 ...
开源免费且稳定实用的.NET PDF打印组件itextSharp（.NET组件介绍之八）
在这个.NET组件的介绍系列中,受到了很多园友的支持,一些园友(如:数据之巅. [秦时明月]等等这些大神 )也给我提出了对应的建议,我正在努力去改正,有不足之处还望大家多多包涵.在传播一些简单的知识的 ...
免费开源的.NET多类型文件解压缩组件SharpZipLib（.NET组件介绍之七）
前面介绍了六种.NET组件,其中有一种组件是写文件的压缩和解压,现在介绍另一种文件的解压缩组件SharpZipLib.在这个组件介绍系列中,只为简单的介绍组件的背景和简单的应用,读者在阅读时可以结合官 ...
免费高效实用的.NET操作Excel组件NPOI（.NET组件介绍之六）
很多的软件项目几乎都包含着对文档的操作,前面已经介绍过两款操作文档的组件,现在介绍一款文档操作的组件NPOI. NPOI可以生成没有安装在您的服务器上的Microsoft Office套件的Excel ...
免费开源的DotNet任务调度组件Quartz.NET（.NET组件介绍之五）
很多的软件项目中都会使用到定时任务.定时轮询数据库同步,定时邮件通知等功能..NET Framework具有“内置”定时器功能,通过System.Timers.Timer类.在使用Timer类需要面对 ...
免费开源的DotNet二维码操作组件ThoughtWorks.QRCode（.NET组件介绍之四）
在生活中有一种东西几乎已经快要成为我们的另一个电子”身份证“,那就是二维码.无论是在软件开发的过程中,还是在普通用户的日常中,几乎都离不开二维码.二维码 (dimensional barcode) , ...
最好的.NET开源免费ZIP库DotNetZip（.NET组件介绍之三）
在项目开发中,除了对数据的展示更多的就是对文件的相关操作,例如文件的创建和删除,以及文件的压缩和解压.文件压缩的好处有很多,主要就是在文件传输的方面,文件压缩的好处就不需要赘述,因为无论是开发者,还是 ...
高效而稳定的企业级.NET Office 组件Spire（.NET组件介绍之二）
在项目开发中,尤其是企业的业务系统中,对文档的操作是非常多的,有时几乎给人一种错觉的是”这个系统似乎就是专门操作文档的“.毕竟现在的很多办公中大都是在PC端操作文档等软件,在这些庞大而繁重的业务中,单 ...
一款开源免费的.NET文档操作组件DocX（.NET组件介绍之一）
在目前的软件项目中,都会较多的使用到对文档的操作,用于记录和统计相关业务信息.由于系统自身提供了对文档的相关操作,所以在一定程度上极大的简化了软件使用者的工作量. 在.NET项目中如果用户提出了相关文 ...

随机推荐

Orchard是如何运行的
建立一个CMS网站(内容管理系统)是不同于建立一个普通的web站点:它更像是建立一个应用程序容器. 设计这样一个系统时,必须建立一流的可扩展性功能.这必需是一个非常开放式的构架,但是一个开放性的系统可 ...
一条sql语句搞定基于mysql的sql执行顺序的基本理解
对数据库基本操作是每个程序员基本功,如何理解并快速记住sql执行的顺序呢,其实一条复杂的sql就能搞定: SELECT DISTINCT <select_list> FROM <le ...
AJAX 原生态
AJAX 原生态原生态AJAX详解和jquery对AJAX的封装 A ...
BZOJ2743 HEOI2012采花（离线+树状数组）
如果能够把所有区间内第二次出现某颜色的位置标记出来,树状数组查询一下就可以了. 考虑离线.按左端点从小到大排序,不断移动左端点并更新第二次出现的位置. #include<iostream> ...
SpringBoot设置事务隔离等级
"If you're gonna play the game, boy, ya gotta learn to play it right" Spring Boot 使用事务非常简单 ...
dp乱写2:论dp在不在dp中（但在dp范畴）内的应用
最近正儿八经的学习了dp,有一些题目非常明显看出来就是dp了比如说:过河卒.方格取数.导弹拦截.加分二叉树.炮兵阵地更加明显的还有:采药.装箱问题.过河.金明的预算方案.今天来谈谈dp的dp在不在dp ...
在Mac上配置全局的Git忽略文件
现在同时搞着好几个项目,在Xcode.IDEA.Eclipse之间频繁的切换,每个项目的忽略文件列表都不一样,每个项目都有一个.gitignore,甚是麻烦,今天网上拔出来一个设置全局忽略的办法,记录 ...
LOJ#2540 随机算法
题意:给定图,随机一个排列,依次加点,如果加点之后不是独立集就不加.求最后得到一个最大独立集的概率. 解:就是求有多少个排列可以加出最大独立集. 显然有一个3n的状压DP,0表示没加,1表示没加上,2 ...
Linux上安装node和npm
说明:最近工作中需要用到react前端框架使得可以前后分离,在安装react之前呢我是需要先安装node,和npm的由于npm是依赖于node 的,所以我这边只要安装了node后,npm也就安装完成 ...
使用 EXISTS 代替 IN 和 inner join
在使用Exists时,如果能正确使用,有时会提高查询速度: 1,使用Exists代替inner join 2,使用Exists代替 in 1,使用Exists代替inner join例子: 在一般写s ...

mapreduce的组件介绍

mapreduce的组件介绍的更多相关文章

随机推荐

热门专题