第一部分:重要的组件
•什么是Combiner
•combine函数把一个map函数产生的<key,value>对(多个key, value)合并成一个新的<key2,value2>. 将新的<key2,value2>作为输入到reduce函数中,其格式与reduce函数相同。
•这样可以有效的较少中间结果,减少网络传输负荷。
•什么情况下可以使用Combiner
•可以对记录进行汇总统计的场景,如求和。
•求平均数的场景就不可以使用了
Combiner执行时机
•运行combiner函数的时机有可能会是merge完成之前,或者之后,这个时机可以由一个参数控制,即 min.num.spill.for.combine(default 3)
•当job中设定了combiner,并且spill数最少有3个的时候,那么combiner函数就会在merge产生结果文件之前运行
•通过这样的方式,就可以在spill非常多需要merge,并且很多数据需要做conbine的时候,减少写入到磁盘文件的数据数量,同样是为了减少对磁盘的读写频率,有可能达到优化作业的目的。
•Combiner也有可能不执行, Combiner会考虑当时集群的负载情况。
Combiner如何使用
•代码示例
•继承Reducer类
public static class Combiner extends MapReduceBase implements
Reducer<Text, Text, Text, Text> {
public void reduce(Text key, Iterator<Text> values,
OutputCollector<Text, Text> output, Reporter reporter)
throws IOException {
}
}
•配置作业时加入conf.setCombinerClass(Combiner.class)
Partitioner
•什么是Partitioner
•Mapreduce 通过Partitioner 对Key 进行分区,进而把数据按我们自己的需求来分发。
•什么情况下使用Partitioner
•如果你需要key按照自己意愿分发,那么你需要这样的组件。
•例如:数据文件内包含省份,而输出要求每个省份输出一个文件。
•框架默认的HashPartitioner
•public class HashPartitioner<K, V> extends Partitioner<K, V> {
/** Use {@link Object#hashCode()} to partition. */
public int getPartition(K key, V value,
int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}
}
Partitioner如何使用
•实现Partitioner接口覆盖getPartition()方法
•配置作业时加入conf.setPartitionerClass(MyPartitioner.class);
•Partitioner示例
public static class MyPartitioner implements Partitioner<Text, Text> {
@Override
public int getPartition(Text key, Text value, int numPartitions) {
}
}
Partitioner需求示例
•需求描述
•数据文件中含有省份
•需要相同的省份送到相同的Reduce里
•从而产生不同的文件
•数据样例
•1 liaoning
•1 代表该省份有多少个直辖市
•步骤
•实现Partitioner,覆盖getPartition
•根据省份字段进行切分
•什么是RecordReader
•用于在分块中读取<Key,Value>对,也就是说每一次我们读取一条记录都会调用该类。
•主要是处理经过InputFormat分片完的数据
•什么时候使用RecordReader
•需要对输入的数据按自己的需求处理
•如:要求输入的key不是文件的偏移量而是文件的路径或者名字
•系统默认为LineRecordReader
•按照每行的偏移量做为map输出时的key值,每行的内容作为map的value值,默认的分隔符是回车和换行。
•需求
•更改map对应的输入的<key,value>值,key对应的文件的路径(或者是文件名),value对应的是文件的内容(content)。
•步骤
•重写InputFormat不对文件切分
•重写RecordReader
•在配置作业时使用自定义的组件进行数据处理
第二部分:Join
案例分析
•输入为2个文件,文件一内容如下
•空格分割:用户名 手机号 年龄
•内容样例
•Tom 1314567890 14
•文件二内容
•空格分割:手机号 地市
•内容样例
•13124567890 hubei
•需要统计出的汇总信息为 用户名 手机号 年龄 地市
Map端Join
•设计思路
•使用DistributedCache.addCacheFile()将地市的文件加入到所有Map的缓存里
•在Map函数里读取该文件,进行Join
• 将结果输出到reduce
•需要注意的是
•DistributedCache需要在生成Job作业前使用
Reduce端Join
•设计思路
•Map端读取所有文件,并在输出的内容里加上标识代表数据时从哪个文件里来的
•在reduce对按照标识对数据进行保存
•然后根据Key的Join来求出结果直接输出
普通排序
•Mapreduce本身自带排序功能
•Text对象是不适合排序的,如果内容为整型不会安照编码顺序去排序
•一般情况下我们可以考虑以IntWritable做为Key,同时将Reduce设置成0 ,进行排序
部分排序
•即输出的每个文件都是排过序的
•如果我们不需要全局排序,那么这是个不错的选择。
全局排序
•产生背景
•Hadoop平台没有提供全局数据排序,而在大规模数据处理中进行数据的全局排序是非常普遍的需求。
•使用hadoop进行大量的数据排序排序最直观的方法是把文件所有内容给map之后,map不做任何处理,直接输出给一个reduce,利用hadoop的自己的shuffle机制,对所有数据进行排序,而后由reduce直接输出。
•快速排序基本步骤就是需要现在所有数据中选取一个作为支点。然后将大于这个支点的放在一边,小于这个支点的放在另一边。
设想如果我们有 N 个支点(这里可以称为标尺),就可以把所有的数据分成 N+1 个 part ,将这 N+1 个 part 丢给 reduce,由 hadoop 自动排序,最后输出 N+1 个内部有序的文件,再把这 N+1 个文件首尾相连合并成一个文件,收工 。
由此我们可以归纳出这样一个用 hadoop 对大量数据排序的步骤:
1 ) 对待排序数据进行抽样;
2 ) 对抽样数据进行排序,产生标尺;
3 ) Map 对输入的每条数据计算其处于哪两个标尺之间;将数据发给对应区间 ID 的 reduce
4 ) Reduce 将获得数据直接输出。
•Hadoop 提供了Sampler接口可以返回一组样本,该接口为Hadoop的采样器。
public interface Sampler<K, V> {
K[] getSample(InputFormat<K, V> inf, Job job)
throws IOException, InterruptedException;
}
•Hadoop提供了一个TotalOrderPartitioner,可以使我们来实现全局排序。
二次排序
•产生背景
•MapReduce默认会对key进行排序
•将输出到Reduce的values也进行预先的排序
•实现方式
•重写Partitioner,完成key分区,进行第一次排序
•实现WritableComparator,完成自己的排序逻辑,完成key的第2次排序
•原理
•Map之前的数据
key1 1
key2 2
key2 3
key3 4
key1 2
•Mapduce只能排序key,所以为了二次排序我们要重新定义自己的key 简单说来就是<key value> value ,组合完后
<key1 1 > 1
<key2 2 > 2
<key2 3 > 3
<key3 4> 4
<key1 2 > 2
•原理
•接下来实现自定义的排序类,分组类,数据变成
<key1 1 > 1
<key1 2 > 2
<key2 2 > 2
<key2 3 > 3
<key3 4> 4
•最后 reduce处理后输出结果
key1 1
key1 2
key2 2
key2 3
key3 4
第四部分:计数器
•什么是计数器
计数器主要用来收集系统信息和作业运行信息,用于知道作业成功、失败等情况,比日志更便利进行分析。
•内置计数器
•Hadoop内置的计数器,记录作业执行情况和记录情况。包括MapReduce框架、文件系统、作业计数三大类。
•计数器由关联任务维护,定期传递给tasktracker,再由tasktracker传给jobtracker。
•计数器可以被全局聚集。内置的作业计数器实际上由jobtracker维护,不必在整个网络中传递。
•当一个作业执行成功后,计数器的值才是完整可靠的。
用户自定义Java计数器
•MapReduce框架允许用户自定义计数器
•计数器是全局使用的
•计数器有组的概念,可以由一个Java枚举类型来定义
•如何配置
•0.20.2以下的版本使用Reporter,
•0.20.2以上的版本使用context.getCounter(groupName, counterName) 来获取计数器配置并设置。
•动态计数器
•所谓动态计数器即不采用Java枚举的方式来定义
•Reporter中的获取动态计数器的方法
•public void incrCounter(String group,String counter,long amount)
组名称,计数器名称,计数值
•一些原则
•创建计数器时,尽量让名称易读
•获取计数器
•Web UI
•命令行 hadoop job-counter
•Java API
•Java API
•在作业运行完成后,计数器稳定后获取。 使用job.getCounters()得到Counters
第五部分:合并小文件示例
•产生背景
•Hadoop不适合处理小文件
•会占用大量的内存空间
•解决方案
•文件内容读取到SequenceFile内
- Hadoop以及组件介绍
一.背景介绍 在接触过大数据相关项目的时候常常都会听到Hadoop这个东西,简单来说,他是一个用分布式计算来处理大数据的开源软件,下面包含了许多的组件和子项目,这篇文章将会介绍Hadoop的原理以及一 ...
- 开源免费且稳定实用的.NET PDF打印组件itextSharp(.NET组件介绍之八)
在这个.NET组件的介绍系列中,受到了很多园友的支持,一些园友(如:数据之巅. [秦时明月]等等这些大神 )也给我提出了对应的建议,我正在努力去改正,有不足之处还望大家多多包涵.在传播一些简单的知识的 ...
- 免费开源的.NET多类型文件解压缩组件SharpZipLib(.NET组件介绍之七)
前面介绍了六种.NET组件,其中有一种组件是写文件的压缩和解压,现在介绍另一种文件的解压缩组件SharpZipLib.在这个组件介绍系列中,只为简单的介绍组件的背景和简单的应用,读者在阅读时可以结合官 ...
- 免费高效实用的.NET操作Excel组件NPOI(.NET组件介绍之六)
很多的软件项目几乎都包含着对文档的操作,前面已经介绍过两款操作文档的组件,现在介绍一款文档操作的组件NPOI. NPOI可以生成没有安装在您的服务器上的Microsoft Office套件的Excel ...
- 免费开源的DotNet任务调度组件Quartz.NET(.NET组件介绍之五)
很多的软件项目中都会使用到定时任务.定时轮询数据库同步,定时邮件通知等功能..NET Framework具有“内置”定时器功能,通过System.Timers.Timer类.在使用Timer类需要面对 ...
- 免费开源的DotNet二维码操作组件ThoughtWorks.QRCode(.NET组件介绍之四)
在生活中有一种东西几乎已经快要成为我们的另一个电子”身份证“,那就是二维码.无论是在软件开发的过程中,还是在普通用户的日常中,几乎都离不开二维码.二维码 (dimensional barcode) , ...
- 最好的.NET开源免费ZIP库DotNetZip(.NET组件介绍之三)
在项目开发中,除了对数据的展示更多的就是对文件的相关操作,例如文件的创建和删除,以及文件的压缩和解压.文件压缩的好处有很多,主要就是在文件传输的方面,文件压缩的好处就不需要赘述,因为无论是开发者,还是 ...
- 高效而稳定的企业级.NET Office 组件Spire(.NET组件介绍之二)
在项目开发中,尤其是企业的业务系统中,对文档的操作是非常多的,有时几乎给人一种错觉的是”这个系统似乎就是专门操作文档的“.毕竟现在的很多办公中大都是在PC端操作文档等软件,在这些庞大而繁重的业务中,单 ...
- 一款开源免费的.NET文档操作组件DocX(.NET组件介绍之一)
在目前的软件项目中,都会较多的使用到对文档的操作,用于记录和统计相关业务信息.由于系统自身提供了对文档的相关操作,所以在一定程度上极大的简化了软件使用者的工作量. 在.NET项目中如果用户提出了相关文 ...
随机推荐
- P3000 [USACO10DEC]牛的健美操Cow Calisthenics
题目描述 Farmer John continues his never-ending quest to keep the cows fit by having them exercise on va ...
- linux下转换windows文件格式为unix sed -i 's/\r//' <filename> 转化为unix格式
sed -i 's/\r//' <filename> 转化为unix格式
- 【bzoj1069】最大土地面积
Description 在某块平面土地上有N个点,你可以选择其中的任意四个点,将这片土地围起来,当然,你希望这四个点围成的多边形面积最大. Input 第1行一个正整数N,接下来N行,每行2个数x,y ...
- 安装完打开 eclipse 提示 JVM 版本较低
在安装完 eclipse 后打开出现如下提示 解决办法: 1> 去官网下载最新版本安装 地址 2> linux 下直接下载安装 1.打开终端 2.控制台输入:su 3.控制台输入个人密码 ...
- Mac安装mysql8.0.12
···shell 下载 wget https://dev.mysql.com/get/Downloads/MySQL-8.0/mysql-8.0.12-macos10.13-x86_64.tar.gz ...
- bug5 Debug:This kind of launch is configured to openthe debug perspective when it解决办法
启动tomcat时,myeclipse报错: This kind of launch is configured to openthe debug perspective when itsuspend ...
- $.AJAX参数提交及后台获取方式
$.AJAX默认是get方式提交,所以你在后台只能用获取url参数的方式获取,可指定type为post更改提交方式: 在后台可通过Request["控件name/url参数key" ...
- SSO后期补充理解
sso系统的提出: 为什么会产生sso系统呢?它的作用是什么?这跟普通的登录系统有什么区别? 我们先来说说session的实现原理:session跟cookie都是用户的会话跟踪技术,为什么登录成功后 ...
- Kafka 0.8翻译官网精华.md
1主要的设计元素 Kafka之所以和其它绝大多数信息系统不同,是因为下面这几个为数不多的比较重要的设计决策: Kafka在设计之时为就将持久化消息作为通常的使用情况进行了考虑. 主要的设计约束是吞吐量 ...
- bzoj千题计划206:bzoj1076: [SCOI2008]奖励关
http://www.lydsy.com/JudgeOnline/problem.php?id=1076 很容易想到方程 dp[i][j]表示抛出了i个宝物,已选宝物状态为j的期望最大得分 初始化dp ...