Hadoop(19)-MapReduce框架原理-Combiner合并

【Hadoop(19)-MapReduce框架原理-Combiner合并】的更多相关文章

Hadoop(19)-MapReduce框架原理-Combiner合并

1. Combiner概述 2. 自定义Combiner实现步骤 1). 定义一个Combiner继承Reducer,重写reduce方法 public class WordcountCombiner extends Reducer<Text, IntWritable, Text,IntWritable>{ @Override protected void reduce(Text key, Iterable<IntWritable> values,Context context)…

Hadoop基础-MapReduce的Combiner用法案例

Hadoop基础-MapReduce的Combiner用法案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.编写年度最高气温统计如上图说所示:有一个temp的文件,里面存放的是每年的数据,该数据全部是文本内容,大小2M左右,我已将他放在百度云(链接:https://pan.baidu.com/s/1CEcHAXlII2kKxbn1dmTPKA 密码:jgp0),当你下载后,看到该文件的第15列到19列存放的是年份,而第87列到92列存放的是温度,注意999是无效值,需…

Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区

MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计算出MapTask的数量 (以一个MapTask为例) 5.Maptask调用inputFormat生成RecordReader,将自己处理的切片文件内容打散成K,V值 6.MapTask将打散好的K,V值交给Mapper,Mapper经过一系列的处理将KV值写出 7.写出的KV值被outputCo…

Hadoop(16)-MapReduce框架原理-自定义FileInputFormat

1. 需求将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value 三个小文件 one.txt yongpeng weidong weinan sanfeng luozong xiaoming two.txt shuaige changmo zhenqiang dongli lingu xuanxuan…

Hadoop(12)-MapReduce框架原理-Hadoop序列化和源码追踪

1.什么是序列化 2.为什么要序列化 3.为什么不用Java的序列化 4.自定义bean对象实现序列化接口(Writable) 在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口. 具体实现bean对象序列化步骤如下7步: 1) 必须实现Writable接口 2) 反序列话时,需要反射调用无参构造方法,所以必须要有无参构造方法 3) 重写序列化方法write() 4) 重写反序列化方法readFields() 5)…

Hadoop(20)-MapReduce框架原理-OutputFormat

1.outputFormat接口实现类 2.自定义outputFormat 步骤: 1). 定义一个类继承FileOutputFormat 2). 定义一个类继承RecordWrite,重写write方法 3. 案例有一个log文件,将包含nty的输出到nty.log文件,其他的输出到other.log http://www.baidu.com http://www.google.com http://cn.bing.com http://www.nty.com http://www.sohu…

Hadoop(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分组

1.排序概述 2.排序分类 3.WritableComparable案例这个文件,是大数据-Hadoop生态(12)-Hadoop序列化和源码追踪的输出文件,可以看到,文件根据key,也就是手机号进行了字典排序 13470253144 180 180 360 13509468723 7335 110349 117684 13560439638 918 4938 5856 13568436656 3597 25635 29232 13590439668 1116 954 2070 1363057…

MapReduce之Combiner合并

Combiner是MR程序中Mapper和Reducer之外的一种组件(本质是一个Reducer类) Combinr组件的父类就是Reducer Conbimer只有在驱动类里设置了之后,才会运行 Combiner和Reducer的区别在于运行的位置: map----sort---copy---sort(shuffle阶段)---reduce ==Combiner是在每一个MapTask所在的节点运行 Reducer是接收全局所有Mapper的输出结果== Combiner的意义就是对每一个Ma…

Hadoop(14)-MapReduce框架原理-切片机制

1.FileInputFormat切片机制切片机制比如一个文件夹下有5个小文件,切片时会切5个片,而不是一个片案例分析 2.FileInputFormat切片大小的参数配置源码中计算切片大小的公式切片大小设置获取切片大小API 3. CombineTextInputFormat切片机制框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其…

Hadoop(13)-MapReduce框架原理--Job提交源码和切片源码解析

1.MapReduce的数据流 1) Input -> Mapper阶段这一阶段的主要分工就是将文件切片和把文件转成K,V对输入源是一个文件,经过InputFormat之后,到了Mapper就成了K,V对,以上一章的流量案例来说,经过InputFormat之后,变成了手机号为key,这一行数据为value的K,V对,所以这里我们可以自定义InputFormat,按照具体的业务来实现将文件切片并且转为K,V对的方式 2) Mapper -> Reducer阶段这一阶段叫做shuffle(洗…