Hadoop中Comparator原理

在前面的博文《Hadoop中WritableComparable 和 comparator》中，对于WritableComparator说的不够细致，下面说说具体的实现原理！

1.WritableComparator主要提供了两个功能：

提供了对原始compara()方法的一个默认实现，默认实现是先反序列化成对象，在对对象进行比较

 public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {

     try {

       buffer.reset(b1, s1, l1);                   // parse key1

       key1.readFields(buffer);

       buffer.reset(b2, s2, l2);                   // parse key2

       key2.readFields(buffer);

     } catch (IOException e) {

       throw new RuntimeException(e);

     }

     return compare(key1, key2);                   // compare them

 }

而对应的基础数据类型的compare()的实现却巧妙的利用了特定类型的泛化：（利用了writableComparable的compareTo方法）

 public int compare(WritableComparable a, WritableComparable b) {

     return a.compareTo(b);

   }

充当RawComparator的注册工厂，通过get()方法，得到实例。

在WritableComparator中，private static HashMap<Class, WritableComparator>comparators =new HashMap<Class, WritableComparator>();记载着RawComparator实例，例如，可以通过下面的代码，获得一个IntWritable类型的RawComparator。

RawComparator<IntWritable> writable = WritableComparator.get(IntWritable.class);

2.WritableComparator如何注册定制的Writable

在WritableComparator类中，有一个方法define,通过该方法，可以将Writable注册到WritableComparator，以便可以通过get方法，直接获得实例！

 public static synchronized void define(Class c,WritableComparator comparator) {

         comparators.put(c, comparator);

 }

3.BooleanWritable中内置Comparator的实现

WritableComparable的各种实例，例如 IntWritable实例：内部类Comparator类需要根据自己的IntWritable类型重载WritableComparator里面的compare（）方法，可以说WritableComparator里面的compare（）方法只是提供了一个缺省的实现，而真正的compare（）方法实现需要根据自己的类型如IntWritable进行重载，所以WritableComparator方法中的那些readInt..等方法只是底层的封装的一个实现，方便内部Comparator进行调用而已。

下面我们着重看下BooleanWritable类的内置RawCompartor<T>的实现过程:

 **

        * A Comparator optimized for BooleanWritable.

         */

        public static class Comparator extends WritableComparator {

          public Comparator() {//调用父类的Constructor初始化keyClass=BooleanWrite.class

            super(BooleanWritable.class);

          }

          //重写父类的序列化比较方法，用些类用到父类提供的缺省方法

          public int compare(byte[] b1, int s1, int l1,

                             byte[] b2, int s2, int l2) {

            boolean a = (readInt(b1, s1) == 1) ? true : false;

            boolean b = (readInt(b2, s2) == 1) ? true : false;

            return ((a == b) ? 0 : (a == false) ? -1 : 1);

          }

        }

        //注册

        static {

          WritableComparator.define(BooleanWritable.class, new Comparator());

        }

Hadoop中Comparator原理的更多相关文章

Hadoop中Writable类之四
1.定制Writable类型 Hadoop中有一套Writable实现,例如:IntWritable.Text等,但是,有时候可能并不能满足自己的需求,这个时候,就需要自己定制Writable类型. ...
Hadoop中WritableComparable 和 comparator
1.WritableComparable 查看HadoopAPI,如图所示: WritableComparable继承自Writable和java.lang.Comparable接口,是一个Writa ...
hadoop中HDFS的NameNode原理
1. hadoop中HDFS的NameNode原理 1.1. 组成包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等. 1.2. HDFS架构 ...
Hadoop中的各种排序
本篇博客是金子在学习hadoop过程中的笔记的整理,不论看别人写的怎么好,还是自己边学边做笔记最好了. 1:shuffle阶段的排序(部分排序) shuffle阶段的排序可以理解成两部分,一个是对sp ...
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
Hadoop中两表JOIN的处理方法(转)
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的.而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的 ...
Hadoop 中疑问解析
Hadoop 中疑问解析 FAQ问题剖析一.HDFS 文件备份与数据安全性分析1 HDFS 原理分析1.1 Hdfs master/slave模型 hdfs采用的是master/slave模型,一个 ...
Hadoop中两表JOIN的处理方法
Dong的这篇博客我觉得把原理写的很详细,同时介绍了一些优化办法,利用二次排序或者布隆过滤器,但在之前实践中我并没有在join中用二者来优化,因为我不是作join优化的,而是做单纯的倾斜处理,做joi ...
1 weekend110的复习 + hadoop中的序列化机制 + 流量求和mr程序开发
以上是,weekend110的yarn的job提交流程源码分析的复习总结下面呢,来讲weekend110的hadoop中的序列化机制 1363157985066 13726230503 ...

随机推荐

爬取爱奇艺电视剧url
----因为需要顺序,所有就用串行了---- import requests from requests.exceptions import RequestException import re im ...
ASP.NET 获得当前网页名字
Code string currentFilePath = HttpContext.Current.Request.FilePath; string CurrentPageName = current ...
vue打包优化
网站首页第一次加载很慢,优化过后从十多二十秒缩短到了几秒,主要是打包的时候按需加载了,然后使用了gzip压缩. 这是优化之前的发现vendor特别大,所有引用的第三方库都会打到这个包里面;另外就是之 ...
五.jQuery源码解析之jQuery.extend(),jQuery.fn.extend()
给jQuery做过扩展或者制作过jQuery插件的人这两个方法东西可能不陌生. jQuery.extend([deep],target,object1,,object2...[objectN]) jQ ...
Windows RDP远程连接CentOS 7
1. 打开已经安装了CentOS7的主机,以root用户登录,在桌面上打开一个终端,输入命令:rpm -qa|grep epel,查询是否已经安装epel库(epel是社区强烈打造的免费开源发行软 ...
6_python之路之atm购物
6_python之路之atm购物 1.程序说明:Readme.cmd supermarket 项目主目录 ├── access.log 日志文件 ├── atm atm程序 │?? ├── atm.p ...
come on！
团队选题与评审(团队作业 2) 队名 Rookie 团队成员的姓名与学号 211606377 覃一霸(队长) 211606346 张江波 211606371 刘治江 211606384 夏培华 211 ...
django一对一数据库建立和进行数据传输的3种方式all()(对象) values()(字典) values_list()(元组)
class Business(models.Model): caption = models.CharField(max_length=32) code = models.CharField(max_ ...
sql中纵表变横表
纵表格式如图所示: 查询sql语句如下: ),content)content,Date from SummerChina ' 变成横表如图所示: 纵表变横表sql语句如下: select Time, ...
JDK8新特性：函数式接口@FunctionalInterface的使用说明
我们常用的一些接口Callable.Runnable.Comparator等在JDK8中都添加了@FunctionalInterface注解. 通过JDK8源码javadoc,可以知道这个注解有以下特 ...

Hadoop中Comparator原理

Hadoop中Comparator原理的更多相关文章

随机推荐

热门专题