Hadoop序列化

遗留问题：

Hadoop序列化可以复用对象，是在哪里复用的?

介绍Hadoop序列化机制
Hadoop序列化机制详解
1. Hadoop序列化的核心
2. Hadoop序列化的比较接口
3. ObjectWritable类
参考
1. Comparable 和 Comparator
2. ConcurrentHashMap

介绍Hadoop序列化机制

JAVA的序列化机制是在对象流ObjectOutputStream对象上调用writeObject 方法。Hadoop的序列化机制是通过write函数将对象序列化到流中。Hadoop序列化可以复用对象，这样会节省系统开销。

Hadoop序列化机制详解

1.Hadoop序列化的核心

Hadoop序列化的核心是Writable接口，所有的实现这个接口的对象，都是可以序列化的。Writable有两个方法，一个是将序列化的对象写入流中，一个是从流中读取对象。

public interface Writable {

  /**

   * Serialize the fields of this object to <code>out</code>.

   *

   * @param out <code>DataOuput</code> to serialize this object into.

   * @throws IOException

   */

  void write(DataOutput out) throws IOException;

  /**

   * Deserialize the fields of this object from <code>in</code>.

   *

   * <p>For efficiency, implementations should attempt to re-use storage in the

   * existing object where possible.</p>

   *

   * @param in <code>DataInput</code> to deseriablize this object from.

   * @throws IOException

   */

  void readFields(DataInput in) throws IOException;

}

2.Hadoop序列化的比较接口

Hadoop中重要的比较接口有WritableComparable, RawComparator 和 WritableComparator。WritableComparable如下：

public interface WritableComparable<T> extends Writable, Comparable<T> {

}

该接口继承了Writable 和Comparable接口。所有实现WritableComparable的序列化类型都会实现CompareTo类型。例如IntWritable类型：

public class IntWritable implements WritableComparable<VIntWritable> {

/** Compares two IntWritables. */

@Override

public int compareTo(IntWritable o) {

  int thisValue = this.value;

  int thatValue = o.value;

  return (thisValue<thatValue ? -1 : (thisValue==thatValue ? 0 : 1));

}

}

RawComparator 继承了Comparator接口，该接口包含一个compare函数，用来从流中读取内容，并进行比较，避免了对象的创建。

public interface RawComparator<T> extends Comparator<T> {

  /**

   * Compare two objects in binary.

   * b1[s1:l1] is the first object, and b2[s2:l2] is the second object.

   *

   * @param b1 The first byte array.

   * @param s1 The position index in b1. The object under comparison's starting index.

   * @param l1 The length of the object in b1.

   * @param b2 The second byte array.

   * @param s2 The position index in b2. The object under comparison's starting index.

   * @param l2 The length of the object under comparison in b2.

   * @return An integer result of the comparison.

   */

  public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2);

}

WritableComparator 是 RawComparator 对 WritableComparable 类的一个通用实现。它有两个功能：

a.提供了一个compare的默认实现，从数据流中反序列化要比较的对象，然后调用Compare函数进行比较。

b.充当了RawComparator实例的一个工厂方法。

在所有的定长类型的类中都会有一个静态类继承WritableComparator ，并实现 compare 函数，然后通过define函数注册到WritableComparator类的 ConcurrentHashMap中。

@Override

public String toString() {

  return Integer.toString(value);

}

/** A Comparator optimized for IntWritable. */

public static class Comparator extends WritableComparator {

  public Comparator() {

    super(IntWritable.class);

  }

  @Override

  public int compare(byte[] b1, int s1, int l1,

                     byte[] b2, int s2, int l2) {

    int thisValue = readInt(b1, s1);

    int thatValue = readInt(b2, s2);

    return (thisValue<thatValue ? -1 : (thisValue==thatValue ? 0 : 1));

  }

}

static {                                        // register this comparator

  WritableComparator.define(IntWritable.class, new Comparator());

}

3. ObjectWritable类

ObjectWritable类对所有的序列化类型进行了封装，然后实现对象的序列化和反序列化。具体过程如下：

1.如果declaredClass是一个数组，对数组中的每个declaredClass对象调用WriteObject（）。

2.如果declaredClass对象是一个ArrayPrimitiveWritable类型的，调用Array类型的Write函数。

3.如果declaredClass是 PrimitiveWritable类型的，对不同的类型调用不同的write***函数。

4.如果declaredClass是enum类型的，写入enum的名字。

5.如果declaredClass是Writable类型的，写入对象实例的类名。

参考

1.comparable 和 comparator

http://www.cnblogs.com/sunflower627/p/3158042.html

2.ConcurrentHashMap

http://ifeve.com/concurrenthashmap/

Hadoop序列化的更多相关文章

Hadoop阅读笔记（六）——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
hadoop序列化机制与java序列化机制对比
1.采用的方法: java序列化机制采用的ObjectOutputStream 对象上调用writeObject() 方法: Hadoop 序列化机制调用对象的write() 方法,带一个DataOu ...
Hadoop序列化与Java序列化
序列化就是把内存中的对象的状态信息转换成字节序列,以便于存储(持久化)和网络传输反序列化就是就将收到的字节序列或者是硬盘的持久化数据,转换成内存中的对象. 1.JDK的序列化只要实现了serial ...
自定义排序及Hadoop序列化
自定义排序将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...
Hadoop序列化机制及实例
序列化 1.什么是序列化?将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程.2.什么是反序列化?将字节流转换为一系列结构化对象的过程.序列化用途: 1.作为一种持久化格式. 2.作为一种 ...
Hadoop序列化与Writable接口(二)
Hadoop序列化与Writable接口(二) 上一篇文章Hadoop序列化与Writable接口(一)介绍了Hadoop序列化,Hadoop Writable接口以及如何定制自己的Writable类 ...
Hadoop序列化与Writable接口(一)
Hadoop序列化与Writable接口(一) 序列化序列化(serialization)是指将结构化的对象转化为字节流,以便在网络上传输或者写入到硬盘进行永久存储:相对的反序列化(deserial ...
Hadoop Serialization（third edition）hadoop序列化详解(最新版) (1)
初学java的人肯定对java序列化记忆犹新.最开始很多人并不会一下子理解序列化的意义所在.这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发 ...
Hadoop Serialization hadoop序列化详解(最新版) (1)【java和hadoop序列化比较和writable接口】
初学java的人肯定对java序列化记忆犹新.最开始很多人并不会一下子理解序列化的意义所在.这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发 ...

随机推荐

ios 沙盒 NSCoding（相当于JAVA对象序列化）归档数据存储
通过NSCoding能实现像JAVA一样能够实现对象的序列化,可以保存对象到文件里. NSCoding 跟其他存储方式略有不同,他可以存储对象对象存储的条件是: 对象需要遵守 NSCoding 协议 ...
[YY题]HDOJ5288 OO’s Sequence
题意:求这个式子 $\sum \limits_{i=1}^{n} \sum \limits_{j=1}^{m} f(i, j) mod (10^9 + 7)$ 的值就是对每个区间[i, j]枚举区间 ...
python自省指南
深入python中对自省的定义: python的众多强大功能之一,自省,正如你所知道的,python中万物皆对象,自省是指代码可以查看内存中以对象形式存在的其他模块和函数,获取它们的信息,并对它们进行 ...
Hibernate逍遥游记-第15章处理并发问题-001事务并发问题及隔离机制介绍
1. 2.第一类丢失更新 3.脏读 4.虚读.幻读 5.不可重复读 6.第二类丢失更新 7.数据库的锁机制 8.数据库事务的隔离机制
C++异常以及异常与析构函数
1. 抛出异常 1.1 抛出异常(也称为抛弃异常)即检测是否产生异常,在C++中,其采用throw语句来实现,如果检测到产生异常,则抛出异常. 该语句的格式为: throw 表达式; 如果在try语句 ...
(三)CSS高级语法
选择器分组可以对选择器进行分组,被分组的选择器可以分享相同的声明,用逗号将需要分组的选择器分开.例如: h1,h2,h3,h4,h5,h6 { color: green; } 继承以及其问题一般,子 ...
从Uboot到Linux技术内幕
1. 引言在专用的嵌入式板子运行 GNU/Linux 系统已经变得越来越流行.一个嵌入式 Linux 系统从软件的角度看通常可以分为四个层次: 1. 引导加载程序.包括固化在固件(firmware) ...
Android权限安全(8)ContentProvider基于URI的安全
一.provider可以通过binder得到客户的uid,然后进程权限检查. 二,provider临时权限场景: Email的内容在provider中提供,Email的客户端可读基其内容,现在一封 ...
oracle Instance status: READY–lsnrctl status|start|stop
监听器启动,并不一定会认识数据库实例,启动监听器,请判别相关实例是否 READY [oracle@redhat4 ~]$ lsnrctl status LSNRCTL for Linux: Versi ...
[HDOJ2874]Connections between cities（LCA, 离线tarjan）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2874 这题有不连通的情况,特别注意. 觉得是存query的姿势不对,用前向星存了一遍,还是T…… /* ...

Hadoop序列化

Hadoop序列化的更多相关文章

随机推荐

热门专题