框架简介

MapReduce仅仅可以支持Writable做key，value吗？答案是否定的。事实上，一切类型都是支持的，只需满足一个小小的条件：每个类型是以二进制流的形式传输。为此Hadoop提供了一个序列化框架来支持，他们在org.apache.hadoop.io.serializer包中，Writable可以作为MapReduce支持的类型也是因为实现了这个框架，类不多，我们从几个接口说起。

Serializer

定义了一组接口，打开流，序列化，关闭流

public interface Serializer <T> {
void open(java.io.OutputStream outputStream) throws java.io.IOException;
void serialize(T t) throws java.io.IOException;
void close() throws java.io.IOException;
}

Deserializer

定义了一组接口，打开流，反序列化，关闭流

public interface Deserializer <T> {
void open(java.io.InputStream inputStream) throws java.io.IOException;
T deserialize(T t) throws java.io.IOException;
void close() throws java.io.IOException;
}

Serialization

定义了一组接口，判断是否支持输入的类，根据输入的类给出序列化接口和反序列化接口

public interface Serialization <T> {
boolean accept(java.lang.Class<?> aClass);
org.apache.hadoop.io.serializer.Serializer<T> getSerializer(java.lang.Class<T> tClass);
org.apache.hadoop.io.serializer.Deserializer<T> getDeserializer(java.lang.Class<T> tClass);
}

WritableSerialization

如果你想自己定义一个类似Writable这样的框架，那么你首先需要的就是实现上面三个接口，那么我们先来看下Writable是如何实现的。

<pre style="word-wrap: break-word; white-space: pre-wrap; ">public class WritableSerialization extends Configured
implements Serialization<Writable> {
static class WritableDeserializer extends Configured
implements Deserializer<Writable> {
private Class<?> writableClass;
private DataInputStream dataIn;
public WritableDeserializer(Configuration conf, Class<?> c) {
setConf(conf);
this.writableClass = c;
}
public void open(InputStream in) {
if (in instanceof DataInputStream) {
dataIn = (DataInputStream) in;
} else {
dataIn = new DataInputStream(in);
}
}
public Writable deserialize(Writable w) throws IOException {
Writable writable;
if (w == null) {
writable
= (Writable) ReflectionUtils.newInstance(writableClass, getConf());
} else {
writable = w;
}
writable.readFields(dataIn);
return writable;
}
public void close() throws IOException {
dataIn.close();
}
}
static class WritableSerializer implements Serializer<Writable> {
private DataOutputStream dataOut;
public void open(OutputStream out) {
if (out instanceof DataOutputStream) {
dataOut = (DataOutputStream) out;
} else {
dataOut = new DataOutputStream(out);
}
}
public void serialize(Writable w) throws IOException {
w.write(dataOut);
}
public void close() throws IOException {
dataOut.close();
}
}
public boolean accept(Class<?> c) {
return Writable.class.isAssignableFrom(c);
}
public Deserializer<Writable> getDeserializer(Class<Writable> c) {
return new WritableDeserializer(getConf(), c);
}
public Serializer<Writable> getSerializer(Class<Writable> c) {
return new WritableSerializer();
}
}</pre>

两个内部静态类分别实现Serializer和Deserializer接口，然后getSerializer和getDeserializer分别实例化WritableSerializer和WritableDeserializer，

accept方法仅仅是判断输入类是否是Writable的子类。

通过io.serializations指定已实现Serialization，各个类之间通过逗号隔开，默认的Serialization有WritableSerialization和Avro中Serialization，

这也就是说默认情况下，只有Writable和Avro里的对象可以在MapReduce中使用。

那么你可能有疑问了，hadoop是如何知道一个类该交给哪个Serialization呢，答案也在这个包中，请看

SerializationFactory

先看他的构造器

public SerializationFactory(Configuration conf) {
super(conf);
for (String serializerName : conf.getStrings("io.serializations",
new String[]{"org.apache.hadoop.io.serializer.WritableSerialization"})) {
add(conf, serializerName);
}
}

可知他是从io.serializations属性指定的实现了Serialization的类，然后再看他是如何知道选哪个Serialization的

public <T> Serialization<T> getSerialization(Class<T> c) {
for (Serialization serialization : serializations) {
if (serialization.accept(c)) {
return (Serialization<T>) serialization;
}
}
return null;
}

好吧，就是这么简单，判断一下是否是对应的子类而已。

这个包里还实现了JavaSerialization，其实就是Java对象的序列化，很多人觉得，这个好简单的，我只要实现java中的序列化接口就可以了，

不用那么费事搞什么Writable和Avro，但是，千万别这么想，非常不推荐使用java对象的序列化，并且详尽的解释为什么不推荐：

为什么不使用java序列化

1.java序列化不够灵活，为了更好的控制序列化的整个流程所以使用Writable

2.java序列化不符合序列化的标准，没有做一定的压缩，java序列化首先写类名，然后再是整个类的数据，而且成员对象在序列化中只存引用，成员对象的可以出现的位置很随机，既可以在序列化的对象前，也可以在其后面，这样就对随机访问造成影响，一旦出错，整个后面的序列化就会全部错误，但是
Writable完美的弥补了这一点，因为Writable中每一条纪录间是相互独立的
3.Java序列化每次序列化都要重新创建对象，内存消耗大，而Writable是可以重用的。

序列化IDL

为了和其他语言交互，必须定义序列化的IDL,原先定义的IDL在org.apache.hadoop.record包里，但是后来一直没用起来就淘汰掉了，现在比较常用的就是Avro，后面我们会重点着墨讲解。

Apache的Thrift和Google的Protocol Buffer也是比较流行的序列化框架，但是在Hadoop里使用是有限的，只用于RPC和数据交互，不过有一个开源项目elephant-bird可以把他们使用在MapReduce上。

Mapreduce之序列化框架（转自http://blog.csdn.net/lastsweetop/article/details/9376495）的更多相关文章

转：Java面试题集（51-70） http://blog.csdn.net/jackfrued/article/details/17403101
Java面试题集(51-70) Java程序员面试题集(51-70) http://blog.csdn.net/jackfrued/article/details/17403101 摘要:这一部分主要 ...
http://blog.csdn.net/luoshengyang/article/details/6651971
文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/6651971 在Android系统中,提供了独特 ...
http://blog.csdn.net/v_july_v/article/details/6543438
本文转载至: http://blog.csdn.net/v_july_v/article/details/6543438 算法程序员面试.算法研究.编程艺术.红黑树.数据挖掘5大经典原创系列集锦与总 ...
http://blog.csdn.net/baimafujinji/article/details/10931621
书接上文,本文章是该系列的第二篇,按照总纲中给出的框架,本节介绍三个中值定理,包括它们的证明及几何意义.这三个中值定理是高等数学中非常基础的部分,如果读者对于高数的内容已经非常了解,大可跳过此部分.当 ...
[Android Pro] https://blog.csdn.net/gaugamela/article/details/79143309
原文地址:https://blog.csdn.net/gaugamela/article/details/79143309 最近遇到这样一个问题: 第三方的SDK除了Jar包外,还提供了对应的so文件 ...
RedHat如何关闭防火墙： http://blog.csdn.net/chongxin1/article/details/76072758
版本号:RedHat6.5 JDK1.8 Hadoop2.7.3 hadoop 说明:从版本2开始加入了Yarn这个资源管理器,Yarn并不需要单独安装.只要在机器上安装了JDK就可以直接安 ...
转-spring-boot 注解配置mybatis+druid（新手上路）-http://blog.csdn.net/sinat_36203615/article/details/53759935
spring-boot 注解配置mybatis+druid(新手上路) 转载 2016年12月20日 10:17:17 标签: sprinb-boot / mybatis / druid 10475 ...
mybaits入门（含实例教程和源码） http://blog.csdn.net/u013142781/article/details/50388204
前言:mybatis是一个非常优秀的存储过程和高级映射的优秀持久层框架.大大简化了,数据库操作中的常用操作.下面将介绍mybatis的一些概念和在eclipse上的实际项目搭建使用. 一.mybati ...
http://blog.csdn.net/LANGXINLEN/article/details/50421988
GitHub上史上最全的Android开源项目分类汇总今天在看博客的时候,无意中发现了 @Trinea在GitHub上的一个项目 Android开源项目分类汇总, 由于类容太多了,我没有一个个完整地 ...

随机推荐

[LeetCode]题解（python）：053-Maximum Subarray
题目来源 https://leetcode.com/problems/maximum-subarray/ Find the contiguous subarray within an array (c ...
documentElement和ownerDocument和ownerElement
1.document.documentElement是指文档根节点----HTML元素 2.element.ownerDocument是指当前元素所在的文档对象----document 3.attrO ...
【转】Java魔法堂：String.format详解
Java魔法堂:String.format详解目录一.前言二.重载方法三.占位符四.对字符.字符串进行格式化五.对整数进行格式化六. ...
http://blog.csdn.net/littlechang/article/details/8642149
http://blog.csdn.net/littlechang/article/details/8642149
UVA 10127题目描述
Given any integer 0 ≤ n ≤ 10000 not divisibleby 2 or 5, some multiple of n is a number whichin decim ...
Linux就这个范儿第8章我是Makefile
Linux就这个范儿第8章我是Makefile P287 Makefile的作用就是——自动化编译,一旦写好,只需要一个make命令(解析Makefile,执行Makefile中描述的操作),整个 ...
php 远程下载木马
function dlfile($file_url, $save_to) { $content = file_get_contents($file_url); file_put_contents($s ...
[NetTopologySuite]（2）任意多边形求交
任意多边形求交: private void btnPolygon_Click(object sender, EventArgs e) { , , , , , , , , , , , , , }; , ...
C#读写BitMap及颜色相乘
C#读写BitMap及颜色相乘 private Bitmap ReadBitMapAndMultipy(Bitmap bitmap0) { int x1width = bitmap0.Width; i ...
MongoDB安装、管理工具、操作
1. mongoDB安装.启动.关闭 1.1 下载安装包 wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.3.tgz 1.2 ...

Mapreduce之序列化框架（转自http://blog.csdn.net/lastsweetop/article/details/9376495）