解读:Hadoop序列化类
序列化(serialization)是指将结构化的对象转化字节流,以便在进程间通信或写入硬盘永久存储。
反序列化(deserialization)是指将字节流转回到结构化对象的过程。
需要注意的是,能够在网络上传输的只能是字节流。所以,Map的中间结果在不同主机间Shuffle洗牌时,结构化对象将经历序列化(map结果写入磁盘)和反序列化(reduce读取map结果)两个过程。
Writable接口
Hadoop并没有使用JAVA的序列化机制,而是引入了自己的序列化系统,package org.apache.hadoop.io 这个包中定义了大量的可序列化对象,这些对象都实现了Writable接口,Writable接口是序列化对象的一个通用接口。其中包含了write()和readFields()两个序列化相关方法。
WritableComparable接口
WriteCompareable接口是对Wirtable接口的二次封装,并提供了compareTo(T o)方法,用于序列化对象的比较。因为MR中间有个基于key的排序阶段。
RawComparator接口
Hadoop为优化Shuffle阶段的排序,提供了原生的比较器接口RawComparator<T>用于在字节流层面进行比较,从而大大缩短了比较的时间开销。该接口并非被多数的衍生类所实现,多数情况下其直接子类WritableComparator作为实现Writable接口类的内置类,提供序列化字节的比较功能。
WritableComparator类
1). 原始compare()方法的默认实现:先【反序列化】为对象,再通过【比较对象】,有开销的问题。所以,对于继承writeCompatable的具体子类都会要求覆写compare()方法以加快效率。
//原始compare()是将要比较的二进制流,先反序列化为对象,再调用对象的比较方法进行比较。
public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
try { //利用Buffer为桥接中介,把字节数组存储为buffer后
buffer.reset(b1, s1, l1); //调用key1(WritableComparable类型)的反序列化方法
key1.readFields(buffer); buffer.reset(b2, s2, l2);
key2.readFields(buffer);
} catch (IOException e) {
throw new RuntimeException(e);
}
//调用Writable对象的compare()比较方法进行比较
return compare(key1, key2);
}
2). define()方法用于注册WritebaleComparaor对象到注册表中(Hadoop自动调用比较器)。
public static void define(Class c, WritableComparator comparator) {
comparators.put(c, comparator);
}
3). 以上两个方法在自定义的WritableComparable子类类中,都必须覆写,以实现高效排序。
Writable类的字节长度
在定制Writable类之前,应该先了解不同Writable类占用磁盘空间的大小。通过减少Writable实例的字节数,加快数据的读取和减少网络的数据传输。下表显示的是Hadoop对Java基本类型包装后相应的Writable类占用的字节长度:
|
Java基本类型 |
字节数 |
Writable实现 |
序列化后字节数 (bytes) |
|
boolean |
1/8 |
BooleanWritable |
1 |
|
byte |
1 |
ByteWritable |
1 |
|
short |
2 |
ShortWritable |
2 |
|
int |
4 |
IntWritable |
4 |
|
VIntWritable |
1–5 |
||
|
float |
4 |
FloatWritable |
4 |
|
long |
8 |
LongWritable |
8 |
|
VLongWritable |
1–9 |
||
|
double |
8 |
DoubleWritable |
8 |
不同Writable类型序列化后的字节长度是不一样的,需要综合考虑应用中数据特征选择合适的类型。对于整数类型有两种选择,一种是定长(fixed-length)Writable类型,IntWritable和LongWritable;另一种是变长(variable-length)Writable类型,VIntWritable和VLongWritable。变长类型是根据数值的大小使用相应的字节长度表示,当数值在-112~127之间时使用1个字节表示,在-112~127范围之外的数值使用头一个字节表示该数值的正负符号以及字节长度(zero-compressed encoded integer)。
对于整数类型的Writable选择,建议:
- 除非对数据的均匀分布很有把握,否则使用变长Writable类型
- 除非数据的取值区间确定在int范围之内,否则为了程序的可扩展性,请选择VLongWritable类型
package cn.itcast.hadoop.mr; import java.io.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.util.StringUtils; //测试十进制序列化成不同Writable类型所占用的字节数组长度
public class WritableBytesLengthDemo { public static void main(String[] args) throws IOException { //将十亿用不同Writable类型表示出来
IntWritable int_b = new IntWritable(1000000000);
LongWritable long_b = new LongWritable(1000000000);
VIntWritable vint_b = new VIntWritable(1000000000);
VLongWritable vlong_b = new VLongWritable(1000000000); //将不同的Writable类型序列化成字节数组
byte[] bs_int_b = serialize(int_b);
byte[] bs_long_b = serialize(long_b);
byte[] bs_vint_b = serialize(vint_b);
byte[] bs_vlong_b = serialize(vlong_b); //以十六进制形式打印字节数组,并打印出数组的长度
String hex = StringUtils.byteToHexString(bs_int_b);
formatPrint("IntWritable", "1,000,000,000",hex, bs_int_b.length); hex = StringUtils.byteToHexString(bs_long_b);
formatPrint("LongWritable", "1,000,000,000",hex, bs_long_b.length); hex = StringUtils.byteToHexString(bs_vint_b);
formatPrint("VIntWritable", "1,000,000,000",hex, bs_vint_b.length); hex = StringUtils.byteToHexString(bs_vlong_b);
formatPrint("VLongWritable", "1,000,000,000", hex, bs_vlong_b.length);
}
//定义输出格式
private static void formatPrint(String type, String param, String hex, int length) { String format = "%1$-50s %2$-16s with length: %3$2d%n";
System.out.format(format, "Byte array per " + type
+ "("+ param +") is:", hex, length);
}
//将一个实现了Writable接口的对象序列化成字节流
public static byte[] serialize(Writable writable) throws IOException {
ByteArrayOutputStream out = new ByteArrayOutputStream();
DataOutputStream dataOut = new DataOutputStream(out);
writable.write(dataOut);
dataOut.close(); return out.toByteArray();
}
//反序列化
public static Writable deserialize(Writable writable, byte[] bytes) throws IOException {
ByteArrayInputStream in = new ByteArrayInputStream(bytes);
DataInputStream dataIn = new DataInputStream(in);
writable.readFields(dataIn);
dataIn.close(); return writable;
}
}
Byte array per IntWritable(1,000,000,000) is: 3b9aca00 with length: 4
Byte array per LongWritable(1,000,000,000) is: 000000003b9aca00 with length: 8
Byte array per VIntWritable(1,000,000,000) is: 8c3b9aca00 with length: 5
Byte array per VLongWritable(1,000,000,000) is: 8c3b9aca00 with length: 5
从上面的输出我们可以看出:
- l对1,000,000,000的表示不同Writable占用了不同字节长度
- 变长类型并不总比定长更加节省空间,因为变长需要一个额外的字节来存放正负信息和字节长度。
Text的字节序列
- 可以简单的认为Text类是java.lang.String的Writable类型,要注意的是Text类对于Unicode字符采用UTF-8编码,使用变长的1~4个字节对字符进行编码。对于ASCII字符只使用1个字节,而对于High ASCII和多字节字符使用2~4个字节表示。而不是使用Java Character类的UTF-16编码。
- 对于原本GBK编码的数据使用Text读入后直接使用String line=value.toString();方法会出现乱码问题。正确的方法是将输入的Text类型的value转换为字节数组,使用String的构造器String(byte[] bytes, int offset, int length, Charset charset),通过使用指定的charset解码指定的byte子数组,构造一个新的String。即 String line=new String(value.getBytes(),0,value.getLength(),”GBK”);
- Text类的字节序列表示为【一个VIntWritable + UTF-8字节流】。其中,VIntWritable表示Text类型的字符长度,UTF-8字节数组为真正的Text字节流。
下面以Text类中字节比较的代码进行说明:
/** A WritableComparator optimized for Text keys. */
public static class Comparator extends WritableComparator {
public Comparator() {
super(Text.class);
}
@Override
//b1代表字节数组;s1代表一个text类型的起始字节;l1代表一个text类型的字节长度
public int compare(byte[] b1, int s1, int l1,
byte[] b2, int s2, int l2) {
//返回Text的字符长度
int n1 = WritableUtils.decodeVIntSize(b1[s1]);
int n2 = WritableUtils.decodeVIntSize(b2[s2]); //比较器跳过 代表Text字符长度 的字节,直接比对UTF编码的真正的字符串部分的字节
//compareBytes()方法是对字节进行逐个比较。一旦找到一个不同的,然后就返回结果,后面的不管
return compareBytes(b1, s1+n1, l1-n1, b2, s2+n2, l2-n2);
}
}
解读:Hadoop序列化类的更多相关文章
- Hadoop阅读笔记(六)——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
- Hadoop序列化
遗留问题: Hadoop序列化可以复用对象,是在哪里复用的? 介绍Hadoop序列化机制 Hadoop序列化机制详解 Hadoop序列化的核心 Hadoop序列化的比较接口 ObjectWrita ...
- hadoop序列化机制与java序列化机制对比
1.采用的方法: java序列化机制采用的ObjectOutputStream 对象上调用writeObject() 方法: Hadoop 序列化机制调用对象的write() 方法,带一个DataOu ...
- java序列化是什么和反序列化和hadoop序列化
1.什么是序列化和系列化DE- 神马是序列化它,序列化是内存中的对象状态信息,兑换字节序列以便于存储(持久化)和网络传输.(网络传输和硬盘持久化,你没有一定的手段来进行辨别这些字节序列是什么东西,有什 ...
- Hadoop序列化与Java序列化
序列化就是把内存中的对象的状态信息转换成字节序列,以便于存储(持久化)和网络传输 反序列化就是就将收到的字节序列或者是硬盘的持久化数据,转换成内存中的对象. 1.JDK的序列化 只要实现了serial ...
- 自定义排序及Hadoop序列化
自定义排序 将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...
- Hadoop序列化机制及实例
序列化 1.什么是序列化?将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程.2.什么是反序列化?将字节流转换为一系列结构化对象的过程.序列化用途: 1.作为一种持久化格式. 2.作为一种 ...
- Hadoop序列化与Writable接口(二)
Hadoop序列化与Writable接口(二) 上一篇文章Hadoop序列化与Writable接口(一)介绍了Hadoop序列化,Hadoop Writable接口以及如何定制自己的Writable类 ...
- Hadoop序列化与Writable接口(一)
Hadoop序列化与Writable接口(一) 序列化 序列化(serialization)是指将结构化的对象转化为字节流,以便在网络上传输或者写入到硬盘进行永久存储:相对的反序列化(deserial ...
随机推荐
- 深入分析Cocos2d-x 2.0中的“纹理”
对CCImage的绘制是通过CCTexture2D来实现的(OPENGL es)通过纹理绘制到某个面. (本文中所提到的方法在cocos2d2.0中部分有调整,请应用时候具体察看源码)1. 首先来了解 ...
- 160607、springmvc+spring使用taskExecutor
第一步:导入spring core的jar+springmvc的jar 第二步:springmvc的配置文件中 <bean id="taskExecutor" class=& ...
- JS中的call、apply、bind 用法解疑
JS中的caller arguments.callee call apply bind方法 一.call()和apply()方法 1.方法定义 call方法: 语法:call([thisObj ...
- CentOS6.7 通过yum在线安装MySQL5.7
一.安装1.检测系统是否自带安装mysql yum list installed | grep mysql 发现系统自带依赖库:mysql-libs.x86_64 2.删除系统自带的mysql及其依赖 ...
- http协议----->http请求方式,post,get
4.http请求方式有七种(http请求是想web资源请求数据) Post get head options delete trace put 常用:GET POST POST例如form表单提交,G ...
- 分享:宽恕的艺术 Forgive
宽恕的艺术 To forgive may be divine, but no one ever said it was easy. 宽恕是神圣的,但是没有人说很容易做到宽恕别人. When someo ...
- MySQL exists 和 not exists 的用法
有一个查询如下: 1 SELECT c.CustomerId, c.CompanyName 2 FROM Customers c 3 WHERE EXISTS( 4 SELECT ...
- 使用 postMessage + iframe 实现跨域通信
一.postMessage window.postMessage() 方法可以安全地实现跨源通信.通常,对于两个不同页面的脚本,只有当执行它们的页面位于具有相同的协议(通常为https),端口号(44 ...
- imToken 测评通关攻略
imToken 测评通关攻略 2017-10-19 imToken 在 1.3.3 版本新增了用户风险测评系统, 目的是为了让更多的用户了解钱包安全知识以及区块链的基本概念, 从某种程度上提升了整个区 ...
- Yii框架2.0 数据库操作初接触
Yii2.0和Yii1.1版本的变动还是挺多的,我发现配置文件有许多不同,Yii1.1版本里有个main.php 好多信息是在这里配置的,比如默认控制器,数据库连接信息:Yii的数据库配置被单独拿出来 ...