解读:Hadoop序列化类
序列化(serialization)是指将结构化的对象转化字节流,以便在进程间通信或写入硬盘永久存储。
反序列化(deserialization)是指将字节流转回到结构化对象的过程。
需要注意的是,能够在网络上传输的只能是字节流。所以,Map的中间结果在不同主机间Shuffle洗牌时,结构化对象将经历序列化(map结果写入磁盘)和反序列化(reduce读取map结果)两个过程。
Writable接口
Hadoop并没有使用JAVA的序列化机制,而是引入了自己的序列化系统,package org.apache.hadoop.io 这个包中定义了大量的可序列化对象,这些对象都实现了Writable接口,Writable接口是序列化对象的一个通用接口。其中包含了write()和readFields()两个序列化相关方法。
WritableComparable接口
WriteCompareable接口是对Wirtable接口的二次封装,并提供了compareTo(T o)方法,用于序列化对象的比较。因为MR中间有个基于key的排序阶段。
RawComparator接口
Hadoop为优化Shuffle阶段的排序,提供了原生的比较器接口RawComparator<T>用于在字节流层面进行比较,从而大大缩短了比较的时间开销。该接口并非被多数的衍生类所实现,多数情况下其直接子类WritableComparator作为实现Writable接口类的内置类,提供序列化字节的比较功能。
WritableComparator类
1). 原始compare()方法的默认实现:先【反序列化】为对象,再通过【比较对象】,有开销的问题。所以,对于继承writeCompatable的具体子类都会要求覆写compare()方法以加快效率。
//原始compare()是将要比较的二进制流,先反序列化为对象,再调用对象的比较方法进行比较。
public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
try { //利用Buffer为桥接中介,把字节数组存储为buffer后
buffer.reset(b1, s1, l1); //调用key1(WritableComparable类型)的反序列化方法
key1.readFields(buffer); buffer.reset(b2, s2, l2);
key2.readFields(buffer);
} catch (IOException e) {
throw new RuntimeException(e);
}
//调用Writable对象的compare()比较方法进行比较
return compare(key1, key2);
}
2). define()方法用于注册WritebaleComparaor对象到注册表中(Hadoop自动调用比较器)。
public static void define(Class c, WritableComparator comparator) {
comparators.put(c, comparator);
}
3). 以上两个方法在自定义的WritableComparable子类类中,都必须覆写,以实现高效排序。
Writable类的字节长度
在定制Writable类之前,应该先了解不同Writable类占用磁盘空间的大小。通过减少Writable实例的字节数,加快数据的读取和减少网络的数据传输。下表显示的是Hadoop对Java基本类型包装后相应的Writable类占用的字节长度:
|
Java基本类型 |
字节数 |
Writable实现 |
序列化后字节数 (bytes) |
|
boolean |
1/8 |
BooleanWritable |
1 |
|
byte |
1 |
ByteWritable |
1 |
|
short |
2 |
ShortWritable |
2 |
|
int |
4 |
IntWritable |
4 |
|
VIntWritable |
1–5 |
||
|
float |
4 |
FloatWritable |
4 |
|
long |
8 |
LongWritable |
8 |
|
VLongWritable |
1–9 |
||
|
double |
8 |
DoubleWritable |
8 |
不同Writable类型序列化后的字节长度是不一样的,需要综合考虑应用中数据特征选择合适的类型。对于整数类型有两种选择,一种是定长(fixed-length)Writable类型,IntWritable和LongWritable;另一种是变长(variable-length)Writable类型,VIntWritable和VLongWritable。变长类型是根据数值的大小使用相应的字节长度表示,当数值在-112~127之间时使用1个字节表示,在-112~127范围之外的数值使用头一个字节表示该数值的正负符号以及字节长度(zero-compressed encoded integer)。
对于整数类型的Writable选择,建议:
- 除非对数据的均匀分布很有把握,否则使用变长Writable类型
- 除非数据的取值区间确定在int范围之内,否则为了程序的可扩展性,请选择VLongWritable类型
package cn.itcast.hadoop.mr; import java.io.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.util.StringUtils; //测试十进制序列化成不同Writable类型所占用的字节数组长度
public class WritableBytesLengthDemo { public static void main(String[] args) throws IOException { //将十亿用不同Writable类型表示出来
IntWritable int_b = new IntWritable(1000000000);
LongWritable long_b = new LongWritable(1000000000);
VIntWritable vint_b = new VIntWritable(1000000000);
VLongWritable vlong_b = new VLongWritable(1000000000); //将不同的Writable类型序列化成字节数组
byte[] bs_int_b = serialize(int_b);
byte[] bs_long_b = serialize(long_b);
byte[] bs_vint_b = serialize(vint_b);
byte[] bs_vlong_b = serialize(vlong_b); //以十六进制形式打印字节数组,并打印出数组的长度
String hex = StringUtils.byteToHexString(bs_int_b);
formatPrint("IntWritable", "1,000,000,000",hex, bs_int_b.length); hex = StringUtils.byteToHexString(bs_long_b);
formatPrint("LongWritable", "1,000,000,000",hex, bs_long_b.length); hex = StringUtils.byteToHexString(bs_vint_b);
formatPrint("VIntWritable", "1,000,000,000",hex, bs_vint_b.length); hex = StringUtils.byteToHexString(bs_vlong_b);
formatPrint("VLongWritable", "1,000,000,000", hex, bs_vlong_b.length);
}
//定义输出格式
private static void formatPrint(String type, String param, String hex, int length) { String format = "%1$-50s %2$-16s with length: %3$2d%n";
System.out.format(format, "Byte array per " + type
+ "("+ param +") is:", hex, length);
}
//将一个实现了Writable接口的对象序列化成字节流
public static byte[] serialize(Writable writable) throws IOException {
ByteArrayOutputStream out = new ByteArrayOutputStream();
DataOutputStream dataOut = new DataOutputStream(out);
writable.write(dataOut);
dataOut.close(); return out.toByteArray();
}
//反序列化
public static Writable deserialize(Writable writable, byte[] bytes) throws IOException {
ByteArrayInputStream in = new ByteArrayInputStream(bytes);
DataInputStream dataIn = new DataInputStream(in);
writable.readFields(dataIn);
dataIn.close(); return writable;
}
}
Byte array per IntWritable(1,000,000,000) is: 3b9aca00 with length: 4
Byte array per LongWritable(1,000,000,000) is: 000000003b9aca00 with length: 8
Byte array per VIntWritable(1,000,000,000) is: 8c3b9aca00 with length: 5
Byte array per VLongWritable(1,000,000,000) is: 8c3b9aca00 with length: 5
从上面的输出我们可以看出:
- l对1,000,000,000的表示不同Writable占用了不同字节长度
- 变长类型并不总比定长更加节省空间,因为变长需要一个额外的字节来存放正负信息和字节长度。
Text的字节序列
- 可以简单的认为Text类是java.lang.String的Writable类型,要注意的是Text类对于Unicode字符采用UTF-8编码,使用变长的1~4个字节对字符进行编码。对于ASCII字符只使用1个字节,而对于High ASCII和多字节字符使用2~4个字节表示。而不是使用Java Character类的UTF-16编码。
- 对于原本GBK编码的数据使用Text读入后直接使用String line=value.toString();方法会出现乱码问题。正确的方法是将输入的Text类型的value转换为字节数组,使用String的构造器String(byte[] bytes, int offset, int length, Charset charset),通过使用指定的charset解码指定的byte子数组,构造一个新的String。即 String line=new String(value.getBytes(),0,value.getLength(),”GBK”);
- Text类的字节序列表示为【一个VIntWritable + UTF-8字节流】。其中,VIntWritable表示Text类型的字符长度,UTF-8字节数组为真正的Text字节流。
下面以Text类中字节比较的代码进行说明:
/** A WritableComparator optimized for Text keys. */
public static class Comparator extends WritableComparator {
public Comparator() {
super(Text.class);
}
@Override
//b1代表字节数组;s1代表一个text类型的起始字节;l1代表一个text类型的字节长度
public int compare(byte[] b1, int s1, int l1,
byte[] b2, int s2, int l2) {
//返回Text的字符长度
int n1 = WritableUtils.decodeVIntSize(b1[s1]);
int n2 = WritableUtils.decodeVIntSize(b2[s2]); //比较器跳过 代表Text字符长度 的字节,直接比对UTF编码的真正的字符串部分的字节
//compareBytes()方法是对字节进行逐个比较。一旦找到一个不同的,然后就返回结果,后面的不管
return compareBytes(b1, s1+n1, l1-n1, b2, s2+n2, l2-n2);
}
}
解读:Hadoop序列化类的更多相关文章
- Hadoop阅读笔记(六)——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
- Hadoop序列化
遗留问题: Hadoop序列化可以复用对象,是在哪里复用的? 介绍Hadoop序列化机制 Hadoop序列化机制详解 Hadoop序列化的核心 Hadoop序列化的比较接口 ObjectWrita ...
- hadoop序列化机制与java序列化机制对比
1.采用的方法: java序列化机制采用的ObjectOutputStream 对象上调用writeObject() 方法: Hadoop 序列化机制调用对象的write() 方法,带一个DataOu ...
- java序列化是什么和反序列化和hadoop序列化
1.什么是序列化和系列化DE- 神马是序列化它,序列化是内存中的对象状态信息,兑换字节序列以便于存储(持久化)和网络传输.(网络传输和硬盘持久化,你没有一定的手段来进行辨别这些字节序列是什么东西,有什 ...
- Hadoop序列化与Java序列化
序列化就是把内存中的对象的状态信息转换成字节序列,以便于存储(持久化)和网络传输 反序列化就是就将收到的字节序列或者是硬盘的持久化数据,转换成内存中的对象. 1.JDK的序列化 只要实现了serial ...
- 自定义排序及Hadoop序列化
自定义排序 将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...
- Hadoop序列化机制及实例
序列化 1.什么是序列化?将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程.2.什么是反序列化?将字节流转换为一系列结构化对象的过程.序列化用途: 1.作为一种持久化格式. 2.作为一种 ...
- Hadoop序列化与Writable接口(二)
Hadoop序列化与Writable接口(二) 上一篇文章Hadoop序列化与Writable接口(一)介绍了Hadoop序列化,Hadoop Writable接口以及如何定制自己的Writable类 ...
- Hadoop序列化与Writable接口(一)
Hadoop序列化与Writable接口(一) 序列化 序列化(serialization)是指将结构化的对象转化为字节流,以便在网络上传输或者写入到硬盘进行永久存储:相对的反序列化(deserial ...
随机推荐
- 170428、centos6.5安装Subversion + Apache +Jsvnadmin
服务器地址:192.168.0.112 root用户操作 建议 安装前 更 新操作系统 # yum update 更新完成后重启 # reboot 安装 装 apache # yum install ...
- 160613、MyBatis insert操作返回主键
在使用MyBatis做持久层时,insert语句默认是不返回记录的主键值,而是返回插入的记录条数:如果业务层需要得到记录的主键时,可以通过配置的方式来完成这个功能,针对Sequence主键而言,在执行 ...
- java方法的理解、调用栈与异常处理
一.流程分支 If/else :基于boolean值的双分支 Switch:基于数字(整数.char.byte.枚举).字符串 类型的多分支 Int month =5; Switch 二.方法meth ...
- R语言中的聚类的使用
这里的聚类主要用到K-Means和K-Medoide聚类.在进行聚类之前,为了避免不同参数之间量纲不同所造成的影响,先将数据进行(0-1)标准化 # 如参数weight data$weight < ...
- HDU4686—Arc of Dream
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4686 题目意思:给出一个n,算这个式子,给出A0,B0,AX,AY,然后存在以下的递推关系. a0 = ...
- where both the key and the value are strings
Environment Variables (The Java™ Tutorials > Essential Classes > The Platform Environment) htt ...
- Quick UDP Internet Connections 让互联网更快的协议,QUIC在腾讯的实践及性能优化
https://mp.weixin.qq.com/s/44ysXnVBUq_nJByMyX9n5A 让互联网更快:通往QUIC之路 原创: 史天 翻译 云技术实践 8月15日 QUIC(Quick U ...
- python基础-第七篇-7.1初识类和对象
创建类和对象 刚开始我们接触得多的编程方式为面向过程编程,这种方式就是根据业务逻辑从上往下垒代码,后来又出现了函数式编程,就是为了提高代码的重用性,减轻程序猿的工作量--而今天我们即将学的 面向对象编 ...
- Python 之 UUID
UUID是根据MAC以及当前时间等创建的不重复的随机字符串 import uuid # Generate a UUID from a host ID, sequence number, and the ...
- django允许外部访问
默认方法启动django python manage.py runserver 这时启动的服务只能在本机访问,这是因为服务只向本机(127.0.0.1:8000)提供,所以局域网的其他机器不能访问. ...