Hadoop--序列化
序列化:
对象的序列化用于将一个对象编码成字节流,以及从字节流中重新构建对象。
将一个对象编码成一个字节流称为序列化该对象。
序列化三种主要的用途:
1.作为一种持久化格式。
2.作为一种通信的数据格式。
3.作为一种拷贝、克隆机制。
分布式处理中主要用了上面2种,持久化格式和通信数据格式。
Hadoop序列化机制:
Hadoop序列化机制是调用的write方法将对象序列化到流中,调用readFiles方法进行反序列化。
java序列化机制与Hadoop序列化机制区别:
java:反序列化过程中不断的创建新对象。
Hadoop:反序列化的工程中,可以服用对象,也就是说在同一个对象上得到多个反序列化的结果。
减少了java对象的分配和回收,提高了应用的效率。
Hadoop序列化机制的特征
1.紧凑:Hadoop中最稀缺的资源是宽带,所以紧凑的序列化机制可以充分的利用宽带。
2.快速:通信时大量使用序列化机制,因此,需要减少序列化和反序列化的开销。
3.可扩展:随着通信协议的升级而可升级。
4.互操作:支持不同开发语言的通信。
Hadoop Writable机制
Hadoop通过Writable接口实现的序列化机制。
接口提供连个方法,write和readFiles。
Hadoop还包含另外几个重要的序列化接口,WritableCompareable、RawComparator、WritableComparator。
Writable
类PersonWritable继承自WritableComparable,所以类中要实现write和readFiles两个方法。
代码来自私塾在线,TestCompression工程中。
代码:
- package com.test;
- import java.io.DataInput;
- import java.io.DataOutput;
- import java.io.IOException;
- import org.apache.hadoop.io.IntWritable;
- import org.apache.hadoop.io.Text;
- import org.apache.hadoop.io.WritableComparable;
- public class PersonWritable implements WritableComparable<PersonWritable> {
- Text name = new Text();
- Text sex = new Text();
- IntWritable age = new IntWritable();
- public PersonWritable() {
- set("tom", "man", 12);
- }
- public void set(String name, String sex, int age) {
- this.name = new Text(name);
- this.sex = new Text(sex);
- this.age = new IntWritable(age);
- }
- public PersonWritable(String name, String sex, int age) {
- set(name, sex, age);
- }
- @Override
- public String toString() {
- return "PersonWritable [name=" + name.toString() + ", sex="
- + sex.toString() + ", age=" + age.get() + "]";
- }
- @Override
- public int hashCode() {
- final int prime = 31;
- int result = 1;
- result = prime * result + ((age == null) ? 0 : age.hashCode());
- result = prime * result + ((name == null) ? 0 : name.hashCode());
- result = prime * result + ((sex == null) ? 0 : sex.hashCode());
- return result;
- }
- @Override
- public boolean equals(Object obj) {
- if (this == obj)
- return true;
- if (obj == null)
- return false;
- if (getClass() != obj.getClass())
- return false;
- PersonWritable other = (PersonWritable) obj;
- if (age == null) {
- if (other.age != null)
- return false;
- } else if (!age.equals(other.age))
- return false;
- if (name == null) {
- if (other.name != null)
- return false;
- } else if (!name.equals(other.name))
- return false;
- if (sex == null) {
- if (other.sex != null)
- return false;
- } else if (!sex.equals(other.sex))
- return false;
- return true;
- }
- @Override
- public void readFields(DataInput arg0) throws IOException {
- name.readFields(arg0);
- sex.readFields(arg0);
- age.readFields(arg0);
- }
- @Override
- public void write(DataOutput arg0) throws IOException {
- name.write(arg0);
- sex.write(arg0);
- age.write(arg0);
- }
- @Override
- public int compareTo(PersonWritable o) {
- int result = name.compareTo(o.name);
- if (result != 0) {
- return result;
- }
- int result1 = sex.compareTo(o.sex);
- if (result1 != 0) {
- return result1;
- }
- int result2 = age.compareTo(o.age);
- if (result2 != 0) {
- return result2;
- }
- return result2;
- }
- }
序列化与反序列化话工具类;
- package com.test.myselfwritable;
- import java.io.ByteArrayInputStream;
- import java.io.ByteArrayOutputStream;
- import java.io.DataInputStream;
- import java.io.DataOutputStream;
- import java.io.IOException;
- import org.apache.hadoop.io.Writable;
- public class HadoopSerializationUtil {
- public static byte[] serialize(Writable writable) throws IOException {
- // create bytes ByteArrayOutputStream
- ByteArrayOutputStream out = new ByteArrayOutputStream();
- // create DataOutputStream
- DataOutputStream dataout = new DataOutputStream(out);
- // call write method
- writable.write(dataout);
- dataout.close();
- // bytes
- return out.toByteArray();
- }
- public static void deserialize(Writable writable, byte[] bytes)
- throws Exception {
- // create ByteArrayInputStream
- ByteArrayInputStream in = new ByteArrayInputStream(bytes);
- // create DataInputStream
- DataInputStream datain = new DataInputStream(in);
- // read fields
- writable.readFields(datain);
- datain.close();
- }
- }
测试类:
- package com.test;
- import java.io.IOException;
- import org.apache.hadoop.util.StringUtils;
- import com.test.myselfwritable.HadoopSerializationUtil;
- public class Test {
- public static void main(String[] args) throws Exception {
- // test serilizable
- System.out.println("test1");
- PersonWritable personWritable = new PersonWritable("tom", "man", 13);
- // begin serialztion
- byte[] result = HadoopSerializationUtil.serialize(personWritable);
- System.out.print(StringUtils.byteToHexString(result));
- System.out.println("test2");
- PersonWritable personWritable1 = new PersonWritable();
- HadoopSerializationUtil.deserialize(personWritable1, result);
- System.out.print(personWritable1.toString());
- }
- }
内容来源:
《Hadoop 技术内幕》
Hadoop--序列化的更多相关文章
- Hadoop阅读笔记(六)——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
- Hadoop序列化
遗留问题: Hadoop序列化可以复用对象,是在哪里复用的? 介绍Hadoop序列化机制 Hadoop序列化机制详解 Hadoop序列化的核心 Hadoop序列化的比较接口 ObjectWrita ...
- hadoop序列化机制与java序列化机制对比
1.采用的方法: java序列化机制采用的ObjectOutputStream 对象上调用writeObject() 方法: Hadoop 序列化机制调用对象的write() 方法,带一个DataOu ...
- Hadoop序列化与Java序列化
序列化就是把内存中的对象的状态信息转换成字节序列,以便于存储(持久化)和网络传输 反序列化就是就将收到的字节序列或者是硬盘的持久化数据,转换成内存中的对象. 1.JDK的序列化 只要实现了serial ...
- 自定义排序及Hadoop序列化
自定义排序 将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...
- Hadoop序列化机制及实例
序列化 1.什么是序列化?将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程.2.什么是反序列化?将字节流转换为一系列结构化对象的过程.序列化用途: 1.作为一种持久化格式. 2.作为一种 ...
- Hadoop序列化与Writable接口(二)
Hadoop序列化与Writable接口(二) 上一篇文章Hadoop序列化与Writable接口(一)介绍了Hadoop序列化,Hadoop Writable接口以及如何定制自己的Writable类 ...
- Hadoop序列化与Writable接口(一)
Hadoop序列化与Writable接口(一) 序列化 序列化(serialization)是指将结构化的对象转化为字节流,以便在网络上传输或者写入到硬盘进行永久存储:相对的反序列化(deserial ...
- Hadoop Serialization(third edition)hadoop序列化详解(最新版) (1)
初学java的人肯定对java序列化记忆犹新.最开始很多人并不会一下子理解序列化的意义所在.这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发 ...
- Hadoop Serialization hadoop序列化详解(最新版) (1)【java和hadoop序列化比较和writable接口】
初学java的人肯定对java序列化记忆犹新.最开始很多人并不会一下子理解序列化的意义所在.这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发 ...
随机推荐
- solrCloud+tomcat+zookeeper配置
一.环境准备: Solr版本:4.7.0 下载地址:http://www.apache.org/dyn/closer.cgi/lucene/solr/4.7.0 Tomcat版本:6.0.39 下载地 ...
- 转:CSS选择器笔记
作者: 阮一峰 日期: 2009年3月12日 去年我学jQuery的时候,曾经做过一点选择器(selector)的笔记. 这几天拿出来看了一下,发现很多都忘记了.所以,我决定把它们贴在这里,方便以后查 ...
- nginx sendfile tcp_nopush tcp_nodelay参数解释
sendfile 现在流行的web 服务器里面都提供 sendfile 选项用来提高服务器性能,那到底 sendfile是什么,怎么影响性能的呢?sendfile实际上是 Linux2.0+以后的推出 ...
- MySQL具体解释(5)-----------函数超全总结
mysql函数大全 对于针对字符串位置的操作.第一个位置被标记为1. ASCII(str) 返回字符串str的最左面字符的ASCII代码值. 假设str是空字符串,返回0.假设str是NULL,返 ...
- 46黑名单显示的bug---(优化ListView)convertView复用带来的问题
是这种需求: 在黑名单的列表中前三个显示特殊的颜色,后面的列表显示其它的颜色,如图: 可是当翻到第二屏的时候.我们发现了: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkb ...
- Ajax的三种实现及JSON解析
本文为学习笔记,属新手文章,欢迎指教!! 本文主要是比较三种实现Ajax的方式,为以后的学习开个头. 准备: 1. prototype.js 2. jquery1.3.2.min.js 3. j ...
- 《Python简明教程》总结
Python经典教程<Python简明教程> 目录: 为什么Python 安装Python 体验Python Python数据类型 运算符与表达式 控制流 函数 模块 数据结构 解决问题 ...
- Java8 Lamdba表达式 001
在一个已经存在的编程语言里非常少有对现有的生态系统起重大影响的新特性.Lambda表达式对于Java语言就是这样的意义的存在.简单来说,Lambda表达式提供了便利的方式去创建一个匿名的功能.提供了一 ...
- RAC 11.2.0.4 安装 遇到 INS-06001
今天安装11.2.0.4的grid软件,在配置passwordless SSH的时候,点击setup 出现此错误 开始网上搜了一把.说什么的都有,什么系统bug啊什么的 但是我另外一套rac却很正常就 ...
- 基于visual Studio2013解决面试题之1102合并字符串
题目