Apache Avro总结

参考

原始类型（Primitive Types）

类型名	描述	描述	二进制编码（Binary Encoding）	排序（Sort Order）
null	空	no value	0字节(zero bytes)	总是相等
boolean	布尔值(0或1)	a binary value	1字节，值是0(false)或者1(true)	false在前，true在后
int	32位有符号整数	32-bit signed integer	使用可变长度编码(variable-length)、zig-zag编码	按数值升序排列
long	64位有符号整数	64-bit signed integer	使用可变长度编码(variable-length)、zig-zag编码	按数值升序排列
float	单精度（32位）的IEEE 754浮点数	single precision (32-bit) IEEE 754 floating-point number	4字节，float浮点数会被转换成32位的整数，等价于 Java's floatToIntBits	按数值升序排列
double	双精度（64位）的IEEE 754浮点数	double precision (64-bit) IEEE 754 floating-point number	8字节，double浮点数会被转换成64位的整数，等价于 Java's doubleToLongBits	按数值升序排列
bytes	8位无符号字节序列	sequence of 8-bit unsigned bytes	编码成long类型，后面跟着很多字节的数据。	按字典顺序通过无符号8位值进行比较。
string	字符串	unicode character sequence	编码成long类型，后面跟着很多字节的UTF-8编码的字符数据。	按字典顺序由Unicode代码点进行比较。由于UTF-8用作字符串的二进制编码，因此字节和字符串二进制数据的排序是相同的。

复杂类型（Complex Types）

类型名	描述	样例	二进制编码（Binary Encoding）	排序（Sort Order）
Records	记录	{ "type": "record", "name": "LongList", "aliases": ["LinkedLongs"], // old name for this "fields" : [ {"name": "value", "type": "long"}, // each element has a long {"name": "next", "type": ["null", "LongList"]} // optional next element ] }	记录通过模式里面声明的字段顺序编码，换句话说，记录被编码成它的字段编码的连接。字段值按它的模式编码。	记录数据按字段的字典顺序排序。如果字段指定其顺序为： “升序”，然后其值的顺序不变。 “降序”，然后其值的顺序颠倒过来。 “忽略”，然后在排序时忽略其值。
Enums	枚举	{ "type": "enum", "name": "Suit", "symbols" : ["SPADES", "HEARTS", "DIAMONDS", "CLUBS"] }	枚举由int编码，表示模式中符号从零开始的位置。	按符号在枚举模式中的位置排序
Arrays	数组	{"type": "array", "items": "string"}	数组被编码为一系列块(block)。每个块包含一个长整数的计数，后跟许多数组项。计数为零的块表示数组的结束。每个元素都按照数组的模式进行编码。	按字典顺序进行元素比较。
Maps	映射（字典）	{"type": "map", "values": "long"}	映射被编码为一系列块(block)。每个块由一个长整数的计数，后跟许多键/值对。计数为零的块表示映射的结束。每个元素都按照映射的模式进行编码。	无法比较。
Unions	联合类型	即值可以是类型列表中的一种类型 ["null", "string"]表示模式可以是null或者string	通过首先写入一个long值来编码union，该值指示其值的模式的并集内的从零开始的位置。然后根据联合中指示的模式对该值进行编码。	union数据首先由union中的分支排序，并且在其中由分支的类型排序。例如，[“int”，“string”] union将在所有字符串值之前对所有int值进行排序，其中int和字符串本身按上面的定义排序。
Fixed	固定大小	{"type": "fixed", "size": 16, "name": "md5"}	使用模式中声明的字节数对固定实例进行编码。	按字典顺序通过无符号8位值进行比较。

编码（Encodings）：

Avro指定了两种序列化编码：二进制和JSON。大多数应用程序将使用二进制编码，因为它更小更快。但是，对于调试和基于Web的应用程序，JSON编码有时可能是合适的。

Apache Avro总结的更多相关文章

java.lang.NoClassDefFoundError: org/apache/avro/ipc/Responder
文章发自:http://www.cnblogs.com/hark0623/p/4170174.html 转发请注明 java.lang.NoClassDefFoundError: org/a ...
Apache Avro 与 Thrift 比较
http://www.tbdata.org/archives/1307 Avro和Thrift都是跨语言,基于二进制的高性能的通讯中间件. 它们都提供了数据序列化的功能和RPC服务. 总体功能上类似, ...
Apache Avro# 1.8.2 Specification （Avro 1.8.2规范）二
h5 { text-indent: 0.71cm; margin-top: 0.49cm; margin-bottom: 0.51cm; direction: ltr; color: #000000; ...
Apache Avro# 1.8.2 Specification （Avro 1.8.2规范）一
h4 { text-indent: 0.71cm; margin-top: 0.49cm; margin-bottom: 0.51cm; direction: ltr; color: #000000; ...
异常-CDH的service无法启动并抛出异常-org.apache.avro.AvroRemoteException: java.net.ConnectException: Connection refused (Connection refused)
1 详细异常 org.apache.avro.AvroRemoteException: java.net.ConnectException: Connection refused (Connectio ...
Hadoop基础-Apache Avro串行化的与反串行化
Hadoop基础-Apache Avro串行化的与反串行化作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Apache Avro简介 1>.Apache Avro的来源 ...
Apache Avro:一个新的数据交换格式
原文: http://blog.cloudera.com/blog/2009/11/avro-a-new-format-for-data-interchange/ 注:由于个人英语能力有限,翻译不准确 ...
Hadoop-异常-Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/avro/io/DatumReader
//maven org.apache.avr 下载不完全 ,去maven If you are using maven to build your jar, you need to add the ...
Apache Avro & Avro Schema简介
为什么需要schema registry? 首先我们知道: Kafka将字节作为输入并发布没有数据验证但是: 如果Producer发送了bad data怎么办? 如果字段被重命名怎么办? 如果数据 ...

随机推荐

JVM 面试题汇总
JVM 面试题汇总 1.什么是 JVM?它有什么作用? 答:JVM 是 Java Virtual Machine(Java 虚拟机)的缩写,顾名思义它是一个虚拟计算机,也是 Java 程序能够实现跨平 ...
Windows10怎么用Administrator登录？
1.首先按下快捷键win+X键, 2.然后在命令提示符中输入命令“net user administrator /active:yes”后回车 3.此时administrator管理员账户已开启,点击 ...
C语言系列之实验楼笔记（一）
创建C程序的几个过程: 1.编辑:创建和修改C程序的源代码 2.编译:编译器可以将源代码转成机器语言.linux 这些文件扩展名.o 3.链接:通过一次完成编译和链接 4.执行;运行程序打开xfce ...
jmeter性能测试2：基础功能介绍
对于英语不好的同学建议先改为简体中文再进行使用 1.添加->threads->线程组(控制总体并发) 线程数:虚拟用户数.一个虚拟用户占用一个进程或线程 ...
接口自动化CSV文件生成超长随机字符串--java接口方法
public class STR { private static String Builderrud(int a){ StringBuilder builder= new StringBuilder ...
Cheat sheet PySpark SQL Python（PySpark 速查表）
HDU_4403
http://acm.hdu.edu.cn/showproblem.php?pid=4403 数值不大,暴力枚举,枚举每一种划分,然后枚举每一种等号位置. #include<iostream&g ...
JMeter+Grafana+Influxdb搭建可视化性能测试监控平台（待继续完善。。。）
influxdb下载.安装.配置.启动 InfluxDB是一个当下比较流行的时序数据库,InfluxDB使用 Go 语言编写,无需外部依赖,安装配置非常方便,适合构建大型分布式系统的监控系统. 下载: ...
Elasticsearch原理学习--为什么Elasticsearch/Lucene检索可以比MySQL快?
转载于:http://vlambda.com/wz_wvS2uI5VRn.html 同样都可以对数据构建索引并通过索引查询数据,为什么Lucene或基于Lucene的Elasticsearch会比关系 ...
持续化运维 DevOps
DevOps(Development和Operations的组合词)是一组过程.方法与系统的统称,用于促进开发(应用程序/软件工程).技术运营和质量保障(QA)部门之间的沟通.协作与整 ...

Apache Avro总结

Apache Avro总结的更多相关文章

随机推荐

热门专题