Protobuf学习 - 入门
古之立大事者,不惟有超世之才,亦必有坚忍不拔之志
-- 苏轼·《晁错论》
从公司的项目源码中看到了这个东西,觉得挺好用的,写篇博客做下小总结。下面的操作以C++为编程语言,protoc的版本为libprotoc 3.2.0。
一、Protobuf?
1. 是什么?
Google Protocol Buffer(简称 Protobuf)是一种轻便高效的结构化数据存储格式,平台无关、语言无关、可扩展,可用于通讯协议和数据存储等领域。
2. 为什么要用?
- 平台无关,语言无关,可扩展;
- 提供了友好的动态库,使用简单;
- 解析速度快,比对应的XML快约20-100倍;
- 序列化数据非常简洁、紧凑,与XML相比,其序列化之后的数据量约为1/3到1/10。
3. 怎么安装?
源码下载地址: https://github.com/google/protobuf
安装依赖的库: autoconf automake libtool curl make g++ unzip
安装:
1 $ ./autogen.sh
$ ./configure
$ make
$ make check
$ sudo make install
二、怎么用?
1. 编写proto文件
首先需要一个proto文件,其中定义了我们程序中需要处理的结构化数据:
// Filename: addressbook.proto syntax="proto2";
package addressbook; import "src/help.proto"; //举例用,编译时去掉 message Person {
required string name = ;
required int32 id = ;
optional string email = ; enum PhoneType {
MOBILE = ;
HOME = ;
WORK = ;
} message PhoneNumber {
required string number = ;
optional PhoneType type = [default = HOME];
} repeated PhoneNumber phone = ;
} message AddressBook {
repeated Person person_info = ;
}
2. 代码解释
// Filename: addressbook.proto 这一行是注释,语法类似于C++
syntax="proto2"; 表明使用protobuf的编译器版本为v2,目前最新的版本为v3
package addressbook; 声明了一个包名,用来防止不同的消息类型命名冲突,类似于 namespace
import "src/help.proto"; 导入了一个外部proto文件中的定义,类似于C++中的 include 。不过好像只能import当前目录及当前目录的子目录中的proto文件,比如import父目录中的文件时编译会报错(Import "../xxxx.proto" was not found or had errors.),使用绝对路径也不行,尚不清楚原因,官方文档说使用 -I=PATH 或者 --proto_path=PATH 来指定import目录,但实际实验结果表明这两种方式指定的是将要编译的proto文件所在的目录,而不是import的文件所在的目录。(哪位大神若清楚还请不吝赐教!)
message 是Protobuf中的结构化数据,类似于C++中的类,可以在其中定义需要处理的数据
required string name = ; 声明了一个名为name,数据类型为string的required字段,字段的标识号为1
protobuf一共有三个字段修饰符:
- required:该值是必须要设置的;
- optional :该字段可以有0个或1个值(不超过1个);
- repeated:该字段可以重复任意多次(包括0次),类似于C++中的list;
使用建议:除非确定某个字段一定会被设值,否则使用optional代替required。
string 是一种标量类型,protobuf的所有标量类型请参考文末的标量类型列表。
name 是字段名,1 是字段的标识号,在消息定义中,每个字段都有唯一的一个数字标识号,这些标识号是用来在消息的二进制格式中识别各个字段的,一旦开始使用就不能够再改变。
标识号的范围在:1 ~ 229 - 1,其中[19000-19999]为Protobuf预留,不能使用。
Person 内部声明了一个enum和一个message,这类似于C++中的类内声明,Person外部的结构可以用 Person.PhoneType 的方式来使用PhoneType。当使用外部package中的结构时,要使用 pkgName.msgName.typeName 的格式,每两层之间使用'.'来连接,类似C++中的"::"。
optional PhoneType type = [default = HOME]; 为type字段指定了一个默认值,当没有为type设值时,其值为HOME。
另外,一个proto文件中可以声明多个message,在编译的时候他们会被编译成为不同的类。
3. 生成C++文件
protoc是proto文件的编译器,目前可以将proto文件编译成C++、Java、Python三种代码文件,编译格式如下:
protoc -I=$SRC_DIR --cpp_out=$DST_DIR /path/to/file.proto
上面的命令会生成xxx.pb.h 和 xxx.pb.cc两个C++文件。
4. 使用C++文件
现在编写一个main.cc文件:
#include <iostream>
#include "addressbook.pb.h" int main(int argc, const char* argv[])
{
addressbook::AddressBook person;
addressbook::Person* pi = person.add_person_info(); pi->set_name("aut");
pi->set_id();
std::cout << "before clear(), id = " << pi->id() << std::endl;
pi->clear_id();
std::cout << "after clear(), id = " << pi->id() << std::endl;
pi->set_id();
if (!pi->has_email())
pi->set_email("autyinjing@126.com"); addressbook::Person::PhoneNumber* pn = pi->add_phone();
pn->set_number("021-8888-8888");
pn = pi->add_phone();
pn->set_number("138-8888-8888");
pn->set_type(addressbook::Person::MOBILE); uint32_t size = person.ByteSize();
unsigned char byteArray[size];
person.SerializeToArray(byteArray, size); addressbook::AddressBook help_person;
help_person.ParseFromArray(byteArray, size);
addressbook::Person help_pi = help_person.person_info(); std::cout << "*****************************" << std::endl;
std::cout << "id: " << help_pi.id() << std::endl;
std::cout << "name: " << help_pi.name() << std::endl;
std::cout << "email: " << help_pi.email() << std::endl; for (int i = ; i < help_pi.phone_size(); ++i)
{
auto help_pn = help_pi.mutable_phone(i);
std::cout << "phone_type: " << help_pn->type() << std::endl;
std::cout << "phone_number: " << help_pn->number() << std::endl;
}
std::cout << "*****************************" << std::endl; return ;
}
5. 常用API
protoc为message的每个required字段和optional字段都定义了以下几个函数(不限于这几个):
TypeName xxx() const; //获取字段的值
bool has_xxx(); //判断是否设值
void set_xxx(const TypeName&); //设值
void clear_xxx(); //使其变为默认值
为每个repeated字段定义了以下几个:
TypeName* add_xxx(); //增加结点
TypeName xxx(int) const; //获取指定序号的结点,类似于C++的"[]"运算符
TypeName* mutable_xxx(int); //类似于上一个,但是获取的是指针
int xxx_size(); //获取结点的数量
另外,下面几个是常用的序列化函数:
bool SerializeToOstream(std::ostream * output) const; //输出到输出流中
bool SerializeToString(string * output) const; //输出到string
bool SerializeToArray(void * data, int size) const; //输出到字节流
与之对应的反序列化函数:
bool ParseFromIstream(std::istream * input); //从输入流解析
bool ParseFromString(const string & data); //从string解析
bool ParseFromArray(const void * data, int size); //从字节流解析
其他常用的函数:
bool IsInitialized(); //检查是否所有required字段都被设值
size_t ByteSize() const; //获取二进制字节序的大小
官方API文档地址: https://developers.google.com/protocol-buffers/docs/reference/overview
6. 编译生成可执行代码
编译格式和普通的C++代码一样,但是要加上 -lprotobuf -pthread
g++ main.cc xxx.pb.cc -I $INCLUDE_PATH -L $LIB_PATH -lprotobuf -pthread
7. 输出结果
before clear(), id =
after clear(), id =
*****************************
id:
name: aut
email: autyinjing@.com
phone_type:
phone_number: --
phone_type:
phone_number: --
*****************************
三、怎么编码的?
protobuf之所以小且快,就是因为使用变长的编码规则,只保存有用的信息,节省了大量空间。
1. Base-128变长编码
- 每个字节使用低7位表示数字,除了最后一个字节,其他字节的最高位都设置为1;
- 采用Little-Endian字节序。
示例:
-数字1: -数字300: ->
->
-> + + + =
2. ZigZag编码
Base-128变长编码会去掉整数前面那些没用的0,只保留低位的有效位,然而负数的补码表示有很多的1,所以protobuf先用ZigZag编码将所有的数值映射为无符号数,然后使用Base-128编码,ZigZag的编码规则如下:
(n << ) ^ (n >> ) or (n << ) ^ (n >> )
负数右移后高位全变成1,再与左移一位后的值进行异或,就把高位那些无用的1全部变成0了,巧妙!
3. 消息格式
每一个Protocol Buffers的Message包含一系列的字段(key/value),每个字段由字段头(key)和字段体(value)组成,字段头由一个变长32位整数表示,字段体由具体的数据结构和数据类型决定。
字段头格式:
(field_number << ) | wire_type
-field_number:字段序号
-wire_type:字段编码类型
4. 字段编码类型
Type | Meaning | Used For |
0 | Varint | int32, int64, uint32, uint64, sint32, sint64, bool, enum |
1 | 64-bit | fixed64, sfixed64, double |
2 | Length-delimited | string, bytes, embedded messages(嵌套message), packed repeated fields |
3 | Start group | groups (废弃) |
4 | End group | groups (废弃) |
5 | 32-bit | fixed32, sfixed32, float |
5. 编码示例(下面的编码以16进制表示)
示例1(整数)
message Test1 {
required int32 a = ;
}
a = 时编码如下 : << |
: ->
->
-> 示例2(字符串)
message Test2 {
required string b = ;
}
b = "testing" 时编码如下
6e
: << |
: 字符串长度
6e
-> t e s t i n g 示例3(嵌套)
message Test3 {
required Test1 c = ;
}
c.a = 时编码如下
1a
1a: << |
: 嵌套结构长度 ->Test1 { a = } 示例4(可选字段)
message Test4 {
required int32 a = ;
optional string b = ;
}
a = , b不设值时编码如下 -> { a = } a = , b = "aut" 时编码如下 -> { a = }
: << |
: 字符串长度 -> a u t 示例5(重复字段)
message Test5 {
required int32 a = ;
repeated string b = ;
}
a = , b = {"aut", "honey"} 时编码如下
6f 6e
-> { a = }
: << |
: strlen("aut")
-> a u t
: << |
: strlen("honey")
6f 6e -> h o n e y a = , b = "aut" 时编码如下 -> { a = }
: << |
: strlen("aut")
-> a u t 示例6(字段顺序)
message Test6 {
required int32 a = ;
required string b = ;
}
a = , b = "aut" 时,无论a和b谁的声明在前面,编码都如下 -> { a = }
-> { b = "aut" }
四、还有什么?
1. 编码风格
- 花括号的使用(参考上面的proto文件)
- 数据类型使用驼峰命名法:AddressBook, PhoneType
- 字段名小写并使用下划线连接:person_info, email_addr
- 枚举量使用大写并用下划线连接:FIRST_VALUE, SECOND_VALUE
2. 适用场景
"Protocol Buffers are not designed to handle large messages."。protobuf对于1M以下的message有很高的效率,但是当message是大于1M的大块数据时,protobuf的表现不是很好,请合理使用。
总结:本文介绍了protobuf的基本使用方法和编码规则,还有很多内容尚未涉及,比如:反射机制、扩展、Oneof、RPC等等,更多内容需参考官方文档。
标量类型列表
proto类型 | C++类型 | 备注 |
double | double | |
float | float | |
int32 | int32 | 使用可变长编码,编码负数时不够高效——如果字段可能含有负数,请使用sint32 |
int64 | int64 | 使用可变长编码,编码负数时不够高效——如果字段可能含有负数,请使用sint64 |
uint32 | uint32 | 使用可变长编码 |
uint64 | uint64 | 使用可变长编码 |
sint32 | int32 | 使用可变长编码,有符号的整型值,编码时比通常的int32高效 |
sint64 | int64 | 使用可变长编码,有符号的整型值,编码时比通常的int64高效 |
fixed32 | uint32 | 总是4个字节,如果数值总是比总是比228大的话,这个类型会比uint32高效 |
fixed64 | uint64 | 总是8个字节,如果数值总是比总是比256大的话,这个类型会比uint64高效 |
sfixed32 | int32 | 总是4个字节 |
sfixed64 | int64 | 总是8个字节 |
bool | bool | |
string | string | 一个字符串必须是UTF-8编码或者7-bit ASCII编码的文本 |
bytes | string | 可能包含任意顺序的字节数据 |
参考资料
1. Protocol Buffers Developer Guide
2. Google Protocol Buffer 的使用和原理
3. 浅谈几种序列化协议
4. 序列化和反序列化
5. Protobuf使用手册
(本文完)
Protobuf学习 - 入门的更多相关文章
- Protobuf学习 - 入门(转)
从公司的项目源码中看到了这个东西,觉得挺好用的,写篇博客做下小总结.下面的操作以C++为编程语言,protoc的版本为libprotoc 3.2.0. 一.Protobuf? 1. 是什么? Goo ...
- 每天成长一点---WEB前端学习入门笔记
WEB前端学习入门笔记 从今天开始,本人就要学习WEB前端了. 经过老师的建议,说到他每天都会记录下来新的知识点,每天都是在围绕着这些问题来度过,很有必要每天抽出半个小时来写一个知识总结,及时对一天工 ...
- C# BackgroundWorker组件学习入门介绍
C# BackgroundWorker组件学习入门介绍 一个程序中需要进行大量的运算,并且需要在运算过程中支持用户一定的交互,为了获得更好的用户体验,使用BackgroundWorker来完成这一功能 ...
- 给深度学习入门者的Python快速教程 - 番外篇之Python-OpenCV
这次博客园的排版彻底残了..高清版请移步: https://zhuanlan.zhihu.com/p/24425116 本篇是前面两篇教程: 给深度学习入门者的Python快速教程 - 基础篇 给深度 ...
- 给深度学习入门者的Python快速教程 - numpy和Matplotlib篇
始终无法有效把word排版好的粘贴过来,排版更佳版本请见知乎文章: https://zhuanlan.zhihu.com/p/24309547 实在搞不定博客园的排版,排版更佳的版本在: 给深度学习入 ...
- UML学习入门就这一篇文章
1.1 UML基础知识扫盲 UML这三个字母的全称是Unified Modeling Language,直接翻译就是统一建模语言,简单地说就是一种有特殊用途的语言. 你可能会问:这明明是一种图形,为什 ...
- Stanford Parser学习入门(2)-命令行运行
在Stanford parser目录中已经定义了一部分命令行工具以及图形界面,本文将介绍如何在windows使用这些工具进行语法分析,Linux下也有shell可以使用. 关于如何搭建环境请参考上一篇 ...
- Python学习入门基础教程(learning Python)--5.6 Python读文件操作高级
前文5.2节和5.4节分别就Python下读文件操作做了基础性讲述和提升性介绍,但是仍有些问题,比如在5.4节里涉及到一个多次读文件的问题,实际上我们还没有完全阐述完毕,下面这个图片的问题在哪呢? 问 ...
- 深度学习入门实战(二)-用TensorFlow训练线性回归
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :董超 上一篇文章我们介绍了 MxNet 的安装,但 MxNet 有个缺点,那就是文档不太全,用起来可能 ...
随机推荐
- MySQL的"旁门左道"用法总结
不断更新. 一.显示当前MySQL服务的版本:1是直接在查询窗口select version();2是show variables like 'version';
- 读书笔记--用Python写网络爬虫02--数据抓取
抓取(scraping)---爬虫从网页中抽取一些数据用以实现某些用途. 三种抽取网页数据的方法:正则表达式.Beautiful Soup和lxml. 2.1 分析网页 通过浏览器自带选项,查看网页源 ...
- php模式设计之 策略模式
策略模式: 策略模式设计帮助构建的对象不必自身包含逻辑,而是能够根据需要利用其他对象中的算法. 使用场景: 例如有一个CD类,我们类存储了CD的信息. 原先的时候,我们在CD类中直接调用getCD方法 ...
- thinkPHP 模板中变量的使用
一.变量输出 1.标量输出(普通) 2.数组输出 {$name[1]} {$name['k2'] ...
- CentOS 7 安装 JDK
1. 卸载旧版 1.1. 查看版本信息 java -version 1.2. 查看JDK信息 rpm -qa | grep java 1.3. 卸载 rpm -e --nodeps tzdata-ja ...
- redhat6 + 11G DG部署
在主库中netca配置 [oracle@HE3dbs]$ cat /u01/app/oracle/product/11gr2/db_1/network/admin/listener.ora #list ...
- Java Web快速入门——全十讲
Java Web快速入门——全十讲 这是一次培训的讲义,就是我在给学生讲的过程中记录下来的,非常完整,原来发表在Blog上,我感觉这里的学生可能更需要. 内容比较长,你可以先收藏起来,慢慢看. 第一讲 ...
- SQL查询今天、昨天、7天内、30天
今天的所有数据:select * from 表名 where DateDiff(dd,datetime类型字段,getdate())=0 昨天的所有数据:select * from 表名 where ...
- Apache的.htaccess到Nginx的转换
今天项目要求从Apache转到Nginx,遇到了要将原来的rewrite规则移过来的问题,找了半天资源,居然有一个转换工具,地址如下: http://www.anilcetin.com/convert ...
- AtomicInteger相关类
引用地址:http://blog.csdn.net/xh16319/article/details/17056767 在java6以后我们不但接触到了Lock相关的锁,也接触到了很多更加乐观的原子修改 ...