Protobuf学习

　　古之立大事者，不惟有超世之才，亦必有坚忍不拔之志

　　　　　　　　　　　　　　　　　　　　　　　　　-- 苏轼·《晁错论》

　　从公司的项目源码中看到了这个东西，觉得挺好用的，写篇博客做下小总结。下面的操作以C++为编程语言，protoc的版本为libprotoc 3.2.0。

一、Protobuf？
1. 是什么？
　　Google Protocol Buffer(简称 Protobuf)是一种轻便高效的结构化数据存储格式，平台无关、语言无关、可扩展，可用于通讯协议和数据存储等领域。

2. 为什么要用？
　　- 平台无关，语言无关，可扩展；
　　- 提供了友好的动态库，使用简单；
　　- 解析速度快，比对应的XML快约20-100倍；
　　- 序列化数据非常简洁、紧凑，与XML相比，其序列化之后的数据量约为1/3到1/10。

3. 怎么安装？
　　源码下载地址： https://github.com/google/protobuf
　　安装依赖的库： autoconf automake libtool curl make g++ unzip
安装：

1 $ ./autogen.sh

 $ ./configure

 $ make

 $ make check

 $ sudo make install

二、怎么用？
1. 编写proto文件
　　首先需要一个proto文件，其中定义了我们程序中需要处理的结构化数据：

 // Filename: addressbook.proto

 syntax="proto2";

 package addressbook;

 import "src/help.proto";      //举例用，编译时去掉

 message Person {

     required string name = ;

     required int32 id = ;

     optional string email = ;

     enum PhoneType {

         MOBILE = ;

         HOME = ;

         WORK = ;

     }

     message PhoneNumber {

         required string number = ;

         optional PhoneType type =  [default = HOME];

     }

     repeated PhoneNumber phone = ;

 }

 message AddressBook {

     repeated Person person_info = ;

 }

2. 代码解释

// Filename: addressbook.proto 这一行是注释，语法类似于C++
syntax="proto2"; 表明使用protobuf的编译器版本为v2，目前最新的版本为v3
package addressbook; 声明了一个包名，用来防止不同的消息类型命名冲突，类似于 namespace
import "src/help.proto"; 导入了一个外部proto文件中的定义，类似于C++中的 include 。不过好像只能import当前目录及当前目录的子目录中的proto文件，比如import父目录中的文件时编译会报错（Import "../xxxx.proto" was not found or had errors.），使用绝对路径也不行，尚不清楚原因，官方文档说使用 -I=PATH 或者 --proto_path=PATH 来指定import目录，但实际实验结果表明这两种方式指定的是将要编译的proto文件所在的目录，而不是import的文件所在的目录。（哪位大神若清楚还请不吝赐教！）
message 是Protobuf中的结构化数据，类似于C++中的类，可以在其中定义需要处理的数据
required string name = ; 声明了一个名为name，数据类型为string的required字段，字段的标识号为1
protobuf一共有三个字段修饰符：
　　- required：该值是必须要设置的；
　　- optional ：该字段可以有0个或1个值（不超过1个）；
　　- repeated：该字段可以重复任意多次（包括0次），类似于C++中的list；

使用建议：除非确定某个字段一定会被设值，否则使用optional代替required。
string 是一种标量类型，protobuf的所有标量类型请参考文末的标量类型列表。
name 是字段名，1 是字段的标识号，在消息定义中，每个字段都有唯一的一个数字标识号，这些标识号是用来在消息的二进制格式中识别各个字段的，一旦开始使用就不能够再改变。
标识号的范围在：1 ~ 2²⁹ - 1，其中[19000－19999]为Protobuf预留，不能使用。
Person 内部声明了一个enum和一个message，这类似于C++中的类内声明，Person外部的结构可以用 Person.PhoneType 的方式来使用PhoneType。当使用外部package中的结构时，要使用 pkgName.msgName.typeName 的格式，每两层之间使用'.'来连接，类似C++中的"::"。
optional PhoneType type = [default = HOME]; 为type字段指定了一个默认值，当没有为type设值时，其值为HOME。
另外，一个proto文件中可以声明多个message，在编译的时候他们会被编译成为不同的类。

3. 生成C++文件
　　protoc是proto文件的编译器，目前可以将proto文件编译成C++、Java、Python三种代码文件，编译格式如下：

 protoc -I=$SRC_DIR --cpp_out=$DST_DIR /path/to/file.proto

上面的命令会生成xxx.pb.h 和 xxx.pb.cc两个C++文件。

4. 使用C++文件

　　现在编写一个main.cc文件：

 #include <iostream>

 #include "addressbook.pb.h"

 int main(int argc, const char* argv[])

 {

     addressbook::AddressBook person;

     addressbook::Person* pi = person.add_person_info();

     pi->set_name("aut");

     pi->set_id();

     std::cout << "before clear(), id = " << pi->id() << std::endl;

     pi->clear_id();

     std::cout << "after  clear(), id = " << pi->id() << std::endl;

     pi->set_id();

     if (!pi->has_email())

         pi->set_email("autyinjing@126.com");

     addressbook::Person::PhoneNumber* pn = pi->add_phone();

     pn->set_number("021-8888-8888");

     pn = pi->add_phone();

     pn->set_number("138-8888-8888");

     pn->set_type(addressbook::Person::MOBILE);

     uint32_t size = person.ByteSize();

     unsigned char byteArray[size];

     person.SerializeToArray(byteArray, size);

     addressbook::AddressBook help_person;

     help_person.ParseFromArray(byteArray, size);

     addressbook::Person help_pi = help_person.person_info();

     std::cout << "*****************************" << std::endl;

     std::cout << "id:    " << help_pi.id() << std::endl;

     std::cout << "name:  " << help_pi.name() << std::endl;

     std::cout << "email: " << help_pi.email() << std::endl;

     for (int i = ; i < help_pi.phone_size(); ++i)

     {

         auto help_pn = help_pi.mutable_phone(i);

         std::cout << "phone_type: " << help_pn->type() << std::endl;

         std::cout << "phone_number: " << help_pn->number() << std::endl;

     }

     std::cout << "*****************************" << std::endl;

     return ;

 }

5. 常用API

　　protoc为message的每个required字段和optional字段都定义了以下几个函数（不限于这几个）：

 TypeName xxx() const;  　　　　    //获取字段的值

 bool has_xxx();   　　 　　　　    //判断是否设值

 void set_xxx(const TypeName&);   //设值

 void clear_xxx(); 　　 　　　　　　//使其变为默认值

为每个repeated字段定义了以下几个：

 TypeName* add_xxx();        //增加结点

 TypeName xxx(int) const;    //获取指定序号的结点，类似于C++的"[]"运算符

 TypeName* mutable_xxx(int); //类似于上一个，但是获取的是指针

 int xxx_size();         　  //获取结点的数量

另外，下面几个是常用的序列化函数：

 bool SerializeToOstream(std::ostream * output) const; //输出到输出流中

 bool SerializeToString(string * output) const;        //输出到string

 bool SerializeToArray(void * data, int size) const;   //输出到字节流

与之对应的反序列化函数：

 bool ParseFromIstream(std::istream * input); 　　  //从输入流解析

 bool ParseFromString(const string & data);   　　  //从string解析

 bool ParseFromArray(const void * data, int size); //从字节流解析

其他常用的函数：

 bool IsInitialized();    //检查是否所有required字段都被设值

 size_t ByteSize() const; //获取二进制字节序的大小

官方API文档地址： https://developers.google.com/protocol-buffers/docs/reference/overview

6. 编译生成可执行代码

　　编译格式和普通的C++代码一样，但是要加上 -lprotobuf -pthread

 g++ main.cc xxx.pb.cc -I $INCLUDE_PATH -L $LIB_PATH -lprotobuf -pthread

7. 输出结果

 before clear(), id =

 after  clear(), id =

 *****************************

 id:

 name: aut

 email: autyinjing@.com

 phone_type:

 phone_number: --

 phone_type:

 phone_number: --

 *****************************

三、怎么编码的？

　　protobuf之所以小且快，就是因为使用变长的编码规则，只保存有用的信息，节省了大量空间。
1. Base-128变长编码
　　- 每个字节使用低7位表示数字，除了最后一个字节，其他字节的最高位都设置为1；
　　- 采用Little-Endian字节序。

示例：

 -数字1：

 -数字300：

 ->

 ->

 ->  +  +  +  =

2. ZigZag编码

　　Base-128变长编码会去掉整数前面那些没用的0，只保留低位的有效位，然而负数的补码表示有很多的1，所以protobuf先用ZigZag编码将所有的数值映射为无符号数，然后使用Base-128编码，ZigZag的编码规则如下：

 (n << ) ^ (n >> ) or (n << ) ^ (n >> )

负数右移后高位全变成1，再与左移一位后的值进行异或，就把高位那些无用的1全部变成0了，巧妙！

3. 消息格式

　　每一个Protocol Buffers的Message包含一系列的字段（key/value），每个字段由字段头（key）和字段体（value）组成，字段头由一个变长32位整数表示，字段体由具体的数据结构和数据类型决定。
字段头格式：

 (field_number << ) | wire_type

 -field_number：字段序号

 -wire_type：字段编码类型

4. 字段编码类型

Type	Meaning	Used For
0	Varint	int32, int64, uint32, uint64, sint32, sint64, bool, enum
1	64-bit	fixed64, sfixed64, double
2	Length-delimited	string, bytes, embedded messages（嵌套message）, packed repeated fields
3	Start group	groups (废弃)
4	End group	groups (废弃)
5	32-bit	fixed32, sfixed32, float

5. 编码示例（下面的编码以16进制表示）

 示例1（整数）

 message Test1 {

     required int32 a = ;

 }

 a =  时编码如下

 :  <<  |

  :

 ->

 ->

 -> 

 示例2（字符串）

 message Test2 {

     required string b = ;

 }

 b = "testing" 时编码如下

        6e

 :  <<  |

 : 字符串长度

      6e

 -> t e s t i n g

 示例3（嵌套）

 message Test3 {

     required Test1 c = ;

 }

 c.a =  时编码如下

 1a

 1a：  <<  |

 ： 嵌套结构长度

 ->Test1 { a =  }

 示例4（可选字段）

 message Test4 {

     required int32 a = ;

     optional string b = ;

 }

 a = , b不设值时编码如下

 -> { a =  }

 a = , b = "aut" 时编码如下

    -> { a =  }

 ：  <<  |

 ： 字符串长度

 -> a u t

 示例5（重复字段）

 message Test5 {

     required int32 a = ;

     repeated string b = ;

 }

 a = , b = {"aut", "honey"} 时编码如下

            6f 6e

    -> { a =  }

 ：  <<  |

 ： strlen("aut")

    -> a u t

 ：  <<  |

 ： strlen("honey")

  6f 6e   -> h o n e y

 a = , b = "aut" 时编码如下

    -> { a =  }

 ：  <<  |

 ： strlen("aut")

    -> a u t

 示例6（字段顺序）

 message Test6 {

     required int32 a = ;

     required string b = ;

 }

 a = , b = "aut" 时，无论a和b谁的声明在前面，编码都如下

    -> { a =  }

      -> { b = "aut" }

四、还有什么？

1. 编码风格
　　- 花括号的使用(参考上面的proto文件)
　　- 数据类型使用驼峰命名法：AddressBook, PhoneType
　　- 字段名小写并使用下划线连接：person_info, email_addr
　　- 枚举量使用大写并用下划线连接：FIRST_VALUE, SECOND_VALUE

2. 适用场景

　　"Protocol Buffers are not designed to handle large messages."。protobuf对于1M以下的message有很高的效率，但是当message是大于1M的大块数据时，protobuf的表现不是很好，请合理使用。

总结：本文介绍了protobuf的基本使用方法和编码规则，还有很多内容尚未涉及，比如：反射机制、扩展、Oneof、RPC等等，更多内容需参考官方文档。

标量类型列表

proto类型	C++类型	备注
double	double
float	float
int32	int32	使用可变长编码，编码负数时不够高效——如果字段可能含有负数，请使用sint32
int64	int64	使用可变长编码，编码负数时不够高效——如果字段可能含有负数，请使用sint64
uint32	uint32	使用可变长编码
uint64	uint64	使用可变长编码
sint32	int32	使用可变长编码，有符号的整型值，编码时比通常的int32高效
sint64	int64	使用可变长编码，有符号的整型值，编码时比通常的int64高效
fixed32	uint32	总是4个字节，如果数值总是比总是比2²⁸大的话，这个类型会比uint32高效
fixed64	uint64	总是8个字节，如果数值总是比总是比2⁵⁶大的话，这个类型会比uint64高效
sfixed32	int32	总是4个字节
sfixed64	int64	总是8个字节
bool	bool
string	string	一个字符串必须是UTF-8编码或者7-bit ASCII编码的文本
bytes	string	可能包含任意顺序的字节数据

参考资料
1. Protocol Buffers Developer Guide

2. Google Protocol Buffer 的使用和原理

3. 浅谈几种序列化协议

4. 序列化和反序列化

5. Protobuf使用手册

（本文完）

Protobuf学习 - 入门的更多相关文章

Protobuf学习 - 入门（转）
从公司的项目源码中看到了这个东西,觉得挺好用的,写篇博客做下小总结.下面的操作以C++为编程语言,protoc的版本为libprotoc 3.2.0. 一.Protobuf? 1. 是什么? Goo ...
每天成长一点---WEB前端学习入门笔记
WEB前端学习入门笔记从今天开始,本人就要学习WEB前端了. 经过老师的建议,说到他每天都会记录下来新的知识点,每天都是在围绕着这些问题来度过,很有必要每天抽出半个小时来写一个知识总结,及时对一天工 ...
C# BackgroundWorker组件学习入门介绍
C# BackgroundWorker组件学习入门介绍一个程序中需要进行大量的运算,并且需要在运算过程中支持用户一定的交互,为了获得更好的用户体验,使用BackgroundWorker来完成这一功能 ...
给深度学习入门者的Python快速教程 - 番外篇之Python-OpenCV
这次博客园的排版彻底残了..高清版请移步: https://zhuanlan.zhihu.com/p/24425116 本篇是前面两篇教程: 给深度学习入门者的Python快速教程 - 基础篇给深度 ...
给深度学习入门者的Python快速教程 - numpy和Matplotlib篇
始终无法有效把word排版好的粘贴过来,排版更佳版本请见知乎文章: https://zhuanlan.zhihu.com/p/24309547 实在搞不定博客园的排版,排版更佳的版本在: 给深度学习入 ...
UML学习入门就这一篇文章
1.1 UML基础知识扫盲 UML这三个字母的全称是Unified Modeling Language,直接翻译就是统一建模语言,简单地说就是一种有特殊用途的语言. 你可能会问:这明明是一种图形,为什 ...
Stanford Parser学习入门(2)-命令行运行
在Stanford parser目录中已经定义了一部分命令行工具以及图形界面,本文将介绍如何在windows使用这些工具进行语法分析,Linux下也有shell可以使用. 关于如何搭建环境请参考上一篇 ...
Python学习入门基础教程(learning Python)--5.6 Python读文件操作高级
前文5.2节和5.4节分别就Python下读文件操作做了基础性讲述和提升性介绍,但是仍有些问题,比如在5.4节里涉及到一个多次读文件的问题,实际上我们还没有完全阐述完毕,下面这个图片的问题在哪呢? 问 ...
深度学习入门实战（二）-用TensorFlow训练线性回归
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :董超上一篇文章我们介绍了 MxNet 的安装,但 MxNet 有个缺点,那就是文档不太全,用起来可能 ...

随机推荐

UVa 10041 - Vito's Family
题目大意:给出一些点,找到一个位置使这个位置到所有的点的距离的和最短. 很明显,排序,找中位数.关于中位数:有n个从小到大的数,k=(n+1)/2,若n为奇数,k为中位数,若n为偶数,k为中间那两个数 ...
用scala实现一个基于TCP Socket的快速文件传输程序
这是用scala实现的一个简单的文件传输程序. 服务端 package jpush import java.io.{DataInputStream, File, FileOutputStream} i ...
2015年15+最佳的响应式HTML5网站模板
015年最好的免费响应式HTML5模板通常用于创建新潮的网站. HTML5是HTML用于创建现代化网站的最新版本.随着这一现代标记语言的出现,网上冲浪的趋势变得越来越智能化越来越酷.几乎每个web开发 ...
Delphi中String类型原理介绍
Delphi中字符串的操作很简单,但幕后情况却相当复杂.Pascal传统的字符串操作方法与Windows不同,Windows吸取了C语言的字符串操作方法.32位Delphi中增加了长字符串类型,该类型 ...
php生成PDF文件（FPDF）
首先要下载FPDF http://www.fpdf.org/ 附件可以在我的资源里下载http://yunpan.cn/c3RJ5BpPfX6dL 访问密码 f1f2 FPDF文档:http:// ...
EF 4.1 学习资源汇总
微软发布了EF 4.1以后,结合asp.net mvc3,网站的开发可谓是非常方便.但是作为一种新技术,如何开始你的学习之路呢? 首先是关于 EF 4.1的安装和介绍,以及nuget的使用. http ...
开源第三方登录组件OAuthLogin2.0 解析及开源地址
OAuthLogin2.0介绍地址: 博客地址:http://www.cnblogs.com/dazhuangtage/p/6306133.html Nuget地址:https://www.nuget ...
如何让微信小程序快速接入七牛云
如果你确定用七牛运行小程序的话,给大家分享一个九折优惠码:61d1fd4d1 月 9 日微信小程序正式发布,小程序终于揭开了它神秘的面纱,开发者对小程序的追捧更是热度不减.从小程序的热门应用场景来看 ...
[个人翻译]GitHub指导文件（GitHub Guides[Hello World]）
[个人翻译]GitHub指导文件(GitHub Guides[Hello World]) Mirage_j个人翻译,欢迎转载,最好标明出处http://www.cnblogs.com/mirageJ/ ...
Android之Activity系列总结（一）--Activity概览
Activity 本文内容创建 Activity 实现用户界面在清单文件中声明 Activity 启动 Activity 启动 Activity 以获得结果结束 Activity 管理 Acti ...

Protobuf学习 - 入门

Protobuf学习 - 入门的更多相关文章

随机推荐

热门专题