序列化与反序列化深入理解
- 1 介绍
- 1.1 概述
- 1.2 序列化实现的需求
- 2 常用序列化实现
- 函数序列化
- 语言内置
- 开源序列化实现
- 3 各序列化实现比较
- 4 各序列化实现概述
- XML
- JSON
- Protobuf
- Java 内置
- TLV
- VLE(Variable Length Encoding)
- 5 flex & bison
- 5.1 介绍
- 应用
- 解释器
- IDL
- 介绍
- IDL编译器
- 参考
1 介绍
1.1 概述
- 数据传输中,双方交互都需要对数据进行序列化和反序列化。也称为编码和解码。
- 网络传输中,传输数据的基本形式就是二进制流,也就是一段一段的1和0。数据读取形式是字节,也就是Byte。具体粘包拆包后,是按字符串、结构体、JSON还是protobuf等形势序列化,看程序设计。
- 结构化的数据与字节流之间的双向转换,将结构化数据转换成字节流的过程,称为序列化,反过来转换,就是反序列化。序列化的用途除了用于在网络上传输数据以外,另外一个重要用途是,将结构化数据保存在文件中。
- 序列化无处不在:
-
- CPU:数据被序列化成 little endian / big endian
-
- GPU:vertex buffer
-
- 内存:字节流
-
- 磁盘/网络:JSON,YAML,MessagePack,protobuf,FlatBuffer,,以及所有的网络协议
- 磁盘/网络:JSON,YAML,MessagePack,protobuf,FlatBuffer,,以及所有的网络协议
1.2 序列化实现的需求
- 可读性:序列化后的数据最好是易于人类阅读的;
- 复杂度:实现的复杂度是否足够低;
- 性能水平:性能包括两个方面,时间复杂度和空间复杂度。序列化和反序列化的速度越快越好;空间开销(Verbosity)和时间开销(Complexity)都越小越好。
- 信息密度:序列化后的信息密度越大越好,也就是说,同样的一个结构化数据,序列化之后占用的存储空间越小越好;
- 通用性:技术层面,序列化协议是否支持跨平台、跨语言;流行程度,是否被大量使用;
- 健壮性:是否稳定。
2 常用序列化实现
函数序列化
函数之间通过栈来交流:调用者把参数序列化到栈上,被调者将其反序列化出来。
语言内置
Java 和 Go 语言都内置了序列化实现。
Java 语言中提供的 Serializable 接口,此外还有 Android 提供的 Parcelable 接口。
开源序列化实现
Google 的 Protobuf、Kryo、Hessian 等;
此外,像 JSON、XML 这些标准的数据格式,也可以作为一种序列化实现来使用。
3 各序列化实现比较
序列化实现 | 优点 | 缺点 | 备注 |
---|---|---|---|
JSON | 可读性很好,使用简单 | 信息密度很低 | 文本 |
XML | 可读性很好,使用简单 | 信息密度也很低 | 文本,XML 所产生序列化之后文件比JSON大 |
SOAP | 可读性很好,使用简单 | 信息密度也很低 | 文本 |
Kryo | 适用范围广,使用简单 | 信息密度稍高 | 二进制序列化 |
Hessian | 适用范围广,使用简单 | 信息密度稍高 | 二进制序列化 |
protobuf | 信息密度高 | 使用更复杂 | 二进制序列化,可伸缩性的数据类型 |
java | 信息密度高 | 语言内置 | 二进制序列化,数据类型固定长度 |
TLV(Type-Length-Value) | 信息密度较高,容易解析 | 自定义,通用差 | 二进制序列化 |
4 各序列化实现概述
XML
XML 是一种常用的序列化和反序列化协议,具有跨机器,跨语言等优点。
JSON
JSON 起源于弱类型语言 Javascript, 它的产生来自于一种称之为"Associative array"的概念,其本质是就是采用"Attribute-value"的方式来描述对象。实际上在 Javascript 和 PHP 等弱类型语言中,类的描述方式就是 Associative array。
这是因为 JSON 是上下文极其相关的,在上一个 token 解析完成之前,你无法解析下一个 token,所以效率慢。
Protobuf
- 序列化数据非常简洁,紧凑,与 XML 相比,其序列化之后的数据量约为 1/3 到 1/10。
- 解析速度非常快,比对应的 XML 快约 20-100 倍。
- 提供了非常友好的动态库,使用非常简介,反序列化只需要一行代码。
- Protobuf 是非常高效的序列化协议。
- Protobuf 提供了可伸缩性的数据类型(int 1-5字节)。
Java 内置
Java是数据类型固定长度的序列化(int 4字节, long 8字节)。
TLV
TLV: TLV是指由数据的类型Tag,数据的长度Length,数据的值Value组成的结构体,几乎可以描任意数据类型,TLV的Value也可以是一个TLV结构,正因为这种嵌套的特性,可以让我们用来包装协议的实现。
VLE(Variable Length Encoding)
Variable Length Encoding(VLE):Type 的长度和 Length 的长度都是可变的,且最常用的我们用最小的比特位为其序列化。比如 protobuf 就采用了 VLE 的方式。
message Person {
string user_name = 1;
int64 favorite_number = 2;
string interests = 3;
}
因为 protobuf 定义的字段是可选的,所以这里光靠 TLV 还不够,还需要每个字段的 tag,这就是为什么 protobuf 需要为每个字段提供序号,并且序号不可重复:
5 flex & bison
5.1 介绍
Flex and bison就是lex and yacc的升级版。Lex 代表 Lexical Analyzar。Yacc 代表 Yet Another Compiler Compiler。
Flex和bison是两个用来生成程序的工具,它们生成的程序分别叫做词法分析器和语法分析器。
Flex生成的词法分析器将输入拆分成一个个记号(token),bison生成的语法分析器根据已有的规则,分析这些token的组合,是否符合语法规范。
应用
解释器
各行业使用的解释器,如有的协作机械臂图形编程中解释器
IDL
介绍
IDL的全称是Interface Definition Language,即接口定义语言(有时也叫作接口描述语言)。因为RPC通常是跨进程、跨机器、跨系统和跨语言的,IDL是用来解决这个问题的,它与语言无关,借助编译器将它翻译成不同的编程语言。
Google开源的ProtoBuf中的“.proto”文件就是一种IDL文件。
IDL编译器
IDL中定义接口、函数和数据等,需要在发送前编码成字节流,在收到后进行解码。比如将函数名、参数类型和参数值等编码成字节流,然后发送给对端,然后对端进行解码,还原成函数调用。ProtoBuf就是一个非常好的编解码工具。
- protobuf 中底层有用flex & bison
- opensplice DDS中底层有用flex & bison
- RTI DDS中底层有用flex & bison
- Fast DDS中底层有用flex & bison
参考
1、linux–Flex and Bison
2、12 序列化与反序列化:如何通过网络传输结构化的数据?
3、网络传输 | 序列化与反序列化
4、序列化与反序列化:通过网络传输结构化的数据
5、数据传输过程的序列化,你了解吗
6、Protocol Buffer序列化对比Java序列化
7、佛曰:大道至简,序列化之
8、JSON概述
9、网络通信–协议设计
10、数据交换协议–JSON、XML、YAML、TOML、TLV
11、转–全图文分析:如何利用Google的protobuf,来思考、设计、实现自己的RPC框架
12、机器人开发–DDS数据分发服务
13、linux–解释器
14、GOOD–【RPC】RPC的实现—未研读