【RPC】—Thrift协议 VS Protobuf

news2025/1/11 14:58:28

Thrift协议 & VS Protobuf

⭐⭐⭐⭐⭐⭐
Github主页👉https://github.com/A-BigTree
笔记仓库👉https://github.com/A-BigTree/tree-learning-notes
个人主页👉https://www.abigtree.top
⭐⭐⭐⭐⭐⭐

文章目录

  • Thrift协议 & VS Protobuf
    • 1 简介
    • 2 Thrift请求响应模型
      • 2.1 请求响应模型
      • 2.2 理解Message和Struct
        • Message
        • Struct
    • 3 Thrift序列化协议
      • 3.1 Binary协议
        • 3.1.1 Message序列化
        • 3.1.2 Struct序列化
          • 定长编码
          • 长缀编码
          • map编码
          • list&set编码
          • field编码
          • struct编码
      • 3.2 Compact协议
        • 3.2.1 VarInt编码
        • 3.2.2 ZigZag编码
      • 3.3 JSON协议
    • 4 optional、require 实现原理
    • 5 Thrift协议 VS Protobuf协议


1 简介

Thrift是一套包含序列化功能和支持服务通信的RPC框架,主要包含三大部分:代码生成、序列化框架、RPC框架,大致相当于protoc + protobuffer + grpc,并且支持大量语言,保证常用功能在跨语言间功能一致,是一套全栈式的RPC解决方案。Thrift整体架构图如下:

在这里插入图片描述

Thrift 本身是一个比较大的话题,本文不会涉及到全部内容,重点介绍其中的序列化协议。同时,Thrift 也是某音内部主要使用的 RPC 序列化协议,在本文的末尾也将其与 Protobuf 进行了简单的比较,Protobuf介绍 -> 传送门

2 Thrift请求响应模型

2.1 请求响应模型

在这里插入图片描述

在Thrift的官方Doc中将Thrift的RPC请求响应描述为上面的四个步骤。图中,最外层只有Message和Struct。
这里可以将Message和Struct类比为TCP中的首部和负载。Message中放的是传递的元信息(metadata),Struct则包含的是具体传递的数据(payload)

注意这里不要理解成了Client,Server在一个TCP上Send了两次,而应该理解为字节流,2的数据紧跟在1的数据后面,4的数据紧跟在3的数据后面。

2.2 理解Message和Struct

Message

Message中主要包含Name,Message Type,Sequence ID等数据。

  1. Name:为调用的方法名
  2. Message Type:有Call, OneWay, Reply, Exception四种,在实际传递的时候,传递的是Type ID,这四种Type对应的Type ID如下
Call      ---> 1
OneWay    ---> 2
Reply     ---> 3
Exception ---> 4

其中Call、OneWay用于Request, Reply、 Exception用于Response中。
四者的含义如下:

  • Call: 调用远程方法,并且期待对方发送响应。
  • OneWay: 调用远程方法,不期待响应。即没有步骤3,4。
  • Reply: 表明处理完成,响应正常返回。
  • Exception:表明出理出错。
  1. Sequence ID : 序列号, 有符号的四字节整数。在一个传输层的连接上所有未完成的请求必须有唯一的序列号,客户端使用序列号来处理响应的失序到达,实现请求和响应的匹配。服务端不需要检查该序列号,也不能对序列号有任何的逻辑依赖,只需要响应的时候将其原样返回即可。这里注意将Thrift序列号和我们常用的用于防止非幂等请求多次提交的unique ID区分开来。
Struct

在上面的Thrift请求响应模型中,有两种Struct:

  • Request Struct

  • Response Struct

这两种Struct的结构是一样的,都是由多个Field组成。

3 Thrift序列化协议

Thrift 在传输协议上总体划分为文本(Text)和二进制(Binary)传输协议。为节约带宽,提高传输效率,一般情况下使用二进制类型的传输协议。

常用协议有以下几种:

  • TBinaryProtocol:二进制编码格式进行数据传输
  • TCompactProtocol:高效率的、密集的二进制编码格式进行数据传输
  • TJSONProtocol: 使用JSON文本的数据编码协议进行数据传输
  • TSimpleJSONProtocol:只提供JSON只写的协议,适用于通过脚本语言解析

Thrift协议IDL Demo如下:

// 接口
service SupService {
    SearchByKeywordResponse SearchByKeyword(
        1: SearchByKeywordRequest request)
}
// 请求
struct SearchByKeywordRequest {
    1: optional string Keyword
    2: optional i32 Limit      
    3: optional i32 Offset 
}
// 假设request的payload如下:
{
    Keyword: "kwaishop",
    Limit: 50,
    Offset: null  
}

3.1 Binary协议

binary序列化是一种二进制的序列化方式。不可读,但传输效率高。

3.1.1 Message序列化

Message的序列化分为两种,strict encoding和old encoding。 在有些实现中,会通过
检查Thrift消息的第一个bit来判断使用了那种encoding:

  • 1 —-> strict encoding

  • 0 —-> old encoding

Message的Binary序列化下面的一张图就够了:

在这里插入图片描述

3.1.2 Struct序列化

Struct装的是Thrift通信的实际参数,一个Struct由很多基本类型组合而成,要了解Struct怎么序列化的必须知道这些基本类型的序列化。下面我们就由大到小来逐一分析这些基本类型:

类型名idl类型名占用字节数类型ID
boolbool12
bytebyte13
shorti1626
inti3248
longi64810
doubledouble84
stringstring4+N11
[]bytebinary4+N
listlist1+4+N15
setset1+4+N14
mapmap1+1+4+NX+NY13
field1+2+X
structstructN*X12
enum
union
exception
定长编码

上表中的 bool, byte, short, int, long, double采用的都是固定字节数编码,各类型占用的字节数见上。

长缀编码

string, byte array采用的是长度前缀编码,前四个字节(无符号四字节整数)表示长度,后面跟着的就是实际的内容。

map编码

在这里插入图片描述

其中key-type和value-type可以是任何基本类型。注意将此处的map与python中的dict区分,这里的key和value各自都必须是同种类型,而python中dict是多态字典。

list&set编码

在这里插入图片描述

注意与python中的list,set区分,这里的list,set中的元素必须是同一种类型。

field编码

在这里插入图片描述

iled不是一个实际存在的类型,而是一个抽象概念。field不独立出现,而是出现在struct内部,其中field-type可以是任何其他的类型,field-id就是定义IDL时该field在struct的编号,field-value是对应类型的值的序列化结果。

struct编码

struct的编码,一个struct就是由多个field编码而成,最后一个field排列完成之后是一个stop field,这个field是一个8bit全为0的字节,它标志着一条Thrift消息的结束。这也是上面思考题的答案

---------------------------------------------
| field1 | field2 |...| fieldN | stop field |        stop field: 00000000
|    M   |    M   |...|    M   |            |     所以Message Type编码的时候不能用0
---------------------------------------------

thrift序列化的时候并没有将字段名给序列化进去,所以在idl文件中更改字段名是没有任何影响的。

3.2 Compact协议

Compact序列化也是一种二进制的序列化,不同于Binary的点主要在于整数类型采用了zigzag 和 varint压缩编码实现,这里简要介绍下zigzag 和 varint整数编码。

3.2.1 VarInt编码

对于一个整形数字,一般使用 4 个字节来表示一个整数值。但是经过研究发现,消息传递中大部分使用的整数值都是很小的非负整数,如果全部使用 4 个字节来表示一个整数会很浪费。比如数字1用四字节表示就是这样:

00000000 00000000 00000000 00000001

对较小整数来说,这种固定字节数编码很浪费bit。所以人们就发明了一个类型叫变长整数varint。数值非常小时,只需要使用一个字节来存储,数值稍微大一点可以使用 2 个字节,再大一点就是 3 个字节,它还可以超过 4 个字节用来表达长整形数字。

其原理也很简单,就是保留每个字节的最高位的bit来标识后一个字节是否属于该bit,1表示属于,0表示不属于。

示意图如下:

在这里插入图片描述

由于大多数时候使用的是较小的整数,所以总体上来说,Varint编码的方式可以有效的压缩多字节整数。

那么对于负数怎么办呢?大家知道负数在计算机中是以补码的形式存在的。

10000000 00000000 00000000 00000001  -1的原码
11111111 11111111 11111111 11111110  -1的反码
11111111 11111111 11111111 11111111  -1的补码

所以-1在计算机中就是11111111 11111111 11111111,如果按照Varint编码,那么需要6个字节才能存的下,但是在现实生活中,-1却是个常用的整数。越大的负数越常见,编码需要的字节数越大,这显然是不能容忍的。为了解决这个问题, 就要使用ZigZag编码压缩技术了。

3.2.2 ZigZag编码

zigzag 编码专门用来解决负数编码问题。zigzag 编码将整数范围一一映射到自然数范围,然后再进行 varint 编码。

0 => 0
-1 => 1
1 => 2
-2 => 3
2 => 4
-3 => 5
3 => 6

zigzag 将负数编码成正奇数,正数编码成偶数。解码的时候遇到偶数直接除 2 就是原值,遇到奇数就加 1 除 2 再取负就是原值。

Compact编码——压缩的二进制。Compact序列化的实现大致逻辑和Binary序列化实现是一样的,就是将i16、i32、i64三种类型使用zigzag+varint编码实现,string、binary、map、list、set复合类型的长度只采用varint编码没使用zigzag,其他逻辑几乎一样。

3.3 JSON协议

不过多介绍

4 optional、require 实现原理

optional 表示字段可填,require 表示必填

  • 字段被标识为 optional 之后:

    1. 基本类型会被编译为指针类型
    2. 序列化代码会做空值判断,如果字段为空,则不会被编码
  • 字段被标识为 require 之后:

    1. 基本类型会被编译为非指针类型(复合类型 optional 和 require 没区别)
    2. 序列化不会做空值判断,字段一定会被编码。如果没有显式赋值,就编码默认值(默认空值,或者 IDL 显式指定的默认值)

5 Thrift协议 VS Protobuf协议

Protobuf介绍 -> 传送门

对于 Protobuf,本文不做过多介绍。此处简要比较 Thrift 与 Protobuf 在几个方面的不同。

  • Protobuf 协议编解码方式只有一种,而 Thrift 有 3 种(Compact 协议与 Protobuf 编码比较类似)
  • Protobuf 以小端序传输,Thrift 以大端序传输
  • Protobuf 支持反射、Thrift 不支持
  • Protobuf 3.0 后支持更丰富的类型比如 time、date、duration,Thrift 不支持
  • 早期 Thrift 支持的语言更广泛一些(尤其是对 Go 语言的支持),后来 Protobuf 也逐渐支持更多语言

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2195099.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

云原生(四十九) | WordPress源码部署

文章目录 WordPress源码部署 一、WordPress部署步骤 二、创建项目目录 三、上传源码到WordPress 四、配置安全组 五、配置WordPress 六、访问WordPress WordPress源码部署 一、WordPress部署步骤 第一步:创建项目目录 第二步:上传源码到项目目…

ARM(5)内存管理单元MMU

一、虚拟地址和物理地址 首先,计算机系统的内存被组成一个由M个连续的字节大小组成的数组。每字节都会有一个唯一的物理地址。CPU访问内存最简单的方式就是使用物理地址。如下图: 图 1 物理地址,物理寻址 而现在都是采用的都是虚拟寻址的方法。CPU生成一…

51单片机的自动制冷系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块温度传感器继电器LED、按键和蜂鸣器等模块构成。适用于车载便携式自动制冷系统、冰箱制冷、温度控制等相似项目。 可实现功能: 1、LCD1602实时显示当前温度 2、温度传感器DS18B20采集温度 3、按键可设置温度的阈…

【开发心得】筑梦上海:项目风云录(6)

目录 会海跳槽 票务开启 漂泊在外的日子 未完待续 会海跳槽 随着时刻表的出炉,意味着大规模的界面开发逐步进入正规。项目组里陆陆续续引进了8个人,最多的时候,同时有10个人在现场。“松工”为我们准备的办公室坐的满满当当,…

攸信动态丨厦门火炬大学堂携手厦门攸信技术,共探盈趣汽车电子数字化转型标杆之路

今日上午,在厦门市工信局指导下,由厦门盈趣汽车电子有限公司、厦门攸信信息技术有限公司携手北京赛昇科技有限公司与厦门火炬大学堂联合举办的“厦门中小企业数字化转型人才培训(第14期)”活动,在热烈而充实的氛围中圆…

gitlab-ci 集成 k3s 部署spring boot 应用

环境 一台ECS gitlab 16.10 一台ECS gitlab-runner docker方式 一台腾讯云服务器 k3s k3s version v1.30.5k3s1 (9b586704) go version go1.22.6 本地: idea 2024 准备开始 gitlab上创建"api"仓库,本地IDEA 创建spring boot web demo项目k8s-gitlab-demo. 确保能…

手把手带你服务端实现支付功能的通用解决方案!(全网最新)

友情提示: 跳转到本人juejin观看体验更佳(当然CSDN也很好😋) link —> https://juejin.cn/user/679936123997707/posts Thanks!🌹 前言 前段时间,和朋友们一起搭建的一个网站需要实现支付功能&#xff…

速卖通、Shopee、Lazada自养号测评的五大关键步骤:从环境构建到风控应对

在跨境电商领域,速卖通、Shopee和Lazada等平台上的自养号测评已成为提升销量、优化产品排名的重要手段。自养号测评不仅能够帮助卖家快速积累好评,还能有效提升产品的曝光率和转化率。然而,自养号测评并非易事,需要掌握一系列专业…

软考UML图 -- ( 类图,对象图,用例图,序列图,通信图,状态图,活动图,构件图,部署图)

文章目录 一、UML统一建模语言二、关系三、UML图1. 类图2. 对象图3. 用例图4. 序列图(顺序图)—— 交互图5. 通信图 —— 交互图6. 状态图7. 活动图8. 构件图(组件图)9. 部署图10. 总结 一、UML统一建模语言 UML由3个要素构成:UM…

Linux 外设驱动 应用 1 IO口输出

从这里开始外设驱动介绍,这里使用的IMX8的芯片作为驱动介绍 开发流程: 修改设备树,配置 GPIO1_IO07 为 GPIO 输出。使用 sysfs 接口或编写驱动程序控制 GPIO 引脚。编译并测试。 这里假设设备树,已经配置好了。不在论述这个问题…

PDF转JPG神器!这四款软件让你轻松搞定文档转换

尊敬的朋友们,您是否曾在数字办公和娱乐的海洋中,遭遇过因格式问题而一筹莫展的时刻?比如,手头有一份绝美的PDF文件,却想将其转换为JPG图片格式,好让它能在你的社交圈中大放异彩;别急&#xff0…

自然语言处理-语言转换

文章目录 一、语言模型二、统计语言模型1.含义与方法2.存在的问题 三、神经语言模型1.含义与方法2.one-hot编码3.词嵌入-word2vec4.模型的训练过程 四、总结 自然语言处理(NLP)中的语言转换方法主要涉及将一种形式的语言数据转换为另一种形式&#xff0c…

IDEA创建、导入、删除maven项目

全局配置: 1.File->Close Project 2.Customize->All settings 3. Apply 4.选择JRE版本->Apply 5.选择字节码版本->Apply->OK 全局配置结束 创建maven项目: 1.File->New->Module 2.Build system选择Maven GroupId&#xff1a…

Django学习笔记十三:优秀案例学习

Django CMS 是一个基于 Django 框架的开源内容管理系统,它允许开发者轻松地创建和管理网站内容。Django CMS 提供了一个易于使用的界面来实现动态网站的快速开发,并且具有丰富的内容管理功能和多种插件扩展。以下是 Django CMS 的一些核心特性和如何开始…

智能医疗:Spring Boot医院管理系统开发

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适…

手术器械检测系统源码分享

手术器械检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vision …

【Nacos入门到实战十三】Nacos配置管理:配置优先级与加载顺序解读

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

Thinkphp/Laravel基于vue的金融理财产品销售系统设计与实现Vscode毕业设计成品源码.

目录 技术栈和环境说明具体实现截图设计思路关键技术课题的重点和难点:框架介绍数据访问方式PHP核心代码部分展示代码目录结构解析系统测试详细视频演示源码获取 技术栈和环境说明 采用PHP语言开发,开发环境为phpstudy 开发工具notepad并使用MYSQL数据库…

allegro 替换过孔

操作步骤如下 1.选择操作对象(需要替换的过孔),右键–>Repace……–>Selected…… 2.在弹出的窗口中选择最终需要的过孔既可以

2024系统分析师考试---数据仓库相关概念

前言: 传统的操作型数据库主要面向业务的,所执行的操作基本上也是联机事务处理,随着企业规模的增长,历史积累的数据越来越多,如何利用历史数据来为未来决策服务,就显得越来越重要了,而数据仓库就…