序列化与反序列化的本质

news2024/11/27 17:40:28

1. 将对象存储到本地

假如有一个student类,我们定义了好几个对象,想要把这些对象存储下来,该怎么办呢

from typing import List
class Student:
	name: str
	age: int
	phones: List[str]
s1 = Student("xiaoming",10,["huawei","xiaomi"])

一个极其简单的想法是把这些对象的值拼接到一起编程字符串存储下来,字段与字段之间使用逗号隔开,list的字段则使用#号隔开,想要使用什么字符自己定,只要约定好即可

# xiaoming,10,huawei#xiaomi

res = ','.join(s1.name,s1.age,'#'.join(s1.phones))
with open('s1.txt','w') as f:
	f.write(res)

读取这个字符串后按照我们的约定再反解析出来每个字段

with open('s1.txt','r') as f:
	res = f.read()

name,age,phones = res.split(',')
phones = phones.split('#')

s1 = Student(name, age, phones)

这样我们就又可以得到这个对象了。

存储数据的过程就是序列化,解析数据的过程就是反序列化

2. 字符串编码

我们把对象转换成字符串存到了本地文件中,并且可以打开这个文件看到我们的字符串。一切好像都很自然。其实中间存在了一个小gap,我们知道计算机只认识二进制,为啥存储的时候没有变成bytes,反而可以是字符串呢?我们把open函数补全一点儿

with open('s1.txt','w',encoding='utf-8') as f:
	f.write(res)

可以看到多了一个encoding的参数,就是使用utf-8的方式把这段字符串编码成二进制数据。

计算机只认识二进制,要想传输一个对象,必须将其转换成二进制格式。英文有26个字符,还有一些常用的符号,一个想当然的方法就是让每个字符对应一个数字,这就是ASCII码表,例如

二进制十进制十六进制图形
0010 00003220(空格)(␠)
0010 00013321!
0100 00016541A
0110 00019761a

英文是解决了,中文呢?日文呢?俄文呢?为了把所有的文本统一,搞出了一个unicode码本,每个文本都对应了一个二进制。unicode使用4个字节表示一个字符,这对于英文来说就非常的浪费内存,英国人跟英国人交流基本都是英文,他们浏览网站看到的也基本是英文,同样对于中文来说也一样。所以就提出了utf-8的【编码方式】,utf-8是一种变长编码方式,对于英文来说只需要一个字节就可以了,中文只需要3个字节。

在这里插入图片描述

这里需要注意的是,utf-8是一种unicode的编码方式,打个比方,每个人的手机号都是11位的,但是如果你办了亲情网,只需要3位就可以标识自己的老公,老婆,父母了。11位的手机号相当于unicode,可以表示全国所有的人,而亲情网则可以认为是utf-8编码,得到的那3位就是utf-8编码后的号码。

  • 通过unicode码本可以把字符映射成unicode二进制
  • 通过utf-8编码,可以把unicode二进制转换成更短的二进制

我就想,为啥不直接使用utf-8作为码本呢

所以不要觉得是我们把字符串写到本地了,其实这个字符串通过utf-8编码已经变成二进制存储到本地了。
也不要觉得我们直接打开的是字符串,其实通过notepad打开的是二进制,只不过notepad给我们使用utf-8解码了。将这个二进制重新映射成了unicode,通过unicode找到对应的字符给我们显示了出来。

编码转换

使用统一的unicode编码后,每个人看到的就不会是乱码了,俄文日文都可以在我们的电脑上正确的展示出来了。utf-8需要3个字节表示一个中文,但其实只需要2个字节就可以了,utf-8对中文而言也是有点浪费了,所以提出了gbk编码,只需要2个字节来表示中文。引文只是对中文进行编码,如果想要显示俄文那么就会是乱码。
我们请求网页的时候都会告知这个网页的编码方式,一般都是utf-8的,这样兼容性很好,任意字符都可以显示,也有gbk编码的。

如果一个文本使用utf-8编码,使用gbk格式打开就会乱码,同样,如果使用gbk编码,使用utf-8就会乱码。我们可以先使用对应的编码方式打开,这样得到其实就是unicode码,然后再使用想要的编码方式去保存。

这么说来的话,unicode算是一种事实标准了

4. json序列化

回过头来,我们把对象转换成字符串存储到了本地,也可以根据存储的规则反推出原来的对象,这个过程称之为序列化和反序列化,用逗号分隔的格式一般称为csv。更多会使用json格式来进行序列化。

import json
from typing import List

class Phone:
	name: str
	time: str

class Student:
	name: str
	age: int
	phones: List[Phone]
p1 = Phone("xiaomi", "2024")
p2 = Phone("huawei", "2008")
s1 = Student("xiaoming",10,[p1, p2])

res = {}

res['name'] = s1.name
res['age'] = s1.age
res['phones'] = [{'name':"xiaomi",'time':"2024"},{'name':"huawei",'time':"2008"}]

res_str = json.dumps(res) # 把对象转换成字符串

with open('s1.txt','w') as f:
	f.write(res_str)

with open('s1.txt','r') as f:
	obj = json.loads(f.read())

s2 = Student()
s2.name = obj['name']
s2.age = obj['age']
phones2 = []
for phone in obj['phones']:
	phones2.appen(Phone(phone.name,phone.time))
s2.phones = phones2

  1. 首先把对象转换成json支持的类型,json支持list,tuple,dict,int,str等基础类型
  2. 通过json的dumps函数我们可以把对象转换成字符串,并写到本地

proto序列化

protobuf本质就是一个【数据结构】,例如下面定义一个student的pb文件

syntax = "proto2";
package tutorial;

message Phone{
  optional string name = 1;
  optional string time = 2;	
}

message Student {
  optional string name = 1;
  optional int32 age = 2;
  repeated Phone phones = 3;
}

message可以认为就是class,repeated其实就是list
同样

  1. 将原始对象转成pb格式的对象
  2. 使用seriral序列化函数转换成字符串,并写入到本地

2. proto生成相应的类

proto文件最终通过proto会生产相应的类文件,如果是c++的话就是student.pb.cc和student.pb.h。

protoc --proto_path=. --cpp_out=. ./student.proto

如果是python则是student_pb2.py。

protoc --proto_path=. --python_out=. ./student.proto

proto_path是搜索proto的路径,而cpp_out是生产.cc和.h的路径,最后则是我们的proto路径。在这里的相对路径是相对于protoc执行的路径而言的,哪里执行命令,哪里就是工作路径。
例如proto文件存储在/a/b/test/addressbook.proto,执行protoc的路径是/c/d,此时proto_path和cpp_out使用的相对路径都是相对于/c/d而言的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1952080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大模型微调部署实战及类GPT工具的高效使用

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名,CCF比赛第二…

《RMT: Retentive Networks Meet Vision Transformers》CVPR2024

论文:RMT: Retentive Networks Meet Vision Transformers - AMiner 摘要 这篇论文探讨了将Retentive Network(RetNet)的概念引入到计算机视觉领域,并与Vision Transformer结合,提出了一种新的模型RMT(Ret…

牛津剑桥等发现:AI 训 AI 惨遭投毒 9 次大崩溃

【新智元导读】9 次迭代后,模型开始出现诡异乱码,直接原地崩溃!牛津、剑桥等机构的一篇论文登上了 Nature 封面,称合成数据就像近亲繁殖,效果无异于投毒。有无破解之法?那就是 —— 更多使用人类数据&#…

护眼灯有没有护眼的效果?一文揭秘用护眼灯到底好不好

护眼灯有没有护眼的效果?在现在这个时代,无论是在学习还是办公,都很难离开一款好用的台灯,所以,为了避免会挑选到质量不好的台灯,我们应该要先避开一些网红小品牌,优先选择有专业技术支持的&…

ClickHouse 24.6 版本发布说明

本文字数:14127;估计阅读时间:36 分钟 作者:ClickHouse team 本文在公众号【ClickHouseInc】首发 又到了发布新版本的时间! 发布概要 本次ClickHouse 24.6 版本包含了23个新功能🎁、24项性能优化&#x1f6…

maven介绍 搭建Nexus3(maven私服搭建)

Maven是一个强大的项目管理工具,它基于项目对象模型(POM:Project Object Model)的概念,通过XML格式的配置文件(pom.xml)来管理项目的构建 Maven确实可以被视为一种工程管理工具或项目自动化构…

使用flutter做圆形进度条 (桌面端)

前言 最近收到一个需求,需要使用flutter 来做一个圆形进度条,这可难倒我了,毕竟我是做前端的,flutter 之前接触的也少,但没办法,既然需求有了,也得硬着头皮上了,先来看看做的效果。…

简过网:大学生考公,一定要先好好看看这篇文章!

大家好,我是简过网,今天这篇文章我们来聊聊关于大学生考公的那些事儿,希望能给大学生们一点点的帮助! 首先,可能有朋友会问了,大学生一般从什么时候开始备考公务员呢,在这里小编建议大家从大三…

《昇思25天学习打卡营第24天|基于MindSpore通过GPT实现情感分类》

基于MindSpore通过GPT实现情感分类 %%capture captured_output # 实验环境已经预装了mindspore2.2.14,如需更换mindspore版本,可更改下面mindspore的版本号 !pip uninstall mindspore -y !pip install -i https://pypi.mirrors.ustc.edu.cn/simple mind…

yolov5-7环境搭建训练自己的模型

1.下载代码 git clone https://github.com/ultralytics/yolov5 # clone可以切到5-7版本,也可以去github选标签下载 2.配置好conda环境,网上教程比较多,不做讲解,python3.8即可。 3.在环境里安装pyrtorch 按自己的需求选取&am…

每日一练,java05

目录 题目知识点:1.12.13.1 题目 选自牛客网 1.下列表述错误的是?() A.int是基本类型,直接存数值,Integer是对象,用一个引用指向这个对象。 B.在子类构造方法中使用super()显示调用父类的构造…

第T6周:使用TensorFlow实现好莱坞明星识别

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 文章目录 一、前期工作1.设置GPU(如果使用的是CPU可以忽略这步)2. 导入数据3. 查看数据 二、数据预处理1、加载数据2、数据可视化3、再…

【论文速读】| LLMCloudHunter:利用大语言模型(LLMs)从基于云的网络威胁情报(CTI)中自动提取检测规则

本次分享论文:LLMCloudHunter: Harnessing LLMs for Automated Extraction of Detection Rules from Cloud-Based CTI 基本信息 原文作者:Yuval Schwartz, Lavi Benshimol, Dudu Mimran, Yuval Elovici, Asaf Shabtai 作者单位:Ben-Gurion…

mfc100u.dll 文件缺失?两种方法快速修复丢失mfc100u.dll 文件难题

您的电脑是否遭遇了 mfc100u.dll 文件缺失的问题?这种情况通常由多种原因引起。在本文中,我们将介绍两种修复 mfc100u.dll 文件丢失问题的策略——一种是手动方法,另一种是自动修复的使用。我们将探讨如何有效地解决 mfc100u.dll 文件缺失的几…

Linux下git入门操作

0.创建仓库 可以按这个配置来,.gitignore中存放了上传时忽略的文件类型后缀。 1.clone仓库 在gitee上创建好仓库,点击克隆/下载, 复制地址fyehong/Linux_notes 。 在所需的文件夹中放置仓库。比如我在文件夹lesson9下存储仓库。就在less…

Python爬虫技术 第18节 数据存储

Python 爬虫技术常用于从网页上抓取数据,并将这些数据存储起来以供进一步分析或使用。数据的存储方式多种多样,常见的包括文件存储和数据库存储。下面我将通过一个简单的示例来介绍如何使用 Python 爬取数据,并将其存储为 CSV 和 JSON 文件格…

【数据结构】二叉树链式结构——感受递归的暴力美学

前言: 在上篇文章【数据结构】二叉树——顺序结构——堆及其实现中,实现了二叉树的顺序结构,使用堆来实现了二叉树这样一个数据结构;现在就来实现而二叉树的链式结构。 一、链式结构 链式结构,使用链表来表示一颗二叉树…

【机器学习】解开反向传播算法的奥秘

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 解开反向传播算法的奥秘反向传播算法的概述反向传播算法的数学推导1. 前向传播2…

3.k8s:服务发布:service,ingress;配置管理:configMap,secret,热更新;持久化存储:volumes,nfs,pv,pvc

目录​​​​​​​ 一、服务发布 1.service (1)service和pod之间的关系 (2) service内部服务创建访问 (3)service访问外部服务 (4)基于域名访问外部 (5&#xff…

Prometheus各类监控及监控指标和告警规则

目录 linux docker监控 linux 系统进程监控 linux 系统os监控 windows 系统os监控 配置文件&告警规则 Prometheus配置文件 node_alert.rules docker_container.rules mysql_alert.rules vmware.rules Alertmanager告警规则 consoul注册服务 Dashboard JSON…