[Python学习日记-50] Python 中的序列化模块 —

[Python学习日记-50] Python 中的序列化模块 —— pickle 和 json

简介

pickle 模块

json 模块

pickle VS json

简介

什么叫序列化？

序列化指的是将对象转换为可以在网络上传输或者存储到文件系统中的字节流的过程。序列化使得对象可以被保存、传输和恢复，而不损失其状态和属性。在序列化过程中，对象的属性和数据会被编码为二进制数据，以便能够在不同的环境中被解码和重建成原来的对象。常见的序列化格式有 JSON、XML 和二进制格式等。简单来说就是把内存里的数据类型转换成字符串，以使其能存储到硬盘或通过网络传输到远程，因为硬盘或网络传输时只能接受以字节（bytes）的形式进行存储或传输。

有了序列化，那有没有反序列化呢？

当然有了，反序列化是序列化的逆过程，指的是将序列化后的字节流重新转换为对象的过程。通过反序列化，可以将保存在文件系统或者网络中的对象数据重新还原为内存中的对象，使其恢复原有的状态和属性。反序列化过程将二进制数据解码并重新构建为原始对象，并将其存储在内存中，以便程序可以直接使用这些对象。反序列化是序列化的重要补充，它使得可以在不同的环境或者平台之间传递对象数据，并在接收方重新构建对象。简单来说就是把存储在硬盘当中的字节或者是网络传输过来的字节转换为相应的数据类型，使其能在对应的程序中使用传输过来的数据。

其实这个过程非常像科幻电影里面的光速移动，先把人编码为光信号，然后传输到目的地，最后在目的地接收该光信号，然后通过光信号中的信息，把人还原回来。

有的小伙伴还是不明白，为什么要这么大费周章的进行序列化呢？我们举个例子，例如你在打《使命召唤》，在这个过程中打累了，想要停下来关掉游戏2天再玩，在2天之后游戏又从你上次停止的地方继续运行，那你上次游戏的进度肯定保存在硬盘上了，不然你电脑一断电内存里的数据肯定就没了，它是以何种形式来存储的呢？而且游戏过程中产生的很多临时数据都是不规律的，可能在你关掉游戏时正好有10个列表，3个嵌套字典的数据集合在内存里，而这些都需要存下来，那该怎么存呢？把列表变成文件里的多行多列形式？但是嵌套字典根本没法以该形式进行储存啊。所以，若是有种办法可以直接把内存数据存到硬盘上，下次程序再启动，再从硬盘上读回来，还是原来的格式的话，那是极好的。而这个需求恰恰就是序列化模块的功能了，在 Python 中有两个序列化模块：pickle（用于 Python 特有的类型和 Python 的数据类型间进行转换）和 json（用于字符串和 Python 数据类型间进行转换），下面我们分别来看看他们的用法。

pickle 模块

pickle 模块提供了四个功能：dumps、dump、loads、load

一、序列化

dumps：生成序列化的字符串在内存当中，代码如下

import pickle

d = {
    "name":"jove",
    "role":"police",
    "blood":76,
    "weapon":"M4A1"
}

alive_players = ["jove","kerry","lucy"]

d_dump = pickle.dumps(d)    # 序列化
print(d_dump)

代码输出如下：

dump：生成序列化的字符串并写入文件，代码如下

import pickle

d = {
    "name":"jove",
    "role":"police",
    "blood":76,
    "weapon":"M4A1"
}

alive_players = ["jove","kerry","lucy"]

f = open('game.pkl','wb')    # pickle 序列化后是字节，所以需要用 wb，读需要用 rb
pickle.dump(d,f) # 序列化存入文件
pickle.dump(alive_players,f)

代码效果如下：

之所以是乱码，是因为 PyCharm 想要以 UTF-8 强行解码导致的。

二、反序列化

loads：把内存当中的序列化字符串进行反向解析，代码如下

import pickle

d = {
    "name":"jove",
    "role":"police",
    "blood":76,
    "weapon":"M4A1"
}

alive_players = ["jove","kerry","lucy"]

d_dump = pickle.dumps(d)    # 序列化
print(d_dump)
print(pickle.loads(d_dump))    # 反序列化

代码输出如下：

load：从文件加载序列化的字符串反向解析到内存当中，代码如下

'''
game.pkl 内容：
\x80\x04\x95=\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x04name\x94\x8c\x04jove\x94\x8c\x04role\x94\x8c\x06police\x94\x8c\x05blood\x94KL\x8c\x06weapon\x94\x8c\x04M4A1\x94u.
'''

import pickle


f = open('game.pkl','rb')
# First in first out --> FIFO 先入先出
# First in last out --> FILO 先入后出
d = pickle.load(f)    # 反序列化，从文件取出来
print(d)
alive_plays = pickle.load(f)
print(alive_plays)

代码输出如下：

结合上面序列化存入文件时的代码输出，我们知道 pickle 模块在多个数据类型进行序列化的时候，是 First in first out（FIFO）类型的，即先先入先出。

json 模块

json 模块也提供了四个功能：dumps、dump、loads、load，用法跟 pickle 一致

一、序列化

dumps：生成序列化的字符串在内存当中，代码如下

import json

d = {
    "name":"jove",
    "role":"police",
    "blood":76,
    "weapon":"M4A1"
}

alive_players = ["jove","kerry","lucy"]

d_dump = json.dumps(d)

print(d_dump)
print(type(d_dump))    # pickle是bytes，但json是str

代码输出如下：

dump：生成序列化的字符串并写入文件，代码如下

import json

d = {
    "name":"jove",
    "role":"police",
    "blood":76,
    "weapon":"M4A1"
}

alive_players = ["jove","kerry","lucy"]

f = open('game.json','w')    # json.dumps(d)转换为的是str，所以只需要'w'就可以了

json.dump(d,f)

代码效果如下：

二、反序列化

loads：把内存当中的序列化字符串进行反向解析，代码如下

import json

d = {
    "name":"jove",
    "role":"police",
    "blood":76,
    "weapon":"M4A1"
}

alive_players = ["jove","kerry","lucy"]

d_dump = json.dumps(d)
print(type(d_dump))
d_load = json.loads(d_dump)
print(d_load["weapon"])

代码输出如下：

load：从文件加载序列化的字符串反向解析到内存当中，代码如下

'''
game.json 内容：
{"name": "jove", "role": "police", "blood": 76, "weapon": "M4A1"}
'''

import json

f = open('game.json','r')

d = json.load(f)
print(d,type(d))
print(d["weapon"])

代码输出如下：

pickle VS json

Pickle：

优点：专为 Python 设计，支持 Python 所有的数据类型，例如class->object、function、datetime等
缺点：只能在 Python 中使用，而且存储数据占空间大

JSON：

优点：跨语言（不同编程语言之间的数据传递可用 json 交接）、存储数据占空间小
缺点：只能支持 int、str、list、tuple、dict 这类比较常规的数据类型

一、dump 次数

pickle 可以 dump 多次，json 只能 dump 一次，主要问题是出现在读取的时候，分别使用 pickle 和 json 进行多次 dump，game.pkl 和 game.json，代码如下

import pickle
import json

d = {
    "name":"jove",
    "role":"police",
    "blood":76,
    "weapon":"M4A1"
}

alive_players = ["jove","kerry","lucy"]

f_p = open('game.pkl','wb')
pickle.dump(d,f_p)
pickle.dump(alive_players,f_p)

f_j = open('game.json','w')
json.dump(d,f_j)
json.dump(alive_players,f_j)

代码效果如下：

可以看到，数据已经成功序列化后写入到硬盘当中了，这时候我们来把数据 load 出来看看问题到底是什么，代码如下

import pickle
import json

f_p = open("game.pkl","rb")
print("pickle1:",pickle.load(f_p))
print("pickle2:",pickle.load(f_p))

f_j = open("game.json","r")
print("json1:",json.load(f_j))
print("json2:",json.load(f_j))

代码输出如下：

从输出结果来看，很明显 json 不能像 pickle 一样进行多次 dump，这是与 json 的文件写入有关，我们在仔细看看 json 进行多次 dump 之后写入的到底是什么，看下图

多次 dump 的写入内容都是拼在一起的，并没有什么特殊字符用作分割，所以 json.load 尝试反向解析的时候就会把全部 game.json 里面的内容都读出来，但是它发现这个并不认识，所以最终就会抛出 json.decoder.JSONDecodeError 的错误，即 json 解码失败。

二、pickle 序列化非常规数据类型

我们以 datetime 对象为例，分别使用 pickle 和 json 进行 dump 操作，代码如下

import pickle
import json
import datetime

t = datetime.datetime.now()
print(t,type(t))
tp_dump = pickle.dumps(t)
print(tp_dump)
tj_dump = json.dumps(t)

代码输出如下：

从输出结果来看，很明显 json 不能像 pickle 一样序列化 datetime 对象，而是直接抛出 TypeError 报错，这是因为 json 的其中一个特性就是跨语言，而不同语言之间的语法定义都是不一样的，如果需要把所有语言的语法定义都进行识别然后转换，那这个工作将会无比复杂，所以 json 就干脆只支持一些常规的数据类型，因为这些数据类型几乎在所有语言当中都有。

再举个实际场景，例如我要开发一个网站，而网站是分前后端的，前端我们使用的语言是 html、js、css，而后端我们使用的是 Python 那如果我们要进行对接那应该怎么做呢？能把整个 function 序列化到前端语言中运行吗？这显然是不行的，我们以 js 和 Python 为例来对比一下