前言
我们在使用python
的过程中,经常需要它完成一些数据处理的工作,其中尤以json/csv
文件为常见。今天,博主针对UnicodeDecodeError
异常进行试验,因为这个是新手最容易犯错的地方。
Q:如何应对 UnicodeDecodeError
读取 .csv 或 .json 文件时,我们可能会遇到诸如:
'gbk' codec can't decode byte xx: illegal multibyte sequence 或 incomplete multibyte sequence
。通过直觉判断是字符编码的问题,那么又该如何解决?
一、csv文件
1. 现场还原
我们读csv文件时,有两种方式:
1.1 使用pathlib
from pathlib import Path
path = Path("123.csv")
# 读取所有行
rows = path.read_text().splitlines()
print(rows)
1.2 使用csv库
import csv
f = open("123.csv")
reader = csv.reader(f, delimiter=",")
# 第一种方法:遍历reader
rows = [row for row in reader]
print(rows)
# 第二种方法:遍历reader
rows = enumerate(reader)
for index, row in rows:
# 按索引返回每行,默认是list,需通过row[0]完成数据获取,tt为每列分隔符
print(index, row[0].split("tt"))
上述两种方式均支持对csv
文件进行数据解析。但是问题在于未指定字符编码,所以两种方式均会提示该异常,如下图所示:
2. 正确方式
2.1 使用pathlib
from pathlib import Path
path = Path("123.csv")
# 读取所有行,并且指定字符编码
rows = path.read_text(encoding="utf-8").splitlines()
print(rows)
需要注意的是,我们在使用pathlib
时,在Path()
中也可以指定encoding="utf-8"
,但是很遗憾会获得一个warning并且并不会产生期望的结果:
DeprecationWarning: support for supplying keyword arguments to pathlib.PurePath is deprecated and scheduled for removal in Python 3.14
形如:
# 定义字符编码无效,直接放弃
path = Path("123.csv", encoding="utf-8")
2.2 使用csv标准库
import csv
f = open("123.csv", encoding="utf-8")
reader = csv.reader(f, delimiter=",")
# # 第一种方法:遍历reader
rows = [row for row in reader]
print(rows)
# 第二种方法:遍历reader
rows = enumerate(reader)
for index, row in rows:
# 按索引返回每行,默认是list,需通过row[0]完成数据获取,tt为分隔符
print(index, row[0].split("tt"))
通过指定encoding
实现处理时的字符编码与文件保持一致,可以避免不必要的犯错。总之一句话,“养成好习惯,学习美又欢”
。
二、json文件
我们在读取json文件时,也会遇到该问题,这里博主直接贴正确的写法:
import json
# 同csv一样,指定encoding
f = open("data.json", encoding="utf-8")
# 将json字符串转为json对象
data_obj = json.loads(f.read())
# 根据key, 返回value
print(f"credit_code is: {data_obj["credit_code"]}")
# 将json对象转为字符串
data_str = json.dumps(data_obj, indent=4)
print(f"type is: {type(data_str)}")
运行结果如下:
结语
针对UnicodeDecodeError
,博主提供了错误和正确的示例,相信能够从中获取一些帮助。