Python基础教程：第八章

文件的编码

学习目标

掌握文件编码的概念和常见编码

思考：计算机只能识别：0和1，那么我们丰富的文本文件是如何被计算机识别，并存储在硬盘中呢？

答案：使用编码技术（密码本）将内容翻译成0和1存入。

举个例子，假设我们有一句话“我喜欢你”，计算机无法直接理解其含义。为了让计算机处理这句话，我们需要使用编码技术，也就是把每个字符转换成对应的二进制编码。例如，我对应的二进制编码是1011，喜对应1101，欢对应1111，你对应1001。因此，我们可以使用这些二进制编码来直接翻译出完整的句子。

编码技术即：翻译的规则，记录了如何将内容翻译成二进制，以及如何将二进制翻译回可识别内容。

计算机中有许多可用编码：

UTF-8
GBK
Big5
等

每种编码技术都有自己的“密码本”，即将字符映射为对应的二进制编码的规则。例如，在UTF-8编码中，“我”对应的二进制编码可能是1011，但如果使用Big5编码，它可能会变成1101。因此，在不同的编码技术中，字符的二进制编码规则也是不同的。

编码有许多，所以要使用正确的编码，才能对文件进行正确的读写操作。

如上，如果你给喜欢的女孩发送文件，使用编码A进行编码（内容转二进制）。

女孩使用编码B打开文件进行解码（二进制反转回内容）自求多福吧。

查看文件编码

我们可以使用Windows系统自带的记事本，打开文件后，即可看出文件的编码是什么：

UTF-8是目前全球通用的编码格式，事实上，现如今电脑默认使用UTF-8进行操作，因此我们通常不需要过多关注编码问题。只有在我们需要主动选择或确认编码时才需要考虑这个问题。通常99.999%的情况下，我们都可以使用UTF-8编码。

文件的读取

学习目标

了解文件操作的作用
掌握文件的打开、读取、关闭操作

什么是文件

内存中存放的数据在计算机关机后就会消失。要长久保存数据，就要使用硬盘、光盘、U 盘等设备。为了便于数据的管理和检索，引入了“文件”的概念。

一篇文章、一段视频、一个可执行程序，都可以被保存为一个文件，并赋予一个文件名。操作系统以文件为单位管理磁盘中的数据。一般来说，文件可分为文本文件、视频文件、音频文件、图像文件、可执行文件等多种类别。

那么，当我们在电脑上打开文件管理器时，我们会看到许多的文件，除了文件夹以外，几乎所有的内容都是文件。文件的概念相对简单，但如果我们想要对文件进行操作，我们需要了解一些基本的操作内容。

文件操作包含哪些内容呢？

在我们平时操作电脑时，我们通常会双击鼠标左键打开文件，或者点击文件窗口右上角的关闭按钮关闭文件。同时，我们还需要读取文件的内容、查看文件的信息，或者编辑并保存修改后的文件。

在日常生活中，文件操作主要包括打开、关闭、读、写等操作。

文件的操作步骤

如果我们想用Python操作文件，大概可以分为三个步骤（简称文件操作三步走）：

①打开文件

②读写文件

③关闭文件

注意：可以只打开和关闭文件，不进行任何读写

open()打开函数

首先，我们需要使用Python内置的open函数来打开文件，无论是打开已经存在的文件还是创建一个新文件。这个函数的语法相对简单，主要需要传入3个参数：文件名、模式和编码方式。

语法如下

open(name, mode, encoding)

name：是要打开的目标文件名的字符串(可以包含文件所在的具体路径)。

mode：设置打开文件的模式(访问模式)：只读、写入、追加等。

encoding:编码格式（推荐使用UTF-8）示例代码：

f = open('python.txt', 'r', encoding=”UTF-8)
# encoding的顺序不是第三位，所以不能用位置参数，用关键字参数直接指定

注意：此时的f是open函数的文件对象，对象是Python中一种特殊的数据类型，拥有属性和方法，可以使用对象.属性或对象.方法对其进行访问，后续面向对象课程会给大家进行详细的介绍。

因此，我们现在暂且不需要深究这个返回值f具体表示的是什么，我们只需要知道这个f变量中包含了各种我们可以使用的方法即可。就和前面我们学习数据容器的时候，list中有append、extend等许多可用的方法一样，这个文件对象也会包含大量可供使用的方法。

mode常用的三种基础访问模式

模式	描述
r	以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
w	打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，原有内容会被删除。如果该文件不存在，创建新文件。

a	打开一个文件用于追加。如果该文件已存在，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

好，那关于 w 和 a 模式，我们在后边进行详细的讲解，在当前视频我们主要研究 r 模式，也就是文件的读取操作。

读操作相关方法

read()方法：

文件对象.read(num)

num表示要从文件中读取的数据的长度（单位是字节），如果没有传入num，那么就表示读取文件中所有的数据。

readlines()方法：

readlines可以按照行的方式把整个文件中的内容进行一次性读取，并且返回的是一个列表，其中每一行的数据为一个元素。

f = open('python.txt')
content = f.readlines()
# ['hello world\n', 'abcdefg\n', 'aaa\n', 'bbb\n', 'ccc']
print(content)
# 关闭文件
f.close()

readline()方法：

一次读取一行内容，每次调用该函数，它便会读取一行；连续调用该函数，则会依次读取下一行。

f = open('python.txt')
content = f.readline()
print(f'第一行：{content}')
content = f.readline()
print(f'第二行：{content}')
# 关闭文件
f.close()

for循环读取文件行：

每一次循环就可以得到一个 line 的临时变量，那这个临时变量就记录了文件中的每一行数据。

for line in open("python.txt", "r"):
print(line)
# 每一个line临时变量，就记录了文件的一行数据

close() 关闭文件对象

关闭文件的操作也很简单。我们只需调用文件对象的 close() 方法即可将其关闭。为什么我们需要关闭文件呢？因为如果我们的程序没有关闭文件，那么它就会一直占用该文件，导致其无法被其他程序使用。因此，在 Python 程序运行期间，一定要记得关闭文件。

f = open("python.txt", "r")
f.close()
# 最后通过close，关闭文件对象，也就是关闭对文件的占用
# 如果不调用close,同时程序没有停止运行，那么这个文件将一直被Python程序占用。

with open 语法

通过这种写法，我们可以帮助我们自动的完成对文件的close

with open("python.txt", "r") as f:
f.readlines()
# 通过在with open的语句块中对文件进行操作
# 可以在操作完成后自动关闭close文件，避免遗忘掉close方法

操作汇总

操作	功能
文件对象 = open(file, mode, encoding)	打开文件获得文件对象
文件对象.read(num)	读取指定长度字节不指定num读取文件全部
文件对象.readline()	读取一行
文件对象.readlines()	读取全部行，得到列表
for line in 文件对象	for循环文件行，一次循环得到一行数据
文件对象.close()	关闭文件对象
with open() as f	通过with open语法打开文件，可以自动关闭

课后练习：单词计数

通过Windows的文本编辑器软件，将如下内容，复制并保存到：word.txt，文件可以存储在任意位置

itheima itcast python

itheima python itcast

beijing shanghai itheima

shenzhen guangzhou itheima

wuhan hangzhou itheima

zhengzhou bigdata itheima

通过文件读取操作，读取此文件，统计itheima单词出现的次数

with open('word.txt', 'r', encoding='utf-8') as f:
content = f.read()

words = content.split() # 将文本根据空格分割成单词列表

count = 0
for word in words:
if word == 'itheima':
count += 1

print(f'itheima出现的次数为：{count}')

文件的写入

在前面的学习中，我们已经掌握了文件的打开和关闭方法，以及文件的读取操作。现在，我们只需要了解如何调用写入方法，将内容写入到文件中即可。这个写入操作非常简单，我们只需要使用一个方法：write()。

通过调用 write() 方法并指定我们想要写入的内容，就可以将我们的内容写入到文件中去。

案例演示：

# 1. 打开文件
f = open('python.txt', 'w')
# 2.文件写入
f.write('hello world')
# 3. 内容刷新
f.flush()

注意：

直接调用write，内容并未真正写入文件，而是会积攒在程序的内存中，称之为缓冲区
当调用flush的时候，内容会真正写入文件
这样做是避免频繁的操作硬盘，导致效率下降（攒一堆，一次性写磁盘）

通过这两个方法的搭配使用，我们就可以完成写入操作。

需要注意的是，在 "w" 模式下，如果文件不存在，Python 会自动创建文件。如果文件已经存在，则会清空文件中原有的内容。请注意这个功能，确保在使用 "w" 模式时了解这一点。

最后，我们需要记得使用 close() 方法关闭文件。有时候，关闭文件后它会自动执行 flush() 方法，因此你不需要手动执行。

文件的追加

追加写入操作快速入门

今天我们将学习关于文件追加的操作。其实，文件追加操作和文件写入操作非常类似。我们只需要将文件的打开模式从 “w” 模式改为 “a” 模式即可。其他的操作方法，如 write() 方法、flush() 方法和 close() 方法都是相同的，我们不需要做出任何改变。案例演示：

# 1. 打开文件，通过a模式打开即可
f = open('python.txt', 'a')
# 2.文件写入
f.write('hello world')
# 3. 内容刷新
f.flush()

需要注意的是，在 “a” 模式下，如果文件不存在，Python 也会自动创建文件。如果文件已经存在，Python 将会在文件的末尾进行追加。这是和 “w” 模式最大的不同点。

文件操作综合案例

学习目标

完成文件备份案例

需求分析

需求：有一份账单文件，记录了消费收入的具体记录，内容如下：

name,date,money,type,remarks

周杰轮,2022-01-01,100000,消费,正式

周杰轮,2022-01-02,300000,收入,正式

周杰轮,2022-01-03,100000,消费,测试

林俊节,2022-01-01,300000,收入,正式

林俊节,2022-01-02,100000,消费,测试

林俊节,2022-01-03,100000,消费,正式

林俊节,2022-01-04,100000,消费,测试

林俊节,2022-01-05,500000,收入,正式

张学油,2022-01-01,100000,消费,正式

张学油,2022-01-02,500000,收入,正式

张学油,2022-01-03,900000,收入,测试

王力鸿,2022-01-01,500000,消费,正式

王力鸿,2022-01-02,300000,消费,测试

王力鸿,2022-01-03,950000,收入,正式

刘德滑,2022-01-01,300000,消费,测试

刘德滑,2022-01-02,100000,消费,正式

刘德滑,2022-01-03,300000,消费,正式

同学们可以将内容复制并保存为 bill.txt文件

实现步骤：我们现在要做的就是：

读取文件
将文件写出到bill.txt.bak文件作为备份
同时，将文件内标记为测试的数据行丢弃

实现思路：

open和r模式打开一个文件对象，并读取文件
open和w模式打开另一个文件对象，用于文件写出
for循环内容，判断是否是测试不是测试就write写出，是测试就continue跳过
将2个文件对象均close()

参考代码：

"""
演示文件操作综合案例：文件备份
"""

# 打开文件得到文件对象，准备读取
fr = open("D:/bill.txt", "r", encoding="UTF-8")
# 打开文件得到文件对象，准备写入
fw = open("D:/bill.txt.bak", "w", encoding="UTF-8")
# for循环读取文件
for line in fr:
line = line.strip()
# 判断内容，将满足的内容写出
if line.split(",")[4] == "测试":
continue # continue进入下一次循环，这一次后面的内容就跳过了
# 将内容写出去
fw.write(line)
# 由于前面对内容进行了strip()的操作，所以要手动的写出换行符
fw.write("\n")

# close2个文件对象
fr.close()
fw.close() # 写出文件调用close()会自动flush()