如何用 Python 处理和操作 CSV 文件？

news2026/2/13 19:38:48

CSV（Comma-Separated Values）文件是一种常见的数据存储格式，广泛用于数据交换和轻量级数据存储。CSV文件以纯文本格式存储表格数据，每一行代表一条记录，字段之间用逗号（或其他分隔符）分隔。Python提供了多种方法来处理和操作CSV文件，常用的库包括内置的csv库和第三方库如pandas。

1. Python的`csv`库

Python内置的csv库是处理CSV文件的标准库，提供了基本的读写功能。以下是csv库的主要功能和使用示例。

1.1 读取CSV文件

读取CSV文件是数据处理的第一步。csv库提供了csv.reader函数，它将CSV文件解析为行的迭代器。每一行数据都会被解析为一个列表，其中的元素对应CSV文件中的字段。

示例：

import csv

# 打开CSV文件
with open('data.csv', mode='r', newline='', encoding='utf-8') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

在这个例子中，csv.reader将文件逐行读取，并将每行数据作为一个列表返回。newline=''参数用于避免在Windows系统上出现多余的空行，encoding='utf-8'保证了对多语言字符集的支持。

1.2 写入CSV文件

csv库的csv.writer函数可以将数据写入CSV文件。它接受一个文件对象，并提供了writerow和writerows方法来写入单行或多行数据。

示例：

import csv

data = [
    ['Name', 'Age', 'City'],
    ['Alice', '30', 'New York'],
    ['Bob', '25', 'Los Angeles']
]

# 打开CSV文件
with open('output.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerows(data)

在这个例子中，writer.writerows(data)方法将一个包含多行数据的列表写入CSV文件。writerow方法则可以写入单行数据。

1.3 使用字典操作CSV文件

除了列表形式的读写，csv库还支持使用字典（dict)形式操作CSV数据。这种方式非常适合表头固定且需要按字段名操作数据的场景。

示例：

import csv

# 读取CSV文件
with open('data.csv', mode='r', newline='', encoding='utf-8') as file:
    reader = csv.DictReader(file)
    for row in reader:
        print(row['Name'], row['Age'])
        
# 写入CSV文件
fieldnames = ['Name', 'Age', 'City']
data = [
    {'Name': 'Alice', 'Age': '30', 'City': 'New York'},
    {'Name': 'Bob', 'Age': '25', 'City': 'Los Angeles'}
]

with open('output.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.DictWriter(file, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerows(data)

在读操作中，DictReader将每行数据解析为一个字典，键为表头，值为相应的字段值。在写操作中，DictWriter要求提供一个fieldnames参数，用于指定CSV文件的表头，并使用writeheader方法写入表头。

2. 使用Pandas库操作CSV文件

pandas是Python中的一个强大的数据处理库，它提供了更加高级和灵活的CSV文件操作功能，尤其适合数据分析和数据科学领域。

2.1 读取CSV文件

pandas提供了read_csv函数来读取CSV文件，并将其加载为一个DataFrame对象。DataFrame是一种数据结构，类似于电子表格，它有行和列，并支持各种数据操作。

示例：

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())

read_csv函数自动处理了数据类型推断、缺失值等问题，还支持多种选项，如指定分隔符、解析日期、选择特定列等。

2.2 写入CSV文件

写入CSV文件同样非常简单。pandas提供了DataFrame.to_csv方法，将DataFrame导出为CSV文件。

示例：

df.to_csv('output.csv', index=False)

这里使用了index=False参数来避免将行索引写入文件。to_csv方法还有许多其他参数，如指定分隔符、处理缺失值等。

2.3 数据处理与操作

pandas的强大之处在于其数据操作功能。常见的操作包括数据过滤、分组、汇总、合并等。

示例：

# 过滤数据
filtered_df = df[df['Age'] > 25]

# 分组汇总
grouped = df.groupby('City')['Age'].mean()

# 合并数据
other_df = pd.read_csv('other_data.csv')
merged_df = pd.merge(df, other_df, on='Name')

这些操作通过链式调用可以方便地组合在一起，形成强大的数据处理管道。

3. 处理大数据和高效读写

当处理大文件或大数据集时，效率成为一个重要问题。以下是一些提高CSV文件处理效率的方法：

3.1 分块读取

pandas的read_csv函数支持分块读取文件。通过指定chunksize参数，可以一次读取文件的一部分。

示例：

chunk_size = 10000
for chunk in pd.read_csv('large_data.csv', chunksize=chunk_size):
    process(chunk)  # 自定义的处理函数

分块读取可以避免内存不足的问题，适合处理大型文件。

3.2 使用Dask库

Dask是一个并行计算库，它可以处理大于内存的数据集。Dask的DataFrame API与pandas类似，但支持并行操作和分布式计算。

示例：

import dask.dataframe as dd

ddf = dd.read_csv('large_data.csv')
result = ddf.groupby('City').Age.mean().compute()

在Dask中，操作是惰性执行的，只有调用compute时才会真正计算结果。

3.3 矢量化操作

在处理大量数据时，尽量避免使用循环而使用矢量化操作。pandas和numpy都支持矢量化，这能够显著提高处理速度。

示例：

df['New_Column'] = df['Age'] * 2

这种操作比遍历每行数据更高效。

4. 处理异常和错误

在实际应用中，CSV文件可能会包含异常数据或错误，处理这些情况对于保证数据质量非常重要。

4.1 处理缺失值

缺失值是数据处理中常见的问题。pandas提供了isnull和fillna方法来检测和处理缺失值。

示例：

# 检查缺失值
missing_data = df.isnull().sum()

# 填充缺失值
df.fillna({'Age': df['Age'].mean(), 'City': 'Unknown'}, inplace=True)

4.2 处理数据类型问题

有时CSV文件中的数据类型不匹配，可能导致数据处理时出错。可以使用pandas的astype方法进行数据类型转换。

示例：

df['Age'] = df['Age'].astype(int)

CSV文件是数据存储和交换中的基本格式之一。Python提供了多种处理CSV文件的方法，从基础的csv库到功能强大的pandas库，再到支持大数据处理的Dask库。选择合适的方法取决于具体的应用场景和数据规模。在处理数据时，注意数据的质量和效率问题，采用合理的数据清理和优化方法，能够有效提升数据处理的质量和速度。