Python大型CSV文件处理
- 1、背景描述
- 2、大型CSV文件处理方式
1、背景描述
Pandas在读取大型文件时,通常会遇到内存不足的问题。例如,在某次处理大于1GB的CSV文件时,出现了如下错误:
那么,针对这种情况,我们应该如何处理呢?本文将提供一些常见的Python大型CSV文件处理方式
2、大型CSV文件处理方式
Pandas提供了一些方法参数可以解决这种问题,使得读取大型CSV文件变得更加容易
2.1、使用Pandas提供的API参数
可以使用usecols
参数加载部分列数据,避免全列读取;使用dtype
参数读取数据时转换类型,减少内存占用
import numpy as np
import pandas as pd
# 使用usecols加载部分列数据,避免全列读取;使用dtype转换类型读取数据,减少内存占用
data = pd.read_csv(file, usecols=usecols, dtype=dtype)
print(len(data))
print(data.head().to_string())
2.2、分批分块读取
可以使用chunksize
参数将数据分成多个块读取,每个数据块包含chunksize行数据,以免发生内存不足的问题
# 每次读取行数为1000
# pd.read_csv()返回迭代器类型:<class 'pandas.io.parsers.readers.TextFileReader'>
for chunk in pd.read_csv(file, chunksize=1000, iterator=True):
print(type(chunk)) # <class 'pandas.core.frame.DataFrame'>
# 每次处理1000行数据
print(len(chunk))
print(chunk.head().to_string())
2.3、使用C引擎
C引擎相较于默认的Python引擎更快
start = time.perf_counter()
data = pd.read_csv(file, dtype=str, engine="c")
print(len(data))
print(data.head().to_string())
print(time.perf_counter() - start) # 75.78744679992087
当然,也可以使用第三方库进行提速。Dask是Pandas官方推荐使用的一个用于并行和分布式计算大级别数据的Python库,Dask将数据分成多个分区并行计算,Dask DataFrame中的每个分区都是一个Pandas DataFrame,compute()
会将Dask DataFrame中的所有底层分区合并为一个Pandas DataFrame。另外,Dask API遵循上游Pandas API
2.4、使用Dask库
Dask允许我们处理大于可用单台计算机RAM的数据,Dask可对TB级数据集进行分布式计算
Dask官方文档:https://docs.dask.org/en/latest/
import dask.dataframe as dd
start = time.perf_counter()
# 返回类型:<class 'dask_expr._collection.DataFrame'>
data = dd.read_csv(file, dtype=str)
print(len(data))
print(data.head().to_string())
print(time.perf_counter() - start) # 52.351866899989545
更多关于Dask的安装和使用见:https://www.gairuo.com/p/python-dask