1.什么是pandans
Pandas 是一个强大的 Python 库,主要用于数据处理和数据分析。它为 Python 提供了高效的数据结构和数据分析工具,使得数据处理变得更加简单和直观。
2.什么事csv文件
CSV 文件(Comma-Separated Values,逗号分隔值文件)是一种常用的数据存储格式,用于存储表格数据。CSV 文件通常包含一系列记录,每个记录由字段组成,字段之间通过逗号或其他字符分隔。每行通常代表一条记录,而每个字段则代表记录中的某个属性或值。
3.pandans读写csv文件
csv文件:demo.csv
10,9,13
8,8,8
13,10,11
6,7,20
3.1.读取文件
import pandas as pd
# 指定 CSV 文件的路径
file_path = r'./demo.csv'
data = pd.read_csv(file_path)
3.2.预览前几行数据
import pandas as pd
# 指定 CSV 文件的路径
file_path = r'./demo.csv'
# 使用 pandas 的 read_csv() 函数读取 CSV 文件
data = pd.read_csv(file_path)
# 显示前几行数据以确认是否正确读取
print(data.head())
3.3.设置读取数据不包含表头
import pandas as pd
# 指定 CSV 文件的路径
file_path = r'./demo.csv'
# 使用 pandas 的 read_csv() 函数读取 CSV 文件
data = pd.read_csv(file_path, header=None)
# 显示前几行数据以确认是否正确读取
print(data.head())
3.4.设置写入数据不包含索引、表头
import pandas as pd
# 指定 CSV 文件的路径
file_path = r'./demo.csv'
# 使用 pandas 的 read_csv() 函数读取 CSV 文件
data = pd.read_csv(file_path, header=None)
data.to_csv("./res.csv", index=False)
3.5.按照单一字段排序
import pandas as pd
# 指定 CSV 文件的路径
file_path = r'./demo.csv'
# 使用 pandas 的 read_csv() 函数读取 CSV 文件
data = pd.read_csv(file_path, header=None)
# 显示前几行数据以确认是否正确读取
print(data.head())
data_sorted = data.sort_values(by=[0])
data_sorted.to_csv("./res-sorted.csv", index=False, header=None)
3.6.按照多个字段排序
demo.csv:
10,9,13
10,6,9
8,8,8
13,10,11
6,7,20
import pandas as pd
# 指定 CSV 文件的路径
file_path = r'./demo.csv'
# 使用 pandas 的 read_csv() 函数读取 CSV 文件
data = pd.read_csv(file_path, header=None)
# 显示前几行数据以确认是否正确读取
print(data.head())
data_sorted = data.sort_values(by=[0, 2])
data_sorted.to_csv("./res-sorted.csv", index=False, header=None)
3.7.聚合统计
import pandas as pd
# 指定 CSV 文件的路径
file_path = r'./demo.csv'
# 使用 pandas 的 read_csv() 函数读取 CSV 文件
data = pd.read_csv(file_path, header=None)
# 显示前几行数据以确认是否正确读取
print(data.head())
print(data.groupby([0]).sum())
4.结语
pandans是一个非常强大的二维表格处理库,数据量在1GB以下时,处理分析起来很方便;如果数据量较大,可以将数据导入到mysql、hive等数据库进行分析。