3. 读取指定列
针对只需要读取数据中的某一列或多列的情况, |
|
|
上面,我们学习了读取 "payment" 和 "items_count" 这两列的数据。
当然,Pandas也提供了to_csv()
函数,用于将DataFrame转换为CSV数据。
# 导入pandas模块,并以"pd"为该模块的简写
import pandas as pd
# 使用pd.read_csv()函数和usecols参数
# 读取路径为 "/Users/yequ/电商数据清洗.csv" 的CSV文件里的"payment"和"items_count"这两列中的数据
# 并将结果赋值给变量data
data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=["payment","items_count"])
# 将data保存到指定路径
data.to_csv("/Users/yequ/电商数据清洗2.csv")
ps:对DataFrame对象使用to_csv()函数,将文件保存路径作为参数,即可将DataFrame保存到指定的文件路径,并存储为后缀名是.csv的文件。
如图,我们在调用to_csv()
若只设置路径参数,会将行索引信息写入CSV文件的第1列。
to_csv()
函数和read_csv()
函数类似,除了路径这个参数外,还有大量可选参数可以选用。
对于to_csv()
函数,我们再简单了解2个可选参数。
对于前面的情况,我们通过设置参数index=False
,这样就不会将行索引信息写入第一列。
# 导入pandas模块,并以"pd"为该模块的简写 import pandas as pd # 使用pd.read_csv()函数和usecols参数 # 读取路径为 "/Users/yequ/电商数据清洗.csv" 的CSV文件里的"payment"和"items_count"这两列中的数据 # 并将结果赋值给变量data data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=["payment","items_count"]) # 将data保存到指定路径,并不将行索引信息写入第一列 data.to_csv("/Users/yequ/电商数据清洗2.csv",index=False) |
同样的道理,使用to_csv()函数,也有可能因为中文字符的编码问题,造成生成的csv文件乱码。
此时,我们可以将参数encoding设置为"utf-8-sig"。
格式:encoding="utf-8-sig"
示例代码: import pandas as pd data = pd.read_csv("/Users/yequ/电商数据清洗.csv", usecols=["payment","items_count"]) # 将data保存到指定路径 data.to_csv("/Users/yequ/电商数据清洗2.csv",encoding="utf-8-sig") |
保存CSV文件
Pandas也提供了to_csv()函数,用于将DataFrame转换为CSV数据。 |
|
与读取CSV文件相似, Excel文件的读取也差不多。