Pandas 显示数据
本节使用的数据为
data/air_quality_no2.csv
,链接为 pandas案例和教程所使用的数据-机器学习文档类资源-CSDN文库
import pandas as pd
import matplotlib.pyplot as plt
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)
air_quality.head()
station_antwerp station_paris station_london
datetime
2019-05-07 02:00:00 NaN NaN 23.0
2019-05-07 03:00:00 50.5 25.0 19.0
2019-05-07 04:00:00 45.0 27.7 19.0
2019-05-07 05:00:00 NaN 50.4 16.0
2019-05-07 06:00:00 NaN 61.9 NaN
index_col
用做索引的列
parse_dates
将日期转换为Timestamp
对象
- 快速显示数据
air_quality.plot()
plt.show()
- 只显示其中某一列(显示
Paris
的数据)
air_quality["station_paris"].plot()
plt.show()
可以用 上一节中的 DataFrame 子集,结合
plot
可以绘制任意数据
plot
支持Series
和DataFrame
数据
- 比较巴黎和伦敦的 N O 2 NO_2 NO2 数据
air_quality.plot.scatter(x="station_london", y="station_paris", alpha=0.5)
plt.show()
除了
line
plot
还有其他的plot
方式
[method_name for method_name in dir(air_quality.plot) if not method_name.startswith("_")]
可以获得其他plot
类型
[‘area’,
‘bar’,
‘barh’,
‘box’,
‘density’,
‘hexbin’,
‘hist’,
‘kde’,
‘line’,
‘pie’,
‘scatter’]
air_quality.plot.box()
plt.plot()
- 将每一列数据单独显示
axs = air_quality.plot.area(figsize=(12, 4), subplots=True)
plt.plot()
记住
.plot.*
可以用于Series
和DataFrames
默认情况下,每一列被显示为line
任何由pandas
创建的plot
都是Matplotlib
对象。
【参考】
How do I create plots in pandas? — pandas 1.5.2 documentation (pydata.org)