文章目录
- 前期准备
- 1. 使用绝对路径读取本地Excel数据
- 2. 查看数据前三行
- 3. 查看每一列数据缺失值情况
- 4. 提取日期列含有空值的行
- 5. 输出每列缺失值具体行的情况
- 6. 删除所有缺失值的行
- 7. 绘制收盘价的折线图
- 8. 同时绘制开盘价与收盘价
- 9. 绘制涨跌的直方图
- 10. 让直方图给更细致
本章使用的是一个股票的数据集,但是只进行一些基础的操作,数据导入,处理缺失值,查看缺失值的具体情况,绘制图像,在同一个图中绘制两个图,调整绘图的风格
前期准备
导包
import pandas as pd
import numpy as np
# 绘图包
from matplotlib import pyplot as plt
设置绘图的风格和字体的大小,以及显示能中文
plt.style.use('seaborn-darkgrid') # 绘图的风格
plt.rc('font',size=6) # 设置字体和字体大小
plt.rc('figure',figsize=(4,3),dpi=150) # 设置画布的比例,清晰图
# 使图形中的中文正常编码显示
plt.rcParams['font.sans-serif'] = ['SimHei']
# 使坐标轴刻度表签正常显示正负号
plt.rcParams['axes.unicode_minus'] = False
1. 使用绝对路径读取本地Excel数据
注意绝对路径的斜杠和反斜杠的关系
数据集在我的博客资源里面可以找
df = pd.read_excel(r'D:\Python work space\jupyter\Pandas必刷100道题\600000.SH.xls')
df
2. 查看数据前三行
使用head()查看前3行
同样我们也可以使用切片进行查看
# 查看数据前三行
df.head(3)
# 使用切片查看前3行
df.iloc[:3,:]
3. 查看每一列数据缺失值情况
isnull()函数会判断DataFrame中每一个元素是否是空值,如果是空值返回True,否则返回False,然后对每一列求和,结果等于多少就代表空值有多少个
# 查看每一列数据缺失值情况
df.isnull().sum()
4. 提取日期列含有空值的行
关键点布尔值索引
df[df["日期"].isnull()]
5. 输出每列缺失值具体行的情况
因为是每一列,所以要分列逐一进行判断
for columname in df.columns:
loc = df[columname][df[columname].isnull().values].index.tolist()
print(f"列名:{columname},第{loc}行位置有缺失值")
6. 删除所有缺失值的行
删除空值:dropna
函数
# 删除所有缺失值的行
# axis=0 表示删除行,axis=0表示删除列
# how='any' 删除的条件
# inplace=True是否改变原数据,默认不改变
df.dropna(axis=0,how='any',inplace=True)
7. 绘制收盘价的折线图
折线图:plot()
有两种绘制方法,一种是pandas直接进行绘制,另一种是使用matplotlib接受参数绘制
# 绘制收盘价的折线图
# 方式1
df['前收盘价(元)'].plot()
# 方式2
plt.plot(df['前收盘价(元)'])
8. 同时绘制开盘价与收盘价
这个主要就是绘在同一张图中绘两个折线图
df[['开盘价(元)','收盘价(元)']].plot()
9. 绘制涨跌的直方图
直方图又叫频率分布直方图,是统计在一个区间内,数据出现的次数
默认的会将数据分为10组
10. 让直方图给更细致
调整分组的大小,让直方图绘制的更加细致
调整分组的数量bins=30
将分组调整为30组
plt.hist(df['涨跌幅(%)'],bins=30)