【Python进阶（八）】—

🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972

个人介绍: 研一｜统计学｜干货分享
擅长Python、Matlab、R等主流编程软件
累计十余项国家级比赛奖项，参与研究经费10w、40w级横向

文章目录

1 数据框的创建方法
- 1.1 直接定义
- 1.2 导入定义
2 查看行或列
3 引用行或列
4 index操作
5 删除或过滤行/列
6 算数运算
7 大小比较运算
8 统计信息
9 排序
10 导入/导出
11 缺失数据处理
12 分组统计

【Python进阶（八）】——数据框，建议收藏！

该篇文章主要讲解了Python数据结构之DataFrame，针对DataFrame不同数据操作形式及基础统计方法进行实例演示。

1 数据框的创建方法

1.1 直接定义

运行程序：

import numpy as np
import pandas as pd
df1=pd.DataFrame(np.arange(10).reshape(2,5))
df1

运行结果：

1.2 导入定义

运行程序：

import openpyxl 
import pandas as pd
df2=pd.read_excel('1副本1.xlsx')#读取数据
df2.shape#形状
df2=df2[["Time     t（s）","Q"]]#提取对应列
df2.head() #显示前5行

运行结果：

(404, 1300)

2 查看行或列

运行程序：

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"  ##执行多输出

df2.index#查看行名，即行的显式索引-用index属性

df2.index.size #行大小

df2.columns #显示列名
 
df2.columns.size#列大小

    
df2.shape#数据框形状

print("行数为:", df2.shape[0])
print("列数为:", df2.shape[1])

运行结果：

RangeIndex(start=0, stop=404, step=1)
404
Index(['Time     t（s）', 'Q'], dtype='object')
2
(404, 2)
行数为: 404
列数为: 2

3 引用行或列

运行程序：

df2["Time     t（s）"].head()#时间列前几行

df2.Q.head()  #Q列前几行

df2["Time     t（s）"][2]  #时间列第3个

df2.Q[2]#Q列第三个

df2["Time     t（s）"][[2,4]]#时间列第3个和第5个

df2.loc[1,"Time     t（s）"] #显式index，时间列第2个

df2.iloc[1,0] #第2行第1列，隐式index


df2[["Q","Time     t（s）"]].head()#Q和时间列前5行，显式访问非连续元素

运行结果：

0    0.0
1    0.5
2    1.0
3    1.5
4    2.0
Name: Time     t（s）, dtype: float64
0    2579.22
1    2583.97
2    2583.97
3    2588.75
4    2593.44
Name: Q, dtype: float64
1.0
2583.97
2    1.0
4    2.0
Name: Time     t（s）, dtype: float64
0.5
0.5

4 index操作

运行程序：

df2.index#索引状况

df2.columns#列名

df2["Q"].head()#Q列前几行

df2.reindex(index=["1","2","3"],columns=["1","2","3"])#更改显示index方法，调整index顺序
df2.head()#df2前几行
  
df2.reindex(index=[2,3,1], columns=["Q","Time     t（s）"])#更改显示index方法，调整index顺序

df3=df2.reindex(index=[2,3,1], columns=["diagnosis","id","area_mean","MyNewColumn"],fill_value=100)#修改index顺序后，新增列

df3

运行结果：

RangeIndex(start=0, stop=404, step=1)
Index(['Time     t（s）', 'Q'], dtype='object')
0    2579.22
1    2583.97
2    2583.97
3    2588.75
4    2593.44
Name: Q, dtype: float64

5 删除或过滤行/列

运行程序：

import pandas as pd
df2 = pd.read_csv('bc_data.csv')#导入文件

df2=df2[["id","diagnosis","area_mean"]]#提取对应列
df2.head()#显示前几行

df2.drop([2]).head()#删除第三行

df2.head()#显示前几行

运行结果：

运行程序：

import pandas as pd
df2 = pd.read_csv('bc_data.csv')
df2=df2[["id","diagnosis","area_mean"]]
    
df2.drop([3,4], axis=0, inplace=True)#删除第4、5行，》drop不改变数据框本身
df2.head()

运行结果：

运行程序：

import pandas as pd
df2 = pd.read_csv('bc_data.csv')
df2=df2[["id","diagnosis","area_mean"]]
df2.drop(["id","diagnosis"], axis=1, inplace=True)#删除列   
    
df2.head()

运行结果：

运行程序：

import pandas as pd
df2 = pd.read_csv('bc_data.csv')
df2=df2[["id","diagnosis","area_mean"]]
df2.drop(["id","diagnosis"], axis=1, inplace=True)#删除列   
    
df2.head()

运行结果：

运行程序：

import pandas as pd
df2 =pd.read_csv('bc_data.csv')

df2=df2[["id","diagnosis","area_mean"]]
df2[df2.area_mean> 1000].head()#满足对应列值大于1000

运行结果：

运行程序：

df2[df2.area_mean> 1000][["id","diagnosis"]].head()#妈祖对应列大于1000且仅显示对应列

运行结果：

6 算数运算

运行程序：

df4=pd.DataFrame(np.arange(6).reshape(2,3))
df4#矩阵转成数据框

df5=pd.DataFrame(np.arange(10).reshape(2,5)) #矩阵转成数据框
df5

df4+df5#矩阵加法：先补齐显式index（新增索引对用值为NaN），得到相同结构后再进行计算

运行结果：

运行程序：

df6=df4.add(df5,fill_value=10)#默认填充的NAN改为固定值10
df6

s1=pd.Series(np.arange(3))#将数组改变为序列类型
s1


df6-s1#按行广播，先把行改为等长，行内不做循环补齐，只是一行一行计，不会跨行广播

df5=pd.DataFrame(np.arange(10).reshape(2,5))
df5
s1=pd.Series(np.arange(3))
df5-s1

运行结果：

运行程序：

df5=pd.DataFrame(np.arange(10).reshape(2,5))
s1=pd.Series(np.arange(3))
df5.sub(s1,axis=1)#逐行计算：df5-s1
    

    
df5=pd.DataFrame(np.arange(10).reshape(2,5))
s1=pd.Series(np.arange(3))
df5.sub(s1,axis=0)#逐列计算：df5-s1

df7=pd.DataFrame(np.arange(20).reshape(4,5))
df7

df7+2#所有数+2

print(df7)
print("df7.cumsum=",df7.cumsum()) #累计逐行求和

df7

df7.rolling(2).sum() #依次计算相邻两个元素之和，即本元素和上一个元素之和，默认按行

df7.rolling(2,axis=1).sum() #依次计算相邻两个元素之和，即本元素和上一个元素之和，按列

df7.cov()#协方差矩阵

df7.corr()#相关系数矩阵

import pandas as pd
df2 = pd.read_csv('bc_data.csv')
df2=df2[["id","diagnosis","area_mean"]][2:5]
df2.T#数据框的转置

运行结果：

7 大小比较运算

运行程序：

print(df6)

df6>5#判断元素是否大于5

print(s1)

df6>s1 #判断是否大于s1，按行

运行结果：

8 统计信息

运行程序：

import numpy as np
import pandas as pd

df2 = pd.read_csv('bc_data.csv')

df2=df2[["id","diagnosis","area_mean"]]

df2.describe()#描述性统计

dt = df2[df2.diagnosis=='M']#条件过滤，提取满足条件行
dt.head()

dt.tail()#显示最后几行


df2[["area_mean","id"]].head()#条件列前几行

运行结果：

9 排序

运行程序：

df2.head(8)

df2.sort_values(by="area_mean",axis=0,ascending=True).head()#行值排序

df2.sort_index(axis=1).head(3)#列值排序
    

df2.sort_index(axis=0,ascending=False).head(3)#index倒序

运行结果：

10 导入/导出

运行程序：

import os
print(os.getcwd())#查看当前目录

df2.head(3).to_csv("df2.csv")#保存为csv文件

import pandas as pd
df3 = pd.read_csv('df2.csv') #读取文件
df3

df3 = pd.read_csv('df2.csv')#读取文件
df3

df2.head(3).to_excel("df3.xls")#保存为excel文件
df3 = pd.read_excel("df3.xls")#读取excel文件
df3

运行结果：

11 缺失数据处理

运行程序：

df3.empty#判断一个数据框是否有空数据集

np.nan-np.nan +1#nan可以参加运算

np.nan-np.nan

None+1 #【提示】报错信息为TypeError: unsupported operand type(s) for +: 'NoneType' and 'int'，原因分析：None不能参加算数运算。
        #None是Python基础语法中的特殊数据类型，不属于数值类型，不能参加算数运算

运行结果：

False
nan
nan
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
Cell In[28], line 7
      3 np.nan-np.nan +1#nan可以参加运算
      5 np.nan-np.nan
----> 7 None+1

TypeError: unsupported operand type(s) for +: 'NoneType' and 'int'

运行程序：

import pandas as pd
import numpy as np
A=pd.DataFrame(np.array([10,10,20,20]).reshape(2,2),columns=list("ab"),index=list("SW"))
A

list("ab")#列表

B=pd.DataFrame(np.array([1,1,1,2,2,2,3,3,3]).reshape(3,3), columns=list("abc"),index=list("SWT"))
B

C=A+B #先补列索引，并补NaN

C

运行结果：

A.add(B,fill_value=0) #数据框相加，空值补齐NaN

A.add(B,fill_value=A.stack().mean()) #缺失值用均值补齐

A.mean()#按列计算均值

A.stack() #建立多级索引，计算一个数据框中所有index不同列均值

A.stack().mean()

C
C.isnull()#判断数据框每个元素为空值

C.notnull()#判断数据框每个元素不为空值

C.dropna(axis='index')#直接删除缺失值，axis='index'：某行存在缺失值，直接删除改行

C.fillna(0)#用0填补空值

C.fillna(method="ffill")#向前填充

C.fillna(method="bfill",axis=1) #向后填充

12 分组统计

运行程序：

import pandas as pd
df2 = pd.read_csv('bc_data.csv')


df2=df2[["id","diagnosis","area_mean"]]


df2.head()

    
df2.groupby("diagnosis")["area_mean"].mean()#按照diagnosis分组计算area_mean均值

    
df2.groupby("diagnosis")["area_mean"].aggregate(["mean","sum","max",np.median])#按照diagnosis分组计算area_mean均值、求和、最大值、中值

df2.groupby("diagnosis")["area_mean"].aggregate(["mean","sum"]).unstack()#将关系转化为二级索引


    
def myfunc(x):
   x["area_mean"]/=x["area_mean"].sum()
   return x

df2.groupby("diagnosis").apply(myfunc).head()#分组自定义函数计算

运行结果：