一、测试数据
import numpy as np
import pandas as pd
df = pd.DataFrame(data=np.random.randint(0, 100, size=(5, 3)))
df
二、基础聚合函数
2.1、count()函数
df.count()
df.count(axis=1)
2.2、max()与min()函数
df.max()
df.min()
df.max(axis=1)
df.min(axis=1)
2.3、median() 中位数
df.median()
df.median(axis = 1)
2.4、sum() 求和
df.sum()
df.sum(axis=1)
df.values.sum()
2.5、mean() 求平均值
df.mean()
df.mean(axis=1)
2.6、value_counts() 统计元素出现次数
df[1].value_counts()
df[1].value_counts(normalize=True)
2.7、cumsum() 累加
df.cumsum()
2.8、cumprod() 累乘
df.cumprod()
三、高阶函数
- 方差:
- 当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;
- 当数据分布比较集中时,各个数据与平均数的差的平方和较小。
- 因此方差越大,数据的波动越大;方差越小数据的波动就越小
- 标准差
3.1、var()方差
df.var()
df.var(axis = 1)
3.2、std()标准差
df.std()
df.std(axis = 1)
- 协方差
- 两组数值中每对变量的偏差乘积的平均值
- 协方差>0 : 表式两组变量正相关
- 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;
- 协方差<0 : 表式两组变量负相关
- 如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
- 协方差=0 : 表式两组变量不相关
3.3、cov() 协方差
df.cov()
df[0].cov(df[1])
- 相关系数r
- 相关系数 = X与Y的协方差 / (X的标准差 * Y的标准差)
- 相关系数值的范围在-1和+1之间
- r>0为正相关,r<0为负相关。r=0表示不相关
- r 的绝对值越大,相关程度越高
3.4、corr() 所有特征相关系数
df.corr()
df.corrwith(df[2])