基本操作
首先导入鸢尾花数据集用于分析
import numpy as np
from sklearn.datasets import load_iris
iris_data=load_iris()
iris_data
查看数据维度
iris_data.data.shape
获取第一组数据
iris_data.data[0]
获取第一个维度所有取值,作为一维向量
iris_data.data[:,0]
获取第一个维度所有取值,作为二维数组
iris_data.data[:,np.newaxis,0]
计算均值、中位数
可以看到均值和中位数都可以通过调用numpy库中的函数进行求解,关于axis参数的解释https://zhuanlan.zhihu.com/p/115646862
计算众数
先生成数据用于计算
import random
data = [random.choice(range(1,5)) for i in range(100)]
print(data)
#利用stats模块求众数
from scipy import stats
stats.mode(data)
stats.mode(data)[0][0]
离散趋势
数据准备阶段
#离散趋势
import numpy as np
from sklearn.datasets import load_iris
iris_data=load_iris()
feature_l=iris_data.data[:,0]
feature_l
计算极差
feature_l.max()-feature_l.min()
计算四分位数
#四分位数
Q3=np.percentile(feature_l,0.75)
print(Q3)
Q1=np.percentile(feature_l,0.25)
print(Q1)
IQR=Q3-Q1
print(IQR)
箱线图
#箱线图
%matplotlib inline
import matplotlib.pyplot as plt
plt.boxplot(x=feature_l)
plt.ylabel('values of'+iris_data.feature_names[0])
plt.xlabel(iris_data.feature_names[0])
plt.show()