【Pytorch】新手入门：基于sklearn实现鸢尾花数据集的加载

【Pytorch】新手入门：基于sklearn实现鸢尾花数据集的加载

在这里插入图片描述

🌈 个人主页：高斯小哥
🔥 高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订阅和支持~
💡 创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）

🌵文章目录🌵

🌸一、鸢尾花数据集简介
📚二、基于Python加载鸢尾花数据集
🎨三、探索鸢尾花数据集
🔍四、使用鸢尾花数据集进行模型训练
🛠️五、优化模型性能
🛠️六、使用鸢尾花数据集进行模型选择
📚七、总结与进一步学习

🌸一、鸢尾花数据集简介

鸢（yuān）尾花数据集（Iris dataset）是机器学习和统计学中常用的一个经典数据集，主要用于分类任务。它包含了三类不同的鸢尾花（Setosa、Versicolour和Virginica）的四个特征，分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。这些特征都是连续型数值变量，使得它非常适合用于演示和测试分类算法。

这个数据集非常受欢迎，因为它的简单性和易理解性。同时，由于其特征的多样性和类别之间的可区分性，它成为了很多机器学习初学者和研究者的首选数据集。

📚二、基于Python加载鸢尾花数据集

在Python中，我们可以使用sklearn库中的datasets模块来轻松加载鸢尾花数据集。sklearn是一个强大的机器学习库，提供了大量的数据集和工具，方便我们进行机器学习和数据分析。

下面是一个简单的示例代码，演示如何加载鸢尾花数据集：

from sklearn import datasets

# 加载鸢尾花数据集
iris = datasets.load_iris()

# 打印数据集描述
# print(iris.DESCR) # 可选

# 获取特征数据
X = iris.data

# 获取目标标签
y = iris.target

# 打印特征数据的前5行
print("特征数据前5行:\n", X[:5])

# 打印目标标签的前5个
print("目标标签前5个:\n", y[:5])

# 获取特征名称
feature_names = iris.feature_names
print("特征名称:\n", feature_names)

# 获取目标标签的名称
target_names = iris.target_names
print("目标标签名称:\n", target_names)

输出：

特征数据前5行:
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
目标标签前5个:
 [0 0 0 0 0]
特征名称:
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
目标标签名称:
 ['setosa' 'versicolor' 'virginica']

在这个例子中，我们首先导入了sklearn.datasets模块，然后调用load_iris()函数加载鸢尾花数据集。加载后的数据集存储在iris对象中，我们可以通过这个对象访问数据集的各个部分。

通过iris.data，我们可以获取特征数据，它是一个形状为(150, 4)的NumPy数组，其中每一行代表一个样本，每一列代表一个特征。

通过iris.target，我们可以获取目标标签，它是一个长度为150的一维数组，其中每个元素表示对应样本的类别标签（0、1或2）。

此外，iris.DESCR包含了数据集的详细描述，iris.feature_names包含了特征名称，iris.target_names包含了目标标签的名称。

🎨三、探索鸢尾花数据集

在加载了鸢尾花数据集之后，我们可以进行一些基本的探索性分析，以了解数据的分布和特性。

例如，我们可以使用matplotlib库来绘制特征之间的散点图，观察不同类别之间的分布关系：

# 导入必要的库
import matplotlib.pyplot as plt  # 导入matplotlib库，用于绘图
import seaborn as sns             # 导入seaborn库，基于matplotlib的图形可视化Python库
import pandas as pd               # 导入pandas库，用于数据处理和分析
from sklearn import datasets      # 从sklearn库中导入datasets模块，用于加载数据集

# 加载鸢尾花数据集
iris = datasets.load_iris()  # 使用datasets模块的load_iris函数加载鸢尾花数据集

# 将特征和标签转换为DataFrame
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)  # 将特征数据转换为pandas的DataFrame，并设置列名为鸢尾花的特征名称
df_iris['target'] = pd.Series(iris.target)  # 将标签数据转换为pandas的Series，并添加到DataFrame中作为新列'target'

# 将标签转换为类别名称，以便在图中显示
df_iris['target'] = df_iris['target'].map({0: iris.target_names[0], 1: iris.target_names[1], 2: iris.target_names[2]})  
# 使用map函数将标签（整数）映射为实际的类别名称（字符串），使得在图中显示时更加直观

# 绘制特征之间的散点图
sns.pairplot(df_iris, hue="target", palette="husl", vars=iris.feature_names, diag_kind="kde")  
# 使用seaborn的pairplot函数绘制特征之间的散点图
# hue参数指定根据哪一列对数据进行着色，这里根据'target'列（即类别）
# palette参数指定着色方案，这里使用"husl"方案
# vars参数指定要绘制的特征列，这里使用iris数据集中的所有特征名称
# diag_kind参数指定对角线子图的类型，这里使用"kde"表示核密度估计图

plt.show()  # 显示绘制的图形

以上代码使用Python中的matplotlib和seaborn库来可视化鸢尾花数据集的特征和标签。鸢尾花数据集是一个经典的小型数据集，常用于分类算法的入门和测试。它包含了三类鸢尾花（Setosa、Versicolour、Virginica）的四个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）的测量值以及对应的类别标签。

首先，代码通过datasets.load_iris()函数加载了鸢尾花数据集，并将特征和标签转换为pandas DataFrame格式，以便后续的数据处理和可视化。然后，代码将标签（整数形式）转换为实际的类别名称，使得在图中显示时更加直观。

接下来，代码使用seaborn的pairplot函数绘制了特征之间的散点图，并根据类别标签对点进行着色。通过对角线子图展示的是每个特征的核密度估计图，这有助于了解每个特征的分布情况。

最后，通过调用plt.show()函数，代码显示了绘制的图形：

在这里插入图片描述

🔍四、使用鸢尾花数据集进行模型训练

加载和探索了鸢尾花数据集之后，我们可以开始使用它来进行模型的训练和测试。以下是一个简单的例子，展示如何使用鸢尾花数据集训练一个支持向量机（SVM）分类器：

from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn import datasets

# 加载鸢尾花数据集
iris = datasets.load_iris()

# 打印数据集描述
# print(iris.DESCR) # 可选

# 获取特征数据
X = iris.data

# 获取目标标签
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建SVM分类器
clf = svm.SVC(kernel='linear') # 线性核函数

# 训练模型
clf.fit(X_train, y_train)

# 预测测试集
y_pred = clf.predict(X_test)

# 打印分类报告
print(classification_report(y_test, y_pred, target_names=iris.target_names))

输出：

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        19
  versicolor       1.00      1.00      1.00        13
   virginica       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45