【100天精通Python】Day75:Python机器学习-第一个机器学习小项目_鸾尾花分类项目(上)

news2025/1/18 11:39:30

目录

1 机器学习中的Helloworld _鸾尾花分类项目

2 导入项目所需类库和鸾尾花数据集

2.1 导入类库

2.2 scikit-learn 库介绍 

(1)主要特点:

(2)常见的子模块:

3 导入鸾尾花数据集

3.1 概述数据

3.2 数据维度

3.3 查看数据自身

3.4 统计描述数据

3.5 数据分类分布

4 数据可视化

4.1 单变量图表

4.2 多变量图表


1 机器学习中的Helloworld _鸾尾花分类项目

         鸢尾花分类是机器学习领域中的一个经典示例,也是一个适用于入门级学习者的 "Hello World" 项目。这个项目使用鸢尾花数据集,其中包含了三个不同种类的鸢尾花:Setosa、Versicolor 和 Virginica。这三个亚属分别属于鸢尾属(Iris)中的不同物种。

2 导入项目所需类库和鸾尾花数据集

2.1 导入类库

# 导入鸢尾花数据集
from sklearn import datasets

# 导入数据处理和分割工具
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 导入分类器模型
from sklearn.neighbors import KNeighborsClassifier

# 导入性能评估指标
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# 导入可视化工具
import matplotlib.pyplot as plt
import seaborn as sns

这段代码导入了以下类库和模块:

  • datasets:从 scikit-learn 中导入数据集。
  • train_test_split:用于将数据集分割成训练集和测试集的模块。
  • StandardScaler:用于数据标准化的模块,对特征进行缩放。
  • KNeighborsClassifier:K近邻分类器,用于鸢尾花分类任务。
  • accuracy_scoreclassification_reportconfusion_matrix:用于评估分类器性能的模块。
  • matplotlib.pyplotseaborn:用于可视化数据和评估结果的模块。

请确保在运行这段代码之前已经安装了这些库,可以使用以下命令安装:

pip install scikit-learn matplotlib seaborn

导入这些类库后,你就可以在鸢尾花分类项目中使用它们进行数据处理、建模和评估。

2.2 scikit-learn 库介绍 

   scikit-learn 是一个用于机器学习的 Python 库,提供了丰富的工具和模型,用于数据挖掘和数据分析。它建立在 NumPy、SciPy 和 Matplotlib 基础之上,是机器学习领域中最受欢迎的库之一。

(1)主要特点:

  1. 简单而高效: scikit-learn 提供了简单且一致的接口,易于学习和使用。它支持多种机器学习任务,包括分类、回归、聚类、降维等。

  2. 丰富的文档: 该库具有详细的文档,包括用户指南、教程和示例,使用户能够更好地理解和使用不同的算法和工具。

  3. 广泛的算法: scikit-learn 包含了许多经典和先进的机器学习算法,如支持向量机(SVM)、随机森林、K均值聚类等。

  4. 数据预处理: 提供了丰富的数据预处理工具,包括数据标准化、特征选择、缺失值处理等。

  5. 模型评估: 支持模型性能评估的工具,包括交叉验证、网格搜索调参、性能度量等。

  6. 可扩展性: 允许用户通过创建自定义转换器和评估器来扩展功能,也支持集成其他库。

(2)常见的子模块:

  • datasets 模块: 包含一些常用的数据集,如鸢尾花数据集、手写数字数据集等。

  • model_selection 模块: 提供了用于交叉验证、超参数调优等的工具。

  • preprocessing 模块: 包含数据预处理的工具,如标准化、缩放、编码等。

  • metrics 模块: 包含模型评估的指标,如准确率、精确度、召回率等。

  • ensemble 模块: 包含集成学习方法,如随机森林、梯度提升树等。

  • neighbors 模块: 包含近邻算法,如 K 近邻分类器。

  • svm 模块: 包含支持向量机算法。

  • cluster 模块: 包含聚类算法,如 K 均值聚类、层次聚类等。

  • decomposition 模块: 包含降维算法,如主成分分析(PCA)等。

3 导入鸾尾花数据集

3.1 概述数据

        鸢尾花数据集是由统计学家和生物学家Ronald A. Fisher于1936年创建的,用于展示多变量统计方法。该数据集包含了三个不同种类的鸢尾花(Setosa、Versicolor 和 Virginica)的测量数据。

导入数据集

from sklearn import datasets

# 导入鸢尾花数据集
iris = datasets.load_iris()

# 获取特征数据
X = iris.data

# 获取目标标签
y = iris.target

你可以在 UCI Machine Learning Repository 网站上找到鸢尾花数据集的信息和下载链接:Iris Data Seticon-default.png?t=N7T8https://archive.ics.uci.edu/ml/datasets/iris然后,你可以下载数据集并使用适当的工具进行导入和处理。

3.2 数据维度

查看数据维度

from sklearn import datasets
import pandas as pd

# 导入鸢尾花数据集
iris = datasets.load_iris()

# 获取特征数据
X = iris.data

# 获取目标标签
y = iris.target

# 创建数据框
df = pd.DataFrame(data=X, columns=iris.feature_names)
df['target'] = y

# 查看数据集的维度
print(f"数据集维度:{df.shape}")

 

数据集的特征包括:

  • 萼片长度(Sepal Length)
  • 萼片宽度(Sepal Width)
  • 花瓣长度(Petal Length)
  • 花瓣宽度(Petal Width)

每个特征都以厘米为单位进行测量。

3.3 查看数据自身

首先,让我们看一下数据集的一些样本和它们的标签:

from sklearn import datasets
import pandas as pd

iris = datasets.load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 打印数据集的前几行
print(df.head())

输出: 

3.4 统计描述数据

我们可以使用 pandas 库的 describe() 方法获取关于数据的统计描述信息:

from sklearn import datasets
import pandas as pd

iris = datasets.load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# 打印数据集的前几行
print(df.head())
# 统计描述
print(df.describe())

输出: 

3.5 数据分类分布

查看鸢尾花数据集中每个类别的分布:

from sklearn import datasets
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

iris = datasets.load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

# # 打印数据集的前几行
# print(df.head())
# # 统计描述
# print(df.describe())

# 绘制数据集中每个类别的计数分布
sns.countplot(x='target', data=df)
plt.title('Class Distribution in Iris Dataset')
plt.show()

 

以上步骤可以让你更好地了解鸢尾花数据集,包括特征的维度、样本的分布情况等。这些信息对于进行机器学习任务之前的数据探索和理解非常重要。

4 数据可视化

        通过对数据集的审查,对数据有一个基本的了解。接下来将通过图标来进一步查看数据特征的分布情况和数据不同特征之间的相互关系。

        使用单变量图表可以更好地理解每一个特征属性。

        多变量图表用于理解不同特征属性之间的关系。

4.1 单变量图表

from sklearn import datasets
import pandas as pd

# 导入鸢尾花数据集
iris = datasets.load_iris()

# 获取特征数据
X = iris.data

# 获取目标标签
y = iris.target

# 创建数据框
df = pd.DataFrame(data=X, columns=iris.feature_names)
df['target'] = y

# 查看数据集的维度
print(f"数据集维度:{df.shape}")

import matplotlib.pyplot as plt
import seaborn as sns

# 设置图形样式
sns.set(style="whitegrid")

# 创建单变量图表
plt.figure(figsize=(12, 6))

# 绘制花萼长度的直方图
plt.subplot(2, 2, 1)
sns.histplot(df['sepal length (cm)'], kde=True, color='skyblue')
plt.title('Distribution of Sepal Length')

# 绘制花萼宽度的直方图
plt.subplot(2, 2, 2)
sns.histplot(df['sepal width (cm)'], kde=True, color='salmon')
plt.title('Distribution of Sepal Width')

# 绘制花瓣长度的直方图
plt.subplot(2, 2, 3)
sns.histplot(df['petal length (cm)'], kde=True, color='green')
plt.title('Distribution of Petal Length')

# 绘制花瓣宽度的直方图
plt.subplot(2, 2, 4)
sns.histplot(df['petal width (cm)'], kde=True, color='orange')
plt.title('Distribution of Petal Width')

plt.tight_layout()
plt.show()


4.2 多变量图表

from sklearn import datasets
import pandas as pd

# 导入鸢尾花数据集
iris = datasets.load_iris()

# 获取特征数据
X = iris.data

# 获取目标标签
y = iris.target

# 创建数据框
df = pd.DataFrame(data=X, columns=iris.feature_names)
df['target'] = y

# 查看数据集的维度
print(f"数据集维度:{df.shape}")

import matplotlib.pyplot as plt
import seaborn as sns



# 设置图形样式
sns.set(style="whitegrid")

# 创建多变量图表
plt.figure(figsize=(12, 6))

# 绘制花萼长度和宽度的散点图
plt.subplot(1, 2, 1)
sns.scatterplot(x='sepal length (cm)', y='sepal width (cm)', hue='target', data=df, palette='viridis')
plt.title('Scatter Plot of Sepal Length vs. Sepal Width')

# 绘制花瓣长度和宽度的散点图
plt.subplot(1, 2, 2)
sns.scatterplot(x='petal length (cm)', y='petal width (cm)', hue='target', data=df, palette='viridis')
plt.title('Scatter Plot of Petal Length vs. Petal Width')

plt.tight_layout()
plt.show()

        这些代码使用了 seaborn 库,通过直方图展示了花萼和花瓣的长度和宽度的分布情况,并使用散点图展示了花萼长度和宽度以及花瓣长度和宽度之间的关系。这些可视化图表可以帮助你更好地了解数据集的特征和类别之间的差异。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1287155.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【原创】提升MybatisPlus分页便捷性,制作一个属于自己的分页插件,让代码更加优雅

前言 MybatisPlus的分页插件有一点非常不好,就是要传入一个IPage,别看这个IPage没什么大不了的,最多多写一两行代码,可这带来一个问题,即使用xml的查询没法直接取对象里面变量的值了,得Param指定xml中的变…

CISP攻防界四大顶流,无门槛高收益,错过太可惜了

根据《2022年中国网络安全行业白皮书》中显示,2022年我国网安人才缺口达到了50万人左右,2023年只多不减。其中核心技术人才尤其稀缺。 随着国家对网络安全的重视,企业对于有网络安全专业背景和相关资质的人才需求越来越大,而攻防…

技术面试时,被问及职业规划,怎么回答才加分?

对于职场人士来说,但凡涉及到面试,90%以上的概率你会被问到职业规划。而作为一个技术人士,本身的表达能力就比硬实力薄弱一些。很多人一上来的回答就是:先做技术岗,阅历深点了做管理。这样的回答,往往前脚刚…

Linux(15):SELinux 初探

什么是 SELinux SELinux 是【Security Enhanced Linux】的缩写,字面上的意义就是安全强化的 Linux。 SELinux 是由美国国家安全局(NSA)开发的,开发原因:因为很多企业界发现,通常系统出现问题的原因大部分都在于【内部员工的资源…

关于队列的简单理解

1.队列(Queue) 1.1 关于队列 队列 :只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表, 队列具有先进先出 FIFO(First In First Out)的操作特性(队列是个接口); 入队列&#x…

解密IIS服务器API跨域问题的终极解决方案

在当今数字化时代,API已成为现代应用程序的核心组件。然而,当你使用IIS(Internet Information Services)服务器提供API时,你可能会遇到一个常见的挑战:API跨域问题。这个问题经常困扰着开发人员&#xff0c…

理解依赖注入

1 回顾Spring IoC容器 1.1 Spring IoC容器 Web应用程序由大量的程序组件组成,这些组件一起工作完成业务逻辑的执行。 这些组件通常是一个依赖另一个,互相协作实现所需功能。 Spring提供容器,也就是IoC容器,来管理这些组件&…

【隐私计算】安全三方计算(3PC)的加法和乘法计算协议

ABY3中采用replicated secret sharing(复制秘密分享)机制,即2-out-of-3秘密分享,三个参与方的每一方都拥有share中的两份。下面来看一下这样做有什么好处。 2-out-of-3秘密分享 有 x , y x, y x,y两个操作数,先进行秘…

rcssci包横空出世,限制性立方样条全自动切点靓图

z致敬前辈:R语言统计与绘图 仅以本篇2800字真文一并纪念工作11年来潦倒的收入、间歇的鸡血、憋屈的倔强、幽暗的过往和心中的远方。 1 缘起 Restricted cubic splines (RCS)近年来火遍各类SCI期刊,初次接触的小伙伴们可以去搜索笔者前期的2篇RCS文章补充一下基础知…

Android wifi disable分析

总体流程 老套路基本不变: WifiSettings 通过 WifiManager 下cmd 给 WifiServiceWifiService 收到cmd后,先完成一部分列行检查(如UID的权限、是否airPlayMode等等),之后将cmd下发给到WifiControllerWifiController 收…

ORACLE数据库实验总集 实验三 Oracle数据库物理存储结构管理

一、实验目的 (1)掌握 Oracle数据库数据文件的管理 (2)掌握 Oracle数据库控制文件的管理 (3)掌握 Oracle数据库重做日志文件的管理 (4)掌握 Oracle数据库归档管理, 二、…

周周爱学习之Redis重点总结

redis重点总结 在正常的业务流程中,用户发送请求,然后到缓存中查询数据。如果缓存中不存在数据的话,就会去数据库查询数据。数据库中有的话,就会更新缓存然后返回数据,数据库中也没有的话就会给用户返回一个空。 1.缓…

springboot整合阿里云oss上传图片,解决无法预览的问题

1.前置工作 需要申请一个域名,需要备案,对接这个踩了不少坑,写的很详细,guan fang tong guo bu 了,各位参考别的博客结合看吧,主要是域名配置,还有看service里面的实现 2.进入控制台 bucket列表 选择bucket 选择域名管理 复制你申请的域名,比如域名:abkhkajs…

苹果iOS免签应用打包,书签类顶部域名如何隐藏?

在iOS开发中,由于App Store的严格审核流程和各种政策限制,免签打包成为一些企业和开发人员选择的方案,以便更灵活地分发iOS应用。在这个过程中,许多开发者希望隐藏或最小化安装过程中顶部域名的显示,以提供更加原生的用…

家用洗地机哪个品牌最好最实用?热门洗地机测评

随着社会的不断进步,我们逐渐意识到日常生活中的许多任务需要消耗大量的时间和体力。一个典型的例子是卫生清洁工作,尤其是在大面积地区,如大型建筑物、商场或工厂。这些任务不仅繁琐,还可能影响生活质量和工作效率。为了应对这一…

Hadoop学习笔记(HDP)-Part.06 安装OracleJDK

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …

给腰不好的朋友设计和制作一个捡羽毛球的辅助装置

我们知道羽毛球运动不挑场地(有防风塑料球和业余使用的网子可以购买),不需要专业器材和场地,不需要跑多远就可以开展,非常方便普通人锻炼。 而且针对现在的不良生活方式:久坐,看电脑手机&#…

unity 2d入门飞翔小鸟按钮点击功能且场景切换(二)

1、素材包获取 链接: https://pan.baidu.com/s/1KgCtQ_7wt2mlbGbIaMVvmw 提取码: xxh8 2、将素材全部拉进去 3、创建新的场景 并且将场景添加到build settings里面 4、脚本 using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityE…

JOSEF 单相电压继电器 WY-31A1 DC220V 过压动作,导轨安装

系列型号 单相 JY-45A1电压继电器;JY-45B1电压继电器; JY-45C1电压继电器;JY-45D1电压继电器; JY-41A1电压继电器;JY-41B1电压继电器; JY-41C1电压继电器;JY-41D1电压继电器; …

计算机毕业设计 基于SpringBoot的大学生双创竞赛项目申报与路演管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…