python实战(一)——iris鸢尾花数据集分类

news2024/11/26 11:16:28

一、任务背景

        本文是python实战系列专栏的第一篇文章,我们将从分类开始由浅入深逐步学习如何使用python完成常规的机器学习/深度学习任务。iris数据集是经典的机器学习入门数据集,许多分类任务教程都会以这个数据集作为示例,它的数据量是150条,由三种不同品种的鸢尾花数据构成,每种鸢尾花各50条数据。显然,这是一个多分类(三分类)任务,我们将从头开始进行探索性数据分析及机器学习建模。

二、机器学习建模流程

1、探索性数据分析

        探索性数据分析是建模的第一步,尤其是机器学习任务。尽管这是一个很标准、很干净的数据集,我们还是按照惯例对它进行基础的分析(特征列、空值、各列取值范围等),以对该数据集有个初步的了解和认知。

(1)数据集读取

        由于iris数据集实在太经典,所以很多python库都内置了该数据集的调用代码,例如在scikit-learn中可以这样调用:

from sklearn import datasets

# 加载iris数据集
iris = datasets.load_iris()
# 获取特征数据
iris_X = iris.data
# 获取目标(类别)数据
iris_y = iris.target

        但是实际应用中,我们更多的是读取本地文件,所以这里笔者从Kaggle下载了iris数据文件并本地读取:

# 读取csv文件数据
path = './data/iris.csv'
df = pd.read_csv(path)
print('数据量:', len(df))
print(df.head())

        结果如下,可见该数据集总共有150行,6列,其中一列是Id,在我们这次任务中作用不大,后面会去掉:

        根据官方的介绍,各列的含义如下:

  • SepalLengthCm:花萼长度,即花萼的最长部分,单位是厘米。
  • SepalWidthCm:花萼宽度,即花萼的最宽部分,单位是厘米。
  • PetalLengthCm:花瓣长度,即花瓣的最长部分,单位是厘米。
  • PetalWidth Cm:花瓣宽度,即花瓣的最宽部分,单位是厘米。

        而标签列Species中的类别有:

  • Iris setosa:山鸢尾
  • Iris virginica:变色鸢尾
  • Iris versicolor:维吉尼亚鸢尾

(2)查看各列中是否有空值

        去空值是数据处理阶段的重要步骤,存在空值的数据会导致后面的特征工程或者建模报错。下面的代码逐列统计是否有空值:

print('空值数量统计:')
print(df.isnull().sum())

        结果如下,每一列都很干净:

(3)简要统计各列的数据数值分布

        统计各列的数据分布主要目的是看看每一列各自以及相互之间的数据差异。如果某一列的数据取值之间非常接近(例如一个极端情况是整一列的取值都是1),那么可能这一列对于建模来说是没有意义的,可以去掉。同时,分位数也能帮我们判断当前列数据中是否存在离群点,可以考虑去掉离群点。此外,如果列和列之间取值范围差得较大(比如一列的取值范围是0-1,另一列是100-200)就需要进行归一化/标准化操作,量纲差异太大会导致模型学习过程中对特征重要性的判别出现误差。这里我们选择不对原始数据进行归一化或者标准化,一是各列之间的量纲接近,二是我们后面用的是决策树模型建模,决策树不需要归一化/标准化操作。

print(df.describe())

(4)检查标签列是否符合建模要求

        从上面的图中我们可以看到,标签列是文本类型,无法进行建模。因此需要将标签转换成模型可理解的数值类型(转为数值类型才可以计算损失)。

# 定义各类别对应的索引号
label_index = {'Iris-setosa':0, 'Iris-versicolor':1, 'Iris-virginica':2}
# apply方法应用到标签列中的每一个标签
df['Species'] = df['Species'].apply(lambda x: label_index[x])

2、数据可视化

        我们可以使用sklearn提供的PCA降维方法将原始数据降维成2维(也可以进行3维可视化),并且可视化出来。

# 分出特征列和标签列
X = df[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']].values.tolist()
y = df['Species'].tolist()
# 降维
pca = PCA(n_components=2)
pca_data = pca.fit_transform(X)
# 可视化
plt.scatter(pca_data[:, 0], pca_data[:, 1], c=y)
plt.show()

        可视化结果如下图,虽然可视化的过程没有标出来哪个颜色对应哪一类的鸢尾花,但我们可以看到某一类鸢尾花很轻易就可以与另外两类区分开来,而距离较近的两类似乎数据也是线性可分的,那么我们可以考虑用一个简单的模型完成这个任务。

3、数据划分

        了解了数据分布之后,我们可以开始进行数据的划分了,即划分训练集和测试集。其中,训练集用于训练模型,测试集用于测试模型的效果(测试集数据应当是在模型的训练阶段是未出现过的,否则就存在模型作弊的问题了)。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=2024)
print('训练集数据量:', len(X_train))
print('测试集数据量:', len(X_test))

        这里讲一下几个比较重要的参数:

  • stratify:控制训练集和测试集的标签类别比例,默认是无,但是我们一般会根据y进行划分。假如我们有100个数据,70个属于A类,30个属于B类,如果不指定该参数且test_size恰好是0.3,那么就有可能出现我们训练集中的70个都是A类数据,这样子模型只学了A的数据规律,使用测试集的30个数据进行测试的时候效果就很糟糕了。而如果指定了该参数,那么算法会确保训练集中各类别的比例和测试集中的各类别比例一致(如果算出来的数量不是整数会自动取整),假设这个例子我们指定的stratify是y,那么训练集中A和B类别的比例和测试集一致,都是7:3,则训练集中A类有49个,B类有21个,测试集中A类有21个,B类有9个,保持了数据集划分的公平性。
  • test_size:指定训练集和测试集划分过程中的比例,用0-1开区间之间的小数就可以了。
  • random_state:指定随机数,以保证模型结果可复现。

        打印数据划分结果如下:

4、模型训练

        这里我们使用一个决策树分类器作为模型,使用训练数据迭代训练决策树模型并输出模型的各项性能指标。

dt = DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=5, class_weight='balanced', random_state=2024)
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
# 多分类问题需要指定average,其中:
# micro计算全局精确度:通过将所有类别的真正例和假正例汇总,然后计算整体的精确度。
# macro计算未加权平均精确度:简单地计算每个类别的精确度,然后求平均值,不考虑每个类别的样本数量。
# weighted计算加权平均精确度:计算每个类别的精确度,然后根据每个类别的样本数量进行加权平均。
print('Precision:', precision_score(y_test, y_pred, average='macro'))
print('Recall:', recall_score(y_test, y_pred, average='macro'))
print('F1:', f1_score(y_test, y_pred, average='macro'))

        这里有几个模型参数需要注意:

  • criterion:可选的有“gini”、“entropy”、“log_loss”,用于指定构建树时用于分裂节点的准则,默认是”gini”,即基尼不纯度。当使用gini作为参数的值时,决策树在每个节点的分裂都旨在最小化基尼不纯度;而使用entropy时,决策树在每个节点的分裂都旨在最大化信息增益,这意味着最小化熵。
  • splitter:可选的有“best”、“random”,用于指定如何选择分裂节点的方法,默认是”best”。当设置为best时,决策树会考虑所有可能的特征和所有可能的分割点,并选择能够最好地减少criterion取值的最佳分裂点。
  • max_depth:指定树的深度,默认是不限制,也就是树可以无限生长直到满足损失要求,但是对于一些模型规模有限制的场景建议限制树的深度在一定范围,否则模型可能非常大。
  • class_weight:默认为无,可以输入字典(键为类别,值为当前类别的样本数)也可以直接写“balanced”。建议直接指定“balanced”,这样模型会自动为不同类别的样本赋予权重。这个参数在样本类别不平衡的时候非常重要,假设一个二分类任务中样本A有98个,B有2个,不设置权重模型可能只学A的特征,从而忽略B类(因为即便B类预测错误,总体数据上仍然能够有一个很好的指标结果),但设置class_weight后,模型会认为A和B同样重要,从而避免样本类别不平衡造成的模型问题。
  • random_state:指定随机数以便复现模型结果。

        以下是训练后的模型在测试集上的表现,由于数据集较为简单,模型的指标效果不错。当然,如果进行更细致的参数调优,模型可以取得更好的效果,这里就不演示了。

三、完整代码

import pandas as pd
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import precision_score, recall_score, f1_score

path = './data/iris.csv'
df = pd.read_csv(path)
print('数据量:', len(df))
print(df.head())
print('空值数量统计:')
print(df.isnull().sum())
print(df.describe())
df.drop(['Id'], axis=1)
label_index = {'Iris-setosa':0, 'Iris-versicolor':1, 'Iris-virginica':2}
df['Species'] = df['Species'].apply(lambda x: label_index[x])

X = df[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']].values.tolist()
y = df['Species'].tolist()
pca = PCA(n_components=2)
pca_data = pca.fit_transform(X)
plt.scatter(pca_data[:, 0], pca_data[:, 1], c=y)
plt.show()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=2024)
print('训练集数据量:', len(X_train))
print('测试集数据量:', len(X_test))
dt = DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=5, class_weight='balanced', random_state=2024)
dt.fit(X_train, y_train)
y_pred = dt.predict(X_test)
print('Precision:', precision_score(y_test, y_pred, average='macro'))
print('Recall:', recall_score(y_test, y_pred, average='macro'))
print('F1:', f1_score(y_test, y_pred, average='macro'))

四、总结

        本文使用决策树模型对iris鸢尾花数据集进行了分类建模,由于数据量小、数据集简单且各特征含义明确,本文直接使用所有特征进行建模。实际的建模任务中,特征选择也是重要的一步,我们需要选择对建模真正有用的特征(特征选择),而不是所有特征都用于建模(比如一份数据可能有100多个特征列,但实际对建模有用的可能只有5、6个特征)。后面的博文将会陆续介绍这些技巧,并展示如何在更复杂的生产数据中使用这些技巧进行建模。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2223193.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

No.21 笔记 | WEB安全 - 任意文件绕过详解 part 3

(一)空格绕过 原理 Windows系统将文件名中的空格视为空,但程序检测代码无法自动删除空格,使攻击者可借此绕过黑名单限制。基于黑名单验证的代码分析 代码未对上传文件的文件名进行去空格处理,存在安全隐患。相关代码逻…

【软考高级架构】关于分布式数据库缓存redis的知识要点汇总

一.分布式数据库的含义 分布式数据库缓存指的是在高并发的环境下,为了减轻数据库的压力和提高系统响应时间,在数据库系统和应用系统之间增加一个独立缓存系统。 二.常见的缓存技术 (1)MemCache: Memcache是一个高性能的分布式的内…

openlayers 封装加载本地geojson数据 - vue3

Geojson数据是矢量数据,主要是点、线、面数据集合 Geojson数据获取:DataV.GeoAtlas地理小工具系列 实现代码如下: import {ref,toRaw} from vue; import { Vector as VectorLayer } from ol/layer.js; import { Vector as VectorSource } fr…

html全局属性、框架标签

常用的全局属性&#xff1a; 属性名含义id 给标签指定唯一标识&#xff0c;注意&#xff1a;id是不能重复的。 作用&#xff1a;可以让label标签与表单控件相关联&#xff1b;也可以与css、JavaScript配合使用。 注意&#xff1a;不能再以下HTML元素中使用&#xff1a;<hea…

Unity3D学习FPS游戏(4)重力模拟和角色跳跃

前言&#xff1a;前面两篇文章&#xff0c;已经实现了角色的移动和视角转动&#xff0c;但是角色并没有办法跳跃&#xff0c;有时候还会随着视角移动跑到天上。这是因为缺少重力系统&#xff0c;本篇将实现重力和角色跳跃功能。觉得有帮助的话可以点赞收藏支持一下&#xff01;…

社区养老实训室解决方案

一、实训室建设理念与目标 1.1 培养高质量养老专业人才 随着人口老龄化的不断加剧&#xff0c;对养老专业人才的需求呈现出日益增长的趋势。社区养老实训室的建设理念&#xff0c;正是基于这一背景&#xff0c;致力于培养一支既具备专业技能又拥有综合服务能力的高质量养老人…

gitlab不同账号间·仓库转移

背景&#xff1a;公司业务调整&#xff0c;原先在海外仓库的代码转移回国内 诉求&#xff1a;完整的保留项目记录 操作&#xff1a; 步骤一: 定位到需要迁移的原项目地址 步骤二&#xff1a;创建新项目 步骤三&#xff1a;打开命令行&#xff0c;创建好文件路径为需要clo…

Anchor DETR论文笔记

原文链接 [2109.07107] Anchor DETR: Query Design for Transformer-Based Object Detection (arxiv.org)https://arxiv.org/abs/2109.07107 原文笔记 What 提出了一种新的基于锚点的查询设计&#xff0c;即将锚点编码为对象查询。 Why 对象检测任务是预测图像中每个对象…

监督学习之逻辑回归

逻辑回归&#xff08;Logistic Regression&#xff09; 逻辑回归是一种用于二分类&#xff08;binary classification&#xff09;问题的统计模型。尽管其名称中有“回归”二字&#xff0c;但逻辑回归实际上用于分类任务。它的核心思想是通过将线性回归的输出映射到一个概率值…

C++与现代开发实践第三节:多线程与并发编程

第四章&#xff1a;C与现代开发实践 第三节&#xff1a;多线程与并发编程 在这一课中&#xff0c;我们将详细探讨多线程与并发编程的各个方面&#xff0c;特别是从线程的创建、管理到高级的优化技术&#xff0c;并且通过复杂的实战案例来展示如何应对并发问题。最后&#xff…

探索现代软件开发中的持续集成与持续交付(CI/CD)实践

探索现代软件开发中的持续集成与持续交付&#xff08;CI/CD&#xff09;实践 随着软件开发的飞速进步&#xff0c;现代开发团队已经从传统的开发模式向更加自动化和灵活的开发流程转变。持续集成&#xff08;CI&#xff09; 与 持续交付&#xff08;CD&#xff09; 成为当下主…

git入门操作

文章目录 git入门操作git创建仓库&#xff1a;git initgit clone工作区域&#xff1a;文件状态git添加和提交git add git statusgit add .git commit -m 版本描述git ls-filesgit log git的reset回退版本git log 查看版本号git reset --softgit reset --hardgit reset --mixed总…

Github 2024-10-21 开源项目周报 Top15

根据Github Trendings的统计,本周(2024-10-21统计)共有15个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量TypeScript项目7Python项目5Go项目2Svelte项目1非开发语言项目1C++项目1Shell项目1技术面试必备知识开源项目 创建周期:2442 天Star数量:1762…

chrome清除https状态

莫名其妙的http跳转到https的url了。 解决办法 浏览器地址栏输入&#xff1a;chrome://net-internals/#hsts 输入你需要删除的域名即可&#xff01;&#xff01;&#xff01;

uniapp picker实现省市二级级联和省市区三级级联

接口返回值格式&#xff1a; 二级级联-vue2 <picker mode"multiSelector" change"bindPickerChange" columnchange"columnchange" :value"index":range"array" range-key"label"><view class"uni…

Qt (QGroupBox、QTableView、QTableWidget)QSS样式

文章目录 设置效果样式内容说明qss文件内容补充 设置效果 先上图&#xff0c;为了方便大家区分&#xff0c;使用了多种颜色进行设置。 样式内容说明 * {background-color: #88e7ea; }设置全局背景色 可能是因为 QGroupBox 的背景色优先级较高&#xff0c;覆盖了全局样式。 …

GD32学习知识点累计

时钟系统 GD32f427主频最高位240MHZ&#xff08;但是只能到200M&#xff09;&#xff0c;GD32给的函数外接25MHZ晶振配置主频为200MHZ,APB1最高频率为60HZ配置为主频的4分频为50MHZ&#xff0c;APB2最大为120MHZ配置为主频的2分频为100MHZ 定时器 无论什么定时器最大频率为200M…

上行流量和下行流量的区别

一、定义 上行流量 指从本地设备&#xff08;如用户的计算机、手机等客户端设备&#xff09;发送数据到远程设备&#xff08;如服务器&#xff09;的流量。简单来说&#xff0c;就是数据从你的设备传出去的过程所产生的流量。例如&#xff0c;当你上传一张图片到云存储服务时&…

Ansible 的脚本 --- playbooks剧本

playbooks 本身由以下各部分组成 &#xff08;1&#xff09;Tasks&#xff1a;任务&#xff0c;即通过 task 调用 ansible 的模板将多个操作组织在一个 playbook 中运行 &#xff08;2&#xff09;Vars&#xff1a;变量 &#xff08;3&#xff09;Templates&#xff1a;模板 &a…

虚拟化数据恢复——Hyper-V虚拟机文件丢失导致虚拟机无法使用的数据恢复案例

虚拟化数据恢复环境&#xff1a; Windows Server操作系统服务器上部署Hyper-V虚拟机环境。虚拟机的硬盘文件和配置文件存放在一台存储中&#xff0c;该存储上有一组由4块硬盘组建的raid5阵列&#xff0c;除此之外&#xff0c;还有一块单盘存放档虚拟机的备份文件。 虚拟化故障…