[Python] 机器学习 - 常用数据集(Dataset)之鸢尾花(Iris)数据集介绍,数据可视化和使用案例

news2024/11/16 16:01:24

鸢(yuān)尾花(Iris)数据集介绍

鸢【音:yuān】尾花(Iris)是单子叶百合目花卉,是一种比较常见的花,而且鸢尾花的品种较多,在某个公园里你可能不经意间就能碰见它。

鸢尾花数据集最初由Edgar Anderson 测量得到,而后在著名的统计学家和生物学家R.A Fisher于1936年发表的文章「The use of multiple measurements in taxonomic problems」中被使用,用它作为线性判别分析(Linear Discriminant Analysis)的一个例子,证明分类的统计方法。该数据集是在机器学习领域一个常用的数据集。

数据中的两类鸢尾花记录结果是在加拿大加斯帕半岛上,在同一天的同一个时间段,使用相同的测量仪器,在相同的牧场上由同一个人测量出来的。这是一份有着70年历史的数据,虽然老,但是却很经典,详细数据集可以在UCI 数据库(http://archive.ics.uci.edu/ml/datasets/Iris) 中找到。

http://archive.ics.uci.edu/static/public/53/iris.zip

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。

鸢尾花(iris)数据集,它共有4个属性列和一个品种类别列:sepal length(萼片长度)、sepal width(萼片宽度)、petal length(花瓣长度)、petal width (花瓣宽度),单位都是厘米。3个品种类别是Setosa、Versicolour、Virginica,样本数量150个,每类50个。

本文主要通过Jupyter Notebook对鸢尾花数据集(Iris)进行读取,显示数据,并对数据可视化,最后使用该数据集来应用于K近邻算法线性回归分析。

1)读取数据包括scikit-learn库引入和读取.csv文件保存的数据集。

2)显示数据包括显示具体数据、查看整体数据信息、描述性统计。

3)数据可视化包括散点图、直方图、KDE图、箱线图等。

4)应用该数据集于scikit-learn的K近邻算法进行线性回归分析。

读取数据

from sklearn import datasets
import pandas as pd
 
iris_datas = datasets.load_iris()

iris_df = pd.DataFrame(iris_datas.data, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width'])

# 它是一个很小的数据集,仅有150行,5列。该数据集的四个特征(1~4)列属性的取值都是数值型的,
# 他们具有相同的量纲,不需要你做任何标准化的处理,
# 第五列为通过前面四列所确定的鸢尾花所属的类别名称。
iris_csv_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"  
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class'] 
iris_csv_df = pd.read_csv(iris_csv_url, names=names)

显示数据

基本数据信息

# 四列数据分别为
# 列1 - Sepal Length Cm: 花萼长度, 单位cm;
# 列2 - Sepal Width Cm: 花萼宽度, 单位cm;
# 列3 - Petal Length Cm: 花瓣长度, 单位cm
# 列4 - Petal Width Cm; 花瓣宽度, 单位cm
iris_datas.data[0:10]

iris_df.head()

iris_datas.data.shape
iris_df.shape

# Sepa Length Cm: 花萼长度, 单位cm;
# Sepal Width Cm: 花萼宽度, 单位cm;
# Petal Length Cm: 花瓣长度, 单位cm
# Petal Width Cm; 花瓣宽度, 单位cm
iris_datas.feature_names
iris_datas.target[0:5]
iris_datas.target.shape
iris_datas.target_names

print(iris_datas.DESCR)

iris_csv_df.head()

 

查看数据整体信息

iris_df.info()

查看描述性统计

iris_df.describe()

iris_df.describe().T  

数据可视化

花萼长度与宽度分布 / 花瓣长度与宽度分布(用颜色和形状区分类型)

from collections import Counter, defaultdict
import matplotlib.pyplot as plt
import numpy as np 
plt.rcParams['font.sans-serif'] = ['SimHei']  # 支持中文字体
 
style_lst = ['o', '^', 's']       # 三个分类设置点的不同形状,不同形状默认颜色不同
data = iris_datas.data
labels = iris_datas.target_names
print('labels:', labels)
cls_dict = defaultdict(list)  # 使用默认字典来进行分类,每个分类的数据放到一个单独的列表中
for i, d in enumerate(data):
    cls_dict[labels[int(i/50)]].append(d) # 一共3个种类,每一种类有50个样本集

# print('col_dict:\n', col_dict)
for col in [0, 2]: # 一共4列; 1,2列为一组(花萼的长与宽);3,4列为一组(花瓣的长和宽)
    cls_list = []
    for i, (cls, cls_ds) in enumerate(cls_dict.items()):# 共3个分类
        draw_data = np.array(cls_ds)
        plot = plt.plot(draw_data[:, col], draw_data[:, col+1], style_lst[i])
        cls_list.append(cls)
 
    plt.legend(cls_list)
    plt.title('鸢尾花花瓣的长度和宽度') if col==2 else plt.title('鸢尾花花萼的长度和宽度')
    plt.xlabel('花瓣的长度(cm)') if col==2 else plt.xlabel('花萼的长度(cm)')
    plt.ylabel('花瓣的宽度(cm)') if col==2 else plt.ylabel('花萼的宽度(cm)')
    plt.show()

[Python] 内置类defaultdict(默认字典)介绍和使用场景(案例)-CSDN博客 

 数据直方图

iris_csv_df.hist() #数据直方图histograms

散点图(这里不区分是哪个类型)

x轴表示sepal-length花萼长度,y轴表示sepal-width花萼宽度

iris_csv_df.plot(x='sepal-length', y='sepal-width', kind='scatter')

x轴表示patal-length花瓣长度,y轴表示patal-width花瓣宽度

iris_csv_df.plot(x='petal-length', y='petal-width', kind='scatter')

KDE图

KDE图也被称作密度图(Kernel Density Estimate,核密度估计)。

KDE可以理解为是对直方图的加窗平滑。通过KDE分布图,可以查看并对训练数据集和测试数据集中特征变量的分布情况。[Python] KDE图[作密度图(Kernel Density Estimate,核密度估计)]介绍和使用场景(案例)-CSDN博客

plt.rcParams['axes.unicode_minus'] = False  # 避免 UserWarning: Glyph 8722 (\N{MINUS SIGN}) missing from current font.
iris_csv_df.plot(kind='kde') 

与对应的直方图进行对比一下: 

iris_csv_df.plot(kind='hist') 

箱线图

kind='box’绘制箱图,包含子图且子图的行列布局layout为2*2,子图共用x轴、y轴刻度标签为False。

iris_csv_df.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)

根据iris数据集使用K近邻算法进行线性回归

[Python] scikit-learn - K近邻算法介绍和使用案例-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1411291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode 热题 100 | 子串

目录 1 560. 和为 K 的子数组 2 239. 滑动窗口最大值 3 76. 最小覆盖子串 菜鸟做题第二周,语言是 C 1 560. 和为 K 的子数组 题眼:“子数组是数组中元素的连续非空序列。” 解决本问题的关键就在于如何翻译问题。子数组 s 的和可以看作数组 i 的…

手撕重采样,考虑C的实现方式

一、参考文章: 重采样、上采样、下采样 - 知乎 (zhihu.com) 先直接给结论,正常重采样过程如下: 1、对于原采样率fs,需要重采样到fs1,一般fs和fs1都是整数哈,则先找fs和fs1的最小公倍数,设为m…

WordPress反垃圾评论插件Akismet有什么用?如何使用Akismet插件?

每次我们成功搭建好WordPress网站后,都可以在后台 >> 插件 >> 已安装的插件,在插件列表中可以看到有一个“Akismet反垃圾邮件:垃圾邮件保护”的插件(个人觉得是翻译错误,应该是反垃圾评论)。具…

【新书推荐】3.4 浮点型

本节必须掌握的知识点: 示例九 代码分析 汇编解析 浮点数的输出精度 【补充内容】 3.4.1 示例九 浮点型分为:单精度float、双精度double、长双精度long double。 类型 存储大小 值范围 精度 单精度 float 4字节 【1.2E-38~ 3.4E38】 6位小数 …

SpringMVC-对静态资源的访问

1.工程中加入静态资源 在webapp下创建static文件夹,此文件夹专门放入静态资源 2.使项目可以处理静态资源的请求 在SpringMVC配置文件中添加以下语句 1.引入命名空间 xmlns:mvc"http://www.springframework.org/schema/mvc" xsi:schemaLocation“http…

HarmonyOS鸿蒙学习笔记(23)监听Wifi状态变化

监听Wifi状态变化 前言创建接收状态变化的Bean对象创建订阅者和订阅事件参考资料: 前言 本篇博文通过动态订阅公共事件来说明怎么使用HarmonyOS监听Wifi状态的变化。关于动态订阅公共事件的概念,官网有详细说明,再次就不在赘述。博文相关项目…

UE5 Chaos系统 学习笔记

记得开插件: 1、锚点场 在锚点场范围内的物体静止且不被其他力场损坏 2、ClusterStrain 破裂效果的力 3、DisableField chaos破裂后的模拟物理在绿色范围内禁止模拟物理 4、ForceAndStrain 破裂效果的力 5、ForceAndStrainFallOff 破裂效果的力,但是…

代码随想录算法训练营第十一天 | 二叉树基础

代码随想录算法训练营第十一天 | 二叉树基础 文章目录 代码随想录算法训练营第十一天 | 二叉树基础1 二叉树的理论基础1.1 二叉树的类型1.2 二叉树的存储方式1.3 二叉树的遍历方式1.4 二叉树的定义 2 二叉树的递归遍历2.1 前序遍历2.2 中序遍历2.3 后序遍历 3 二叉树的迭代遍历…

【QT+QGIS跨平台编译】之十:【libbz2+Qt跨平台编译】(一套代码、一套框架,跨平台编译)

文章目录 一、libbz2介绍二、文件下载三、文件分析四、pro文件五、编译实践一、libbz2介绍 bzip2是一个基于Burrows-Wheeler 变换的无损压缩软件,压缩效果比传统的LZ77/LZ78压缩算法来得好。它是一款免费软件。可以自由分发免费使用。 bzip2能够进行高质量的数据压缩。它利用…

SpringBoot-yml文件的配置与读取

配置 值前边必须要有空格,作为分隔符 使用空格作为缩进表示层级关系,相同的层级左侧对齐 获取 使用Value(”${键名}”) 使用ConfigurationProperties(prefix "前缀") 1.前缀要与yml配置文件中的前缀一致 2.实体类的字段名与配置文件中的键名一…

linux conda 配置 stable video diffusion

安装教程 1 下载仓库源码 git clone https://github.com/Stability-AI/generative-models.git2 创建conda环境 conda create -n svd python3.10 conda activate svd3 安装pytorch gpu cuda和cudnn请参考其他链接配置,使用 conda 或者 pip 安装 pytorch # 使用c…

第二集《闻法仪轨》

请大家打开讲义第三面,甲二、于法、法师发起承事。 我们身为一个大乘的佛弟子,我们这一念明了的心,在一生当中,会遇到很多很多的佛法,也会遇到很多很多的法师,但不是所有的法师跟佛法对我们都是帮助的&…

EasyCVR视频智能监管系统方案设计与应用

随着科技的发展,视频监控平台在各个领域的应用越来越广泛。然而,当前的视频监控平台仍存在一些问题,如视频质量不高、监控范围有限、智能化程度不够等。这些问题不仅影响了监控效果,也制约了视频监控平台的发展。 为了解决这些问…

HCIA——29HTTP、万维网、HTML、PPP、ICMP;万维网的工作过程;HTTP 的特点HTTP 的报文结构的选择、解答

学习目标: 计算机网络 1.掌握计算机网络的基本概念、基本原理和基本方法。 2.掌握计算机网络的体系结构和典型网络协议,了解典型网络设备的组成和特点,理解典型网络设备的工作原理。 3.能够运用计算机网络的基本概念、基本原理和基本方法进行…

Javaweb之SpringBootWeb案例之阿里云OSS服务入门的详细解析

2.3.2 入门 阿里云oss 对象存储服务的准备工作我们已经完成了,接下来我们就来完成第二步操作:参照官方所提供的sdk示例来编写入门程序。 首先我们需要来打开阿里云OSS的官方文档,在官方文档中找到 SDK 的示例代码: 参照官方提供…

爬取第一试卷网高三数学试卷并下载到本地

import requests import re import os filename 试卷\\ if not os.path.exists(filename):os.mkdir(filename) url https://www.shijuan1.com/a/sjsxg3/list_727_1.html headers {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.…

【QT+QGIS跨平台编译】之九:【LZ4+Qt跨平台编译】(一套代码、一套框架,跨平台编译)

文章目录 一、LZ4介绍二、文件下载三、文件分析四、pro文件五、编译实践一、LZ4介绍 LZ4是一种无损压缩算法,压缩速度为每核心400MB/s。 LZ4是目前效率最高的压缩算法,更加侧重于压缩/解压缩速度,压缩比并不突出,本质上就是时间换空间。 LZ4库是使用BSD许可证作为开放源码…

Dockerfile里ADD * 保留原来的目录结构

1、问题 给新模块写Dockerfile,很多静态资源分散在各个目录,于是Dockerfile里我直接一句: ADD ./* /dest/镜像出来后,启动容器,进入容器种后发现:文件拷贝成功,但原来的目录结构都不在了&…

HCIE之BGP正则表达式(四)

BGP 一、AS-Path正则表达式数字| 等同于或的关系[]和.$ 一个字符串的结束_代表任意^一个字符串的开始()括号包围的是一个组合\ 转义字符* 零个或多个?零个或一个一个或多个 二、BGP对等体组 一、AS-Path正则表达式 正则表达式是按照一定模版匹配字符串的公式 AR3上…

Java面试题(6)

28.创建线程池有哪几种方式 newFixedThreadPool(int nThreads) :创建一个固定长度的线程池,如果有线程发生错误而结束, 线程池会补充一个新线程。 newCachedThreadPool() :创建一个可缓存的线程池,会自动回收和创建空…