训练机器学习模型,可使用 Sklearn 提供的 16 个数据集 【下篇】

news2025/1/11 8:06:23

数据是机器学习算法的动力,scikit-learn或sklearn提供了高质量的数据集,被研究人员、从业人员和爱好者广泛使用。Scikit-learn(sklearn)是一个建立在SciPy之上的机器学习的Python模块。它的独特之处在于其拥有大量的算法、十分易用以及能够与其他Python库进行整合。

什么是 “Sklearn数据集”?

Sklearn数据集作为scikit-learn(sklearn)库的一部分,所以它们是预先安装在库中的。因此,我们可以很容易地访问和加载这些数据集,而不需要单独下载它们。

要使用这些其中一个特定的数据集,可以简单地从sklearn.datasets模块中导入,并调用适当的函数将数据加载到程序中。

这些数据集通常都是经过预处理的,可以随时使用,这对于需要试验不同机器学习模型和算法的数据从业者来说,可以节省大量时间和精力。
在这里插入图片描述

真实的Sklearn数据集

7. Boston Housing

波士顿住房数据集包含了马萨诸塞州波士顿地区的住房信息。它有大约506行和14列的数据。

数据集中的一些变量包括:

  • CRIM - 各镇的人均犯罪率。
  • INDUS - 每个城镇的非零售商业用地比例。
  • CHAS - 查尔斯河虚拟变量(=1,如果区块与河流相连;否则为0)。
  • NOX - 一氧化氮的浓度(每1000万份)。
  • RM - 每个住宅的平均房间数。
  • AGE - 1940年以前建造的自建房的比例。
  • DIS - 到波士顿五个就业中心的加权距离。
  • RAD - 辐射状高速公路的可达性指数。
  • TAX - 每10,000美元的财产税全额税率。
  • PTRATIO - 各镇的学生-教师比率。
  • B - 1000(Bk - 0.63)^2,其中-Bk是各镇黑人的比例。
  • LSTAT - 人口中地位较低的百分比。
  • MEDV - 业主自住房屋的中位价值,单位为1000美元。

可以使用sklearn.datasets模块的load_boston函数直接从scikit-learn加载波士顿住房数据集。

from sklearn.datasets import load_boston

# Load the Boston Housing dataset
boston = load_boston()

# Print the dataset description
print(boston.describe())

以上是使用sklearn加载波士顿住房数据集的代码。于2023年3月29日从https://scikit-learn.org/0.15/modules/generated/sklearn.datasets.load_boston.html获取。
在这里插入图片描述

8. Olivetti Faces

奥利维蒂人脸数据集是1992年4月至1994年4月期间在AT&T实验室拍摄的人脸灰度图像的集合。它包含10个人的400张图像,每个人有40张在不同角度和不同光线条件下拍摄的图像。

你可以通过使用数据集模块中的fetch_olivetti_faces函数在sklearn中加载Olivetti脸部数据集。

from sklearn.datasets import fetch_olivetti_faces

# Load the dataset
faces = fetch_olivetti_faces()

# Get the data and target labels
X = faces.data
y = faces.target

这是使用sklearn加载Olivetti Faces数据集的代码。于2023年3月29日从https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_olivetti_faces.html获取。

9. California Housing

这个sklearn数据集包含了关于房屋价值中位数的信息,以及加利福尼亚的人口普查区的属性。它还包括20,640个实例和8个特征。

数据集中的一些变量:

MedInc–街区的收入中位数。
HouseAge - 街区内房屋的中位年龄。
AveRooms - 每个家庭的平均房间数。
AveBedrms - 每个家庭的平均卧室数量。
Population - 街区的人口。
AveOccup–家庭平均占用率。
Latitude - 街区的纬度,以十进制为单位。
Longitude - 街区的经度,以小数点后的度数表示。

你可以使用sklearn的fetch_california_housing函数来加载加州住房数据集。

from sklearn.datasets import fetch_california_housing

# Load the dataset
california_housing = fetch_california_housing()

# Get the features and target variable
X = california_housing.data
y = california_housing.target 

使用sklearn加载加州住房数据集的代码。于2023年3月29日从https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html获取。
在这里插入图片描述

10. MNIST

MNIST数据集在机器学习和计算机视觉领域很受欢迎并被广泛使用。它由70,000张手写数字0-9的灰度图像组成,其中60,000张用于训练,10,000张用于测试。每张图像的大小为28x28像素,并有一个相应的标签,表示它所代表的数字。

你可以使用以下代码从sklearn加载MNIST数据集:

from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784')

注意:MNIST数据集是Digits数据集的一个子集。

上面是使用sklearn加载MNIST数据集的代码。于2023年3月30日从https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml获取。

11. Fashion-MNIST

Fashion-MNIST 数据集是由Zalando Research创建的,作为原始MNIST数据集的替代。Fashion-MNIST数据集由70,000张灰度图像组成(训练集60,000张,测试集10,000张),都是服装相关的内容。

这些图像大小为28x28像素,代表了10个不同类别的服装,包括T恤/上衣、长裤、套头衫、连衣裙、大衣、凉鞋、衬衫、运动鞋、包和踝靴。它类似于原始的MNIST数据集,但由于服装类别的复杂性和种类更多,分类任务更具挑战性。

你可以使用fetch_openml函数加载这个sklearn数据集。

from sklearn.datasets import fetch_openml

fmnist = fetch_openml(name='Fashion-MNIST')

使用sklearn加载Fashion-MNIST数据集的代码。取自 https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_openml.html#sklearn.datasets.fetch_openml。

Generated Sklearn数据集

Generated Sklearn数据集是合成数据集,使用Python的sklearn库生成。它们被用于测试、基准测试和开发机器学习算法/模型。

12. make_classification

这个函数生成一个随机的n类分类数据集,具有指定数量的样本、特征和信息特征。

下面是一个生成这个sklearn数据集的示例代码,有100个样本、5个特征和3个类:

from sklearn.datasets import make_classification

X, y = make_classification(n_samples=100, n_features=5, n_informative=3, n_classes=3, random_state=42)

这段代码生成了一个有100个样本和5个特征的数据集,其中有3个类和3个信息性特征。剩下的特征将是多余的或是数据噪声。

使用sklearn加载make_classification数据集的代码。于2023年3月30日从https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_classification.html#sklearn.datasets.make_classification获取。

13. make_regression

这个函数生成一个具有指定数量的样本、特征和数据噪音的随机回归数据集。

下面是生成这个sklearn数据集的示例代码,有100个样本,5个特征,数据噪音水平为0.1:

from sklearn.datasets import make_regression

X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

这段代码生成了一个有100个样本和5个特征的数据集,噪声水平为0.1。目标变量y将是一个连续变量。

使用sklearn加载make_regression数据集的代码。于2023年3月30日从https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html#sklearn.datasets.make_regression获取。

14. make_blobs

这个函数生成一个具有指定数量的样本和聚类的随机数据集。

下面是一个生成具有100个样本和3个聚类的sklearn数据集的示例代码:

from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=100, centers=3, random_state=42)

这段代码生成了一个有100个样本和2个特征(x和y坐标)的数据集,有3个以随机位置为中心的聚类,并且没有噪音数据。

上面是使用sklearn加载make_blobs数据集的代码。于2023年3月30日从https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs获取。

15. make_moons and make_circles

这些函数生成具有非线性边界的数据集,对测试非线性分类算法很有用。

下面是一个加载make_moons数据集的示例代码:

from sklearn.datasets import make_moons

X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)

这段代码生成了一个有1000个样本和2个特征(x和y坐标)的数据集,两类之间有一个非线性的边界,并且在数据中加入了0.2个标准差的高斯噪声。

使用sklearn加载make_moons数据集的代码。2023年3月30日从https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_moons.html#sklearn.datasets.make_moons。

下面是一个生成和加载make_circles数据集的示例代码:

from sklearn.datasets import make_circles

X, y = make_circles(n_samples=1000, noise=0.05, random_state=42)

使用sklearn加载make_circles数据集的代码。于2023年3月30日从https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_circles.html#sklearn.datasets.make_circles获取。

16. make_sparse_coded_signal

这个函数生成了一个稀疏编码信号数据集,对测试压缩感应算法很有用。

下面是一个加载这个sklearn数据集的示例代码:

from sklearn.datasets import make_sparse_coded_signal

X, y, w = make_sparse_coded_signal(n_samples=100, n_components=10, n_features=50, n_nonzero_coefs=3, random_state=42)

这段代码生成了一个有100个样本、50个特征和10个原子的稀疏编码信号数据集。

使用sklearn加载make_sparse_coded_signal数据集的代码。2023年3月30日从https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_sparse_coded_signal.html#sklearn-datasets-make-sparse-coded-signal。

在这里插入图片描述

使用Sklearn数据集的常见场景

  • Iris - 这个Sklearn数据集通常用于分类任务,并被用作测试分类算法的基准数据集。

  • Diabetes - 这个数据集包含糖尿病患者的医疗信息,用于医疗分析中的分类和回归任务。

  • Digits - 这个sklearn数据集包含手写数字的图像,通常用于图像分类和模式识别任务。

  • Linnerud - 这个数据集包含20名运动员的体能和医疗数据,通常用于多变量回归分析。

  • Wine - 这个sklearn数据集包含葡萄酒的化学分析,通常用于分类和聚类任务。

  • Breast Cancer Wisconsin - 这个数据集包含乳腺癌患者的医疗信息,通常用于医疗分析中的分类任务。

  • Boston Housing - 这个sklearn数据集包含关于波士顿住房的信息,通常用于回归任务。

  • Olivetti Faces - 该数据集包含人脸的灰度图像,通常用于图像分类和面部识别任务。

  • California Housing - 这个sklearn数据集包含关于加州住房的信息,通常用于回归任务。

  • MNIST - 这个数据集包含手写数字的图像,通常用于图像分类和模式识别任务。

  • Fashion-MNIST - 这个sklearn数据集包含服装项目的图像,通常用于图像分类和模式识别任务。

  • make_classification - 这个数据集是一个随机生成的数据集,用于二进制和多类别分类任务。

  • make_regression - 这个数据集是一个随机生成的数据集,用于回归任务。

  • make_blobs - 这个sklearn数据集是一个随机生成的数据集,用于聚类任务。

  • make_moons 和 make_circles - 这些数据集是为分类任务随机生成的数据集,通常用于测试非线性分类器。

  • make_sparse_coded_signal - 这个数据集是一个随机生成的数据集,用于信号处理中的稀疏编码任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/429438.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AOP使用场景记录总结(缓慢补充更新中)

测试项目结构: 目前是测试两个日志记录和 代码的性能测试 后面如果有其他的应用场景了在添加.其实一中就包括了二,但是没事,多练一遍 1. 日志记录 比如说对service层中的所有增加,删除,修改方法添加日志, 记录内容包括操作的时间 操作的方法, 方法的参数, 方法所在的类, 方法…

CSS :autofill 如何覆盖浏览器自动填充表单的样式

CSS :autofill 如何覆盖浏览器自动填充表单的样式 :autofill 伪类匹配浏览器自动填充值的 input 元素. 如果用户继续编辑这个元素内容就会停止匹配. #name:autofill {background-color: red !important;border: 6px solid red; } #name:-webkit-autofill {background-color: …

OpenAI-ChatGPT最新官方接口《审核机制》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(七)(附源码)

Moderation 审核机制前言Introduction 导言Quickstart 快速开始其它资料下载ChatGPT 作为一个大型人工智能语言模型,在提供用户便捷交流的同时也承担着内容审核的责任。为了保护用户和社会免受不良信息的影响,ChatGPT 特别注重关于内容的审核。当用户发送…

UDS统一诊断服务【五】诊断仪在线0X3E服务

文章目录前言一、诊断仪在线服务介绍二、数据格式2.1,请求报文2.2,子功能2.3,响应报文前言 本文介绍UDS统一诊断服务的0X3E服务,希望能对你有所帮助 一、诊断仪在线服务介绍 诊断仪在线服务比较简单,其功能就是告诉服…

winForm目录文件介绍

先看项目结构 引用:添加引用,选择自己需要的程序集添加 app.config:配置文件 form1.cs:窗体文件,创建一个窗体所要具备的文件 program:程序入口点 再看创建项目后各个文件夹的含义 .sln:解决方案文件,…

网络模型-网络体系结构(OSI、TCP/IP)

网络模型(网络体系结构)网络模型网络的体系结构OSI模型TCP/IP模型OSI和TCP/IP模型对应关系图常见网络协议网络模型 网络的体系结构 1、网络采用分而治之的方法设计,将网络的功能划分为不同的模块,以分层的形式有机组合在一起。 …

智慧果园系统——以水肥一体化系统功能为基础实现智慧果园系统项目 需求文档

文章目录一、引言1.文档的作用2.文档的标准3.产品的范围二、综合描述1.项目前景2.项目目标3.项目功能4.调研和面谈A.硬数据采样a)硬数据分析的形式b)定量硬数据c)定性硬数据B.面谈a)第一次面谈:开放式问题b)第二次面谈:封闭式问题+开放性问题…

NIFI大数据进阶_离线同步MySql数据到HDFS_01_实际操作---大数据之Nifi工作笔记0029

然后我们实际操作一下如何把mysql中的数据同步到hdfs中去,这里注意,这里是查询mysql中的表中的数据,然后放到 hdfs中去,并不是说,如果mysql数据表中的数据变化了,就自动同步到hdfs,这个功能后面我们再说,这是增量同步 用到的是其他的处理器 首先我们创建一个处理器组mysqlto…

【行为型模式】迭代器模式

文章目录1、简介2、结构3、实现方式3.1、案例引入3.2、结构分析3.3、具体实现4、迭代器模式优缺点5、应用场景1、简介 迭代器模式(Iterator)是一种行为设计模式,它允许我们遍历一个复杂的集合对象而无需暴露其内部表示。它提供了一种统一的方式来访问一个聚合对象中…

在docker上安装MySQL和Redis

1. 通过docker命令下载mysql5.7镜像mysql5.7前期准备2. 通过docker命令下载mysql8.0镜像mysql8.0前期准备 3. 通过docker命令下载redis镜像redis前期准备 本文永久更新地址: 1. 通过docker命令下载mysql5.7镜像 mysql5.7前期准备 在Linux虚拟机上创建一个文件夹用来持久化数据…

replugin原理笔记

Replugin源码目录主要有4个工程组成,其组成如下图所示,包括2个gradle工程,2个Android library工程。 replugin-host-gradle replugin-host-library replugin-plugin-gradle replugin-plugin-library Replugin是一套完整的、稳定的、适合全面…

C++ 基础回顾(下)

C 基础回顾(下) 目录C 基础回顾(下)前言模板和泛型编程动态内存与数据结构动态内存数据结构继承与多态继承多态简单的输入输出工具与技术命名空间异常处理多重继承与虚继承时间和日期前言 C之前学过一点,但是很长时间…

进销存管理系统是什么?进销存管理系统优点?

库存管理不当导致物资浪费/过期/损坏,增加企业成本和风险; 无法有效监控销售和采购流程,交易的准确性和时效性不到位; 财务管理混乱; ...... 你是否遇到过以上问题? 进销存管理系统(Inventory …

Softing FG-200——将FF H1现场总线集成到工业以太网

基金会现场总线FF(FOUNDATION Fieldbus)是专为过程自动化设计的通信协议,包含低速总线H1(31.25kbits/s)标准和高速以太网HSE(High Speed Ethernet,100Mbits/s)标准。FF H1主要针对于…

200左右蓝牙耳机有哪些推荐?质量好的平价蓝牙耳机分享

现在蓝牙耳机基本上都是人手必备的存在了,对比上千元的蓝牙耳机,两百左右价位蓝牙耳机才是更多人的优先选择、废话不多说,下面我就来为大家推荐几款200元上下,质量和口碑都好的蓝牙耳机,准备入手蓝牙耳机的小伙伴可以作…

Mac配置QT

Mac配置QT 前言: 系统版本:Ventura 13.2.1 (22D68) 先安装homebrew,参考: https://blog.csdn.net/ZCC361571217/article/details/127333754 Mac配置: 安装Qt与Qt Creator: 通过Homebrew安装(若没Homeb…

VL817S与之前其他型号的区别与改动

相对于VL817C0以及VL817B0来说,VL817S使用外部供电不需要接入5V,HUB 5V 请参考参考设计接地。内部3.3 LDO输出请悬空。1。2V LX和FB请悬空。如下所示,详见参考设计。 1、3.3V和1.2V之间的时序要求是怎么样的? 下图是VL817(S) 上电…

无线技术有哪些专业术语,看完本文=半个无线专家

无线技术是指通过无线电波或光波等无线传输媒介,实现信息、数据或信号的传递和通信的技术领域。在无线技术领域中,有许多专业术语用于描述和标识不同的技术和概念。 以下是常见的无线技术专业术语的简介: Wi-Fi(无线局域网&#…

磁盘这列(Raid)

RAID介绍 RAID技术通过把多个硬盘设备组合成一个容量更大的、安全性更好的磁盘阵列。把数据切割成许多区段后分别放在不同的物理磁盘上,然后利用分散读写技术来提升磁盘阵列整体的性能,同时把多个重要数据的副本同步到不同的物理设备上,从而…

ImageNet使用方法(细节)自用!

学习记录,自用。 1. 下载数据集 点击以下链接下载种子文件,然后使用迅雷进行下载,仅下载勾选的文件即可。 https://hyper.ai/datasets/4889/c107755f6de25ba43c190f37dd0168dbd1c0877e 2. 解压 找到下载好的ILSVRC2012_img_train.tar 和…