机器学习100天（五）：005 数据预处理之划分训练集

机器学习100天（五）：005 数据预处理之划分训练集

news2025/1/18 11:49:29

机器学习100天，今天讲的是：数据预处理之划分训练集。

在上一节，我们对类别特征进行了编码，X 和 y 已经变成了机器学习可以理解和处理的数据格式。

下面我们就要对数据集进行划分，划分成训练集和测试集。

在监督式机器学习中，我们一般使用训练集的数据来训练模型，然后把训练好的模型在测试集上进行测试，用测试集上的误差作为最终模型在现实场景中的泛化误差，即真实表现。

那么，对于已有的数据集，该如何划分呢？

一般遵循两个原则：

一是通常将数据集的80%作为训练集，20%作为测试集
二是采用随机采样的方式划分，避免样本的不均匀性造成模型性能变差

那么如何在程序中划分训练集和测试集呢？

很简单，在 spyder 中，我们直接导入 sklearn.model_selection 模块中的 train_test_split 函数，我们鼠标选中 train_test_split，看一下它的详细文档
可以看到，有几个重要的参数：
在这里插入图片描述

arrays 表示输入的数组，即待划分的 X 和 y；
test_size 表示测试集占的比例，一般是 0.2 或 0.3；
random_state 表示随机数的种子，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填 1，其他参数不变的情况下得到的随机数组是一样的。但不填，每次都会不一样。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/96011.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【LVGL学习笔记】（二）基础概念

【LVGL学习笔记】（二）基础概念

LVGL全程LittleVGL，是一个轻量化的，开源的，用于嵌入式GUI设计的图形库。并且配合LVGL模拟器，可以在电脑对界面进行编辑显示，测试通过后再移植进嵌入式设备中，实现高效的项目开发。 LVGL中文教程手册&#…

阅读更多...

心理健康网站

心理健康网站

开发工具(eclipse/idea/vscode等)： 数据库(sqlite/mysql/sqlserver等)： 功能模块(请用文字描述，至少200字)： 管理员功能： 1、管理关于我们、联系我们 2、管理文章类型、添加心理文章 3、审核咨询师注册信息 4、查看咨询…

阅读更多...

我的创作纪念日——为什么要写博客

我的创作纪念日——为什么要写博客

文章目录收获意义憧憬收获转载和摘抄只是对知识的搜集，不仅不会起到扩充知识体系的作用，反而会让人陷入盲目的自信或者自卑。一些人会把收藏当作底蕴，例如看到一个如何快速学Python的标题，就会逢人说自己会Python；另…

阅读更多...

哈夫曼树，哈夫曼编码及应用——（代码实现）

哈夫曼树，哈夫曼编码及应用——（代码实现）

哈夫曼树，哈夫曼编码及应用1.哈夫曼树1.1 什么是哈夫曼树2.如何构造哈夫曼树（哈夫曼算法）2.1 举例实现哈夫曼树2.1.1手动实现具体步骤2.1.2代码实现具体步骤3.哈夫曼编码3.1 什么是哈夫曼编码3.2哈夫曼编码的具体实现END!!!1.哈夫曼树路径长…

阅读更多...

零基础可以学习Python吗？转行小白怎么学Python？

零基础可以学习Python吗？转行小白怎么学Python？

ython学习常用的技巧有这些：一是要明确自己的学习目的;二是从易到难，循序渐进;三是合理的选择资料，有所取舍;四是坚定自己的信念。以下是关于Python学习技巧的具体介绍。 1、明确自己的学习目的每个人学Python的初衷绝对是不一样的&#xf…

阅读更多...

【观察】Akamai：向分布式云迈出坚实一步，让云和边缘“无处不在”

【观察】Akamai：向分布式云迈出坚实一步，让云和边缘“无处不在”

近年来，云正如同日常生活中的水、电那样，融入到社会的各个层面，它不再是一种单纯的架构或者技术，而是千行百业走向数字化的核心基础设施；云也正在变成一种融合剂，无论是大数据、人工智能、物联网等&#xf…

阅读更多...

多目标背包问题：MOJAYA求解多目标背包问题(Multi-objective Knapsack Problem，MOKP)提供Matlab代码

多目标背包问题：MOJAYA求解多目标背包问题(Multi-objective Knapsack Problem，MOKP)提供Matlab代码

一、多目标背包问题 1.1多目标背包问题描述多目标背包问题(Multi-objective Knapsack Problem，MOKP)是一种重要的组合优化问题，在生活的许多领域都有着十分广泛的应用。多目标背包问题可以描述为：给定一个背包和n种物品，其中&a…

阅读更多...

docker-compose安装gogs

docker-compose安装gogs

1.gogs是什么 Gogs 的目标是打造一个最简单、最快速和最轻松的方式搭建自助 Git 服务。使用 Go 语言开发使得 Gogs 能够通过独立的二进制分发，并且支持 Go 语言支持的所有平台，包括 Linux、Mac OS X、Windows 以及 ARM 平台。 2.准备工作gogs 在安装软…

阅读更多...

论文精读：《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》

论文精读：《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》

文章目录论文精读摘要（Abstract）1. 介绍（Introduction）2. 相关工作（Related Work）3. 方法（Approach）3.1 框架总览(Framework Overview)3.2 2D引导的多层次3D预测(2D Guided Multi-Le…

阅读更多...

【java】javac 相关API JavaCompiler StandardJavaFileManager AbstractProcessor

【java】javac 相关API JavaCompiler StandardJavaFileManager AbstractProcessor

1.概述转载并且补充：Java 编译器 javac 笔记：javac API、注解处理 API 与 Lombok 原理看这个文章之前首先看：【java】java JSR 269 自定义注解实战 Lombok @Data注解 java版本直接调用 javac 是 Java 代码的编译器 [openjdk, oracle ]，初学 Java 的时候就应该接触过。…

阅读更多...

马上跨年了，如何用代码写一个“跨年倒计时”呢？

马上跨年了，如何用代码写一个“跨年倒计时”呢？

前言大家好，我是陈橘又青，再过两周就是新的一年了，作为一名有仪式感的程序员，今天我们就来制作一个简单的跨年倒计时小网页，祝看到的所有人新年快乐！（附上完整源码，需要的小伙伴自取…

阅读更多...

八、Docker 安装Mysql（流程、注意点、实例）

八、Docker 安装Mysql（流程、注意点、实例）

Docker 安装mysql 要不安装tomcat 稍微复杂些，要配置一些参数，例如mysql密码，配置文件编写等。 1、docker hub上面查找mysql镜像地址：Docker Hub 可以拉取最新的，也可以按照tag搜索自己想要的版本，拉取 2、从docker hub上拉取mysql5.7镜像到本地命令：docker pull …

阅读更多...

【实时数仓】DWM层设计模式、独立访客（UV）的计算

【实时数仓】DWM层设计模式、独立访客（UV）的计算

文章目录一 DWS层与DWM层的设计1 设计思路2 DWS层需求分析二 DWM层-UV计算1 需求分析与思路2 从kafka中读取数据（1）代码实现（2）测试（3）总结3 UV过滤 -- 独立访客计算（1）实现思路&…

阅读更多...

Spring+SpringMVC+MP登录案例（含拦截器）

Spring+SpringMVC+MP登录案例（含拦截器）

技术框架后端：Spring、Spring MVC、Mybatis-Plus 前端：HTML、CSS、Layui、JS、Jquery 功能模块技术 1、用户的每一个请求使用了SpringMVC 拦截器技术，没有登录的用户自动重定向到登录页 2、统一请求模式，使用Restful风格对后端…

阅读更多...

贤鱼的刷题日常(数据结构栈学习)-1551:Sumsets--题目详解

贤鱼的刷题日常(数据结构栈学习)-1551:Sumsets--题目详解

🏆今日学习目标： 🍀例题讲解1551:Sumsets ✅创作者：贤鱼 ⏰预计时间：25分钟 🎉个人主页：贤鱼的个人主页 🔥专栏系列：c 🍁贤鱼的个人社区，欢迎你的…

阅读更多...

学Python的理由有哪些？这四大理由足够了

学Python的理由有哪些？这四大理由足够了

学Python的理由有哪些？可能有人会说Python是一种计算机语言，具有简洁性、易读性、及可扩展性，相对于其他语言学起来会更加容易，目前应用也非常广泛等等。其实总结起来，学Python的理由不外乎四点，即丰富免费…

阅读更多...

Python数据分析主要功能是什么？可以用来做什么？

Python数据分析主要功能是什么？可以用来做什么？

Python是一种计算机程序设计语言，具有简洁性、易读性以及可扩展性，相较于其他语言学习起来更加容易。随着互联网的发展，Python知识也被越来越多的人所熟知。但还是有很多人不了解它究竟可以用来做什么，接下来就跟随我了解一下吧&a…

阅读更多...

【轻量级开源ROS 的机器人设备（5）】--（2）拟议的框架——µROS节点

【轻量级开源ROS 的机器人设备（5）】--（2）拟议的框架——µROS节点

接上文： 【轻量级开源ROS 的机器人设备（5）】--（1）拟议的框架——ROS节点四、开发工具为了方便用户应用程序的开发，一个代码生成器，一个堆栈使用分析器和演示项目包含在框架中包裹。 4.1 代…

阅读更多...

截止12.17 bitahub踩坑，mask无数次更改，lama代码的那些痛，羊了个羊

截止12.17 bitahub踩坑，mask无数次更改，lama代码的那些痛，羊了个羊

前面那篇跑出了STCN，倒是STCN熟悉了很多了对bitahub，需要注意一个问题要进ssh请用debug卡！！！！ 要进ssh请用debug卡！！！！ 要进ssh请用debug卡！&…

阅读更多...

数据库文档展示工具

数据库文档展示工具

实用工具：数据库文档展示工具简介数据库文档展示工具（database doc），又叫数据库注释浏览工具，是一个简单的数据库展示各个字段注释的开源工具。在日常开发工作中，您有否这样的体验？ 想给前…

阅读更多...

推荐文章

最新文章