数据集划分和交叉验证

news2024/11/19 5:54:10

机器学习实践中,为防止模型出现过拟合问题,需要预先将数据划分为训练集和测试集,训练集用来建模,训练模型,测试集用来提前测试模型的实际预测能力,这期间就会出现不同的数据集划分和模型评价方法,且各有自己的优缺点。

数据集划分方法

随机划分

将数据集进行随机划分,每一次重新划分,训练集和测试集都会被随机确定,这种方法简便快捷,但是会出现数据集划分不均匀,或者训练集测试集数据分布差异过大,导致模型测试结果很差的问题,不能足够客观的去评价模型。
注:在实际应用中,可以通过设置随机种子random_state去保证每次随机划分的结果一样,便于不同模型的对比。

均匀划分

将整个数据集进行均匀划分,假设训练集占80%,测试集20%,共100个样本(按一定的数据分布有序排列),可以将原数据集索引0,5,10,15,20,25,30,…,90,95作为测试集,最终取得20个测试样本,其它索引的样本作为训练集。
时序划分
对于一些数据量较大,且跟时间关系比较大的数据,可以按时序划分,根据前n天的数据去预测后m天的数据,更能模拟一些实际业务中的场景。

交叉验证

在实际应用中,测试集是作为最终对模型评估的数据集,完全不参与训练,但是建模者容易进入一个误区:训练出第一个模型A,拿测试集测试,测试结果不好,重新训练,训练出模型B,拿测试集测试,测试结果还是不好,继续重新训练,直到模型F在测试集上表现极佳,就认识模型F是一个预测精度和泛化能力都很强的模型,但是仔细想想,这种多次的尝试,为了使测试集精度达到最高,是不是相当于把测试集多多少少参与到了训练过程中去,强行凑到测试集精度很佳,结果上线后模型预测结果依旧很差,严重翻车。
为了解决这一问题,研究者引入了交叉验证的思想。交叉验证完全不考虑测试集,将上述训练集划分为建模集和验证集,建模集训练,验证集测试,直到最终测试出最好的模型,才去最终的测试集上进行测试。
交叉验证又分为K折交叉验证和留一交叉验证。
K折交叉验证是将训练集划分成K个大小相等的子数据集,遍历每个子数据集作为一次验证集,剩下的K-1个子数据集作为建模集,最终会得到K个子数据集的评估结果,求其均值作为最终精度结果,一般K取5或10。
在这里插入图片描述
留一交叉验证和交叉验证的原理完全相同,只是每次只留一个样本作为测试集,训练样本如果有n个,那么会进行n次训练和验证,最终会得到n个评估结果。
在这里插入图片描述

自助法

考虑另一种情况,数据集样本量本身就很小,再按照比例划分训练集和测试集,会导致训练集和测试集的样本量更小,严重影响模型训练效果。自助法是对数据进行有放回采样,n次采样后,有些样本始终没被抽出过,那这些样本作为测试集即可。

参考文献

[1] 百面机器学习;
[2] 周志华.机器学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/147985.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux常用命令——alias命令

Linux命令查询工具 alias 用来设置指令的别名 补充说明 alias命令用来设置指令的别名。我们可以使用该命令可以将一些较长的命令进行简化。使用alias时,用户必须使用单引号将原来的命令引起来,防止特殊字符导致错误。 alias命令的作用只局限于该次登入…

EventLoop与宏任务和微任务

1、JavaScript 是单线程的语言 JavaScript 是一门单线程执行的编程语言。也就是说,同一时间只能做一件事情。 单线程执行任务队列的问题:如果前一个任务非常耗时,则后续的任务就不得不一直等待,从而导致程序假死的问题。 2、同步…

性能优化系列之『混合式开发:Flutter内核及优势介绍』

文章の目录一、愿景二、技术优势三、底层实现四、选型建议写在最后一、愿景 A portable toolkit for building beautiful experiences wherever you might want to paint pixels on the screen.一个拥有美好构建体验的便携式的工具包,可以让你在屏幕的任何地方绘制…

LeetCode题解 二叉树(十四):669 修改二叉搜索树;108 将有序数组转换为二叉搜索树;538 把二叉搜索树转换为累加树

二叉树 669 修改二叉搜索树 medium 给你二叉搜索树的根节点 root ,同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树,使得所有节点的值在[low, high]中。修剪树 不应该 改变保留在树中的元素的相对结构 (即,如果没有被移除&#xf…

数据可视化系列-06数据分析工具QuickBI

文章目录数据可视化系列-06数据分析工具QuickBI一文介绍QuickBIQuick BI 的基本对象快速入门Quick BI产品架构界面说明菜单栏我的看板工作台首页通过仪表板分析数据数据可视化系列-06数据分析工具QuickBI 参考: Quick BI 数据可视化分析平台 QuickBI官方文档 一文…

Jina AI 荣获「2022 稀土掘金引力榜」年度新锐企业 Top 10 称号!

2023 年 1 月 6 日,由稀土掘金技术社区打造的「掘金引力榜」正式公布。凭借在开源技术、产品等领域的积极布局,在社区生态影响力的突出贡献,Jina AI 荣获「掘金引力榜 2022 年度新锐企业 Top10」!「掘金引力榜」是由稀土掘金技术社…

什么是商家转账到零钱

1. 什么是商家转账到零钱商家转账到零钱为商户提供向一个或者同时向多个用户微信零钱转账的能力,商户可免费使用。1.1. 使用场景商户可以使用商家转账用于现金营销、分销返佣、行政补贴、行政奖励、保险理赔、佣金报酬、企业报销、企业补贴、服务款项、采购货款等向…

阿里微服务质量保障系列(二):研发流程知多少

持续坚持原创输出,点击蓝字关注我吧介绍研发流程主要是给大家一个体感,可以直观感受阿里测试工程师从项目的立项到最终发布经历了哪些过程、做了什么工作。需求的产生刚毕业工作那会,认为需求来源于产品,把PD宣讲的产品需求奉为圭…

12.30第一周 星期五SSH

SSH功能:1.远程连接 2.sftp 1. 使用之前首先确认系统中有无 ssh 的软件包 rpm -qa | grep ssh 主程序或执行文件位置:/usr/sbin/ss服务端配置文件: /etc/ssh/sshd_config服务器用客户端的公钥对数据---->加密---->到客户端时&#xf…

TemplateFlow:一个跨物种,多尺度脑部模板和图谱的共享平台

Problem大脑的参考模板在神经影像工作流程中起着核心作用,是报告标准化结果的基础。而模板或者图谱的选择是不同研究中方法学差异的一个相关来源,最近被认为是对神经科学可重复性的一个重要挑战而受到关注。大多数情况下,我们所使用的模板由神…

Linux中Shell与环境变量与配置文件

Shell是什么 Shell是个程序,他会在用户登录系统后系统开启的,他可以通过标准输入来接收命令,然后执行命令,Shell可以执行内部命令和外部命令,内部命令就是Shell程序里面自己的逻辑,外部命令是Shell调用其他…

Linux常用命令——firewall-cmd命令

在线Linux命令查询工具 firewall-cmd Linux上新用的防火墙软件,跟iptables差不多的工具。 补充说明 firewall-cmd 是 firewalld的字符界面管理工具,firewalld是centos7的一大特性,最大的好处有两个:支持动态更新,不…

【SCL】博图scl语言应用项目:装配流水线模拟控制

使用西门子博图SCL语言和factoryio软件来编写应用案例——装配流水线模拟控制项目 文章目录 目录 前言 一、应用:装配流水线模拟控制 1.控制要求 2.完善控制要求和场景 1.布置场景(factoryio) 2.控制要求 3.变量表(I/O分配&…

Cocos Creator Protobuf的js版本使用

一、基础知识参考Protocol Buffers 在游戏中的应用Protobuf语言指南android与PC,C#与Java 利用protobuf 进行无障碍通讯【Socket】1.性能好/效率高现在,俺就来说说Google公司为啥放着好端端的XML不用,非要另起炉灶,重新造轮子。一…

10.0、Linux-磁盘管理简单初体验

10.0、Linux-磁盘管理简单初体验 列出文件系统整体的磁盘使用量 -> df -h ( 检查磁盘空间使用量 ) 查看目录中所有的文件磁盘空间使用情况 -> du -a -h 根目录下每个目录所占空间大小容量 -> du -sm /* Mac 或者想使用 Linux 挂载我们的一些本地磁盘或者文件 挂载&am…

时隔 20 年,这个编程语言再次“称王”!

↓推荐关注↓综合整理:程序员的那些事(id: iProgrammer)近日,全球知名的编程语言流行度排行榜网站 TIOBE 公布了 1 月编程指数信息。前三的编程语言是Python、C 和C,第四为Java,第五是C#。TIOBE 的 2022 年…

MyBatis#1(快速入门与Mapper代理)

一.MyBatis简介1.MyBatis是一款优秀的持久层框架,可用于简化JDBC的开发2.持久层: 负责将数据保存到数据库的那一层代码JavaEE的三层架构: 表现层, 业务层, 持久层3.框架:框架就是一个半成品软件, 是一套可重用的, 通用的, 软件基础代码模型优点: 高效, 规范, 通用, 可扩展二.My…

ESP32设备驱动-BMP180气压温度传感器驱动

BMP180气压温度传感器驱动 1、BMP180介绍 BMP180 是Bosch Sensortec 新推出的数字气压传感器,性能非常高,可用于智能手机,平板电脑和运动设备等高级移动设备。它遵循BMP085并带来许多改进,如较小的尺寸和数字接口的扩展。超低功耗低至3μA,使BMP180成为移动设备节能的领…

EfficientFormer: Vision Transformers at MobileNet Speed

Paper name EfficientFormer: Vision Transformers at MobileNet Speed Paper Reading Note URL: https://arxiv.org/pdf/2206.01191.pdf TL;DR 本文目标是回答一个问题:transformer 是否可以在比 cnn 运行更快的时候同时精度更高?本文提出了 Effic…

3. R获取数据的三种途径、读入文件、写入文件、读写excel文件、读写R文件

课程视频链接:https://www.bilibili.com/video/BV19x411X7C6?p1 本笔记参照该视频,笔记顺序做了些调整【个人感觉逻辑顺畅】,并删掉一些不重要的内容 系列笔记目录【持续更新】:https://blog.csdn.net/weixin_42214698/category_…