机器学习算法竞赛实战--3,数据探索

news2024/11/16 18:08:46

数据挖掘是竞赛的核心模块之一,贯彻竞赛始终也是很多竞赛胜利的关键那么数据探索又是什么呢?可以解决哪些问题?首先应该明确3点,即如何确保自己准备好竞赛使用的算法模型如何为数据集选择最合适的算法如何定义可用于算法模型的特征变量

数据探索可以帮助回答以上这3点,并能够保证竞赛的最佳结果,它是一种总结,可视化和熟悉数据集中重要特征的方法。数据探索有利于我们发现数据的一些特征,数据之间的关联性有助于后续的特征构建

数据初探可以看做赛前数据探索主要包含分析思路,分析方法和目的通过系统化的探索,我们可以加深对数据的理解

在实际竞赛中,最好使用多种探索之路和方法来探索每个变量并比较结果在完全理解数据集后就可以进入数据预处理阶段和特征提取阶段的以便根据所期望的业务结果转化数据集此步骤的目的是确信数据集已准备好应用于机器学习算法

不单是针对每个变量,更是分析变量之间的联系,以及变量和标签的相关性并进行假设检验帮助我们提取有用特征

相关性分析只能比较数值特征,所以对于字母或字符串特征需要先进行编码并将其转化为数值,然后再看特征之间到底有什么关联,在实际竞赛中相关性分析可以很好的过滤掉与标签没有直接关系的特征并且这种方式在很多竞赛中均有很好的效果

数据探索的目的是帮助我们了解数据,并且构建有效特征

单变量分析太过单一不足以挖掘变量之间的内在联系获取更加细腻度的信息,所以多变量分析就变成了必须
 

分析特征变量与特征变量之间的关系有助于构建更好的特征,同时降低构件冗余特征的概率

 
学习曲线是机器学习中被广泛使用的效果评价工具能够反映训练集和验证集在训练迭代中分数的变化情况,帮助我们快速了解模型的学习效果


我们可以通过学习曲线来观察模型是否过拟合,通过判断拟合程度来确定如何改进模型

 

 4.4.2分类模型评判指标(一) - 混淆矩阵(Confusion Matrix)_进击的橘子猫的博客-CSDN博客_混淆矩阵icon-default.png?t=MBR7https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839

画混淆矩阵sklearn_爱学习的大白菜的博客-CSDN博客_画混淆矩阵icon-default.png?t=MBR7https://blog.csdn.net/csdnliwenqi/article/details/120759519混淆矩阵Confusion Matrix - 知乎 (zhihu.com)icon-default.png?t=MBR7https://zhuanlan.zhihu.com/p/111234566【知识】六种基本图表的特点和适用场合 - 腾讯云开发者社区-腾讯云 (tencent.com)icon-default.png?t=MBR7https://cloud.tencent.com/developer/article/1044115统计图表的分类和各种图表的优势? - 知乎 (zhihu.com)icon-default.png?t=MBR7https://www.zhihu.com/question/27875808817种数据可视化图表,有哪些适用场景和局限 - 知乎 (zhihu.com)icon-default.png?t=MBR7https://zhuanlan.zhihu.com/p/54849856

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/187077.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安装DevStack稳定版本zed

STEP1: 创建stack用户(一定要!) sudo useradd -s /bin/bash -d /opt/stack -m stack sudo chmod x /opt/stack echo "stack ALL(ALL) NOPASSWD: ALL" | sudo tee /etc/sudoers.d/stack sudo -u stack -i //用stack用户登陆 STEP2: git clone devsta…

SAP中物料价格改变导致的库存价值变动业务分析

基于审计的需求要看看物料在标准成本价格变更前后的库存成本变化情况。找了下资料,需要用到 CKMPCSEARCH这个事务,相当于是一个用于价格修改凭证查询的事务。但试了一下在本公司的系统中并没有从搜索到其菜单位置。 尝试直接输入Tcode后,是可…

CSRF 伪造跨域请求

文章目录一、什么是伪造跨域请求二、攻击方式三、防御措施1、检查Referer字段2、添加校验token一、什么是伪造跨域请求 伪造跨域请求(英语:Cross-site request forgery),通常缩写为 CSRF, 是一种挟制用户在当前已登录…

IntelliJ IDEA 2021.2(Community Edition)安装阿里编码规约插件,亲测有效

1.背景阿里巴巴java开发手册不断完善并出了很多版本到目前2023年1月截止,已经出了黄山版,在文章最后有参考资料可根据需要下载;随着企业对项目质量的要求,对开发代码也有了更高的要求和规范,借助阿里巴巴编码规约插件&…

redis geo 没有迁移手工插入数据

1、docker ps |grep redis2、docker exec -it qinghai-sc-xining-redis-single/eadd4cc4eefe bin\sh --进入redis容器[rootlocalhost ~]# [rootlocalhost ~]# [rootlocalhost ~]# [rootlocalhost ~]# docker ps|grep rediseadd4cc4eefe redis "docker-entrypoint.s…"…

python 气体扩散,在 Python中用数值模拟研究气体扩散

在 Python 中,可以使用数值模拟来研究气体扩散。 模拟气体扩散需要解决两个问题:流体动力学方程(如 Navier-Stokes 方程)和扩散方程。 文章目录Python 代码模拟气体扩散计算并显示气体浓度的均值和标准差研究气体扩展的高级方法Py…

Word控件Spire.Doc 【Table】教程(7): 如何在C#中用表格替换word文档中的文本

Spire.Doc for .NET 是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具,专注于创建、编辑、转…

【金三银四系列】之Java基础面试(2023版)

Java基础面试题 一: Java基础 1: 简单说说Java中对象如何拷贝? 一、浅拷贝clone()如果对象中的所有数据域都是数值或者基本类型,使用clone()即可满足需求,如:Person p new Person();Person…

30天自制操作系统(Mac版)读书笔记(day9)

day7和day8都是鼠标和32位的操作,看起来都是理论,先略过。 检测内存块数量 使用中断去检测内存,把这个当成一个函数调用吧。这里面di寄存器给的地址就是结果存在的内存位置。 ComputeMemory:mov ebx, 0mov di, MemChkBuf .loop:mov e…

linux安装vnc服务

1、 如操作系统是最小化安装,那么需要安装GNOME桌面,安装参考:https://blog.csdn.net/carefree2005/article/details/119417234 2、 安装vnc-server yum -y install tigervnc-server3、 复制配置文件模板,将无关的内容清除 cat…

图灵 | 计算机器与智能

【“计算机器与智能”选自《Mind》,no.2236(1950.10),P433-460。牛津大学出版社允许重印。刘西瑞、王汉琦 翻译】1. 模仿游戏我建议来考虑这个问题 :“机器能够思维吗?” 这可以从定义 “机 器” 和 “思维…

Docker数据目录迁移

背景在CentOS中安装了Docker,默认Docker Root目录是/var/lib/docker。但是该目录磁盘空间很有限,后期很容易导致系统盘满了,所以考虑迁移到更大磁盘目录下,比如下面的/fsc目录下。解决在Docker官方文档https://docs.docker.com/co…

excel查找定位:INDEX函数——精确制导导弹

一、认识INDEX函数Index函数:在给定的单元格区域中,返回特定行列交叉处单元格的值或引用。函数结构:index(单元格区域,行号,列号)区域,行号,列号,很像通过坐标瞄准打靶呀。就像下面动…

高阶数据结构之AVL树

文章目录回顾二叉搜索树AVL树在AVL树中插入新节点AVL树中的各种旋转右单旋左单旋左右双旋右左双旋验证是否是AVL树验证是否是二叉搜索树验证是否是平衡树总结AVL树回顾二叉搜索树 二叉搜索树的一些特点回顾: (1)每一个节点左树上所有节点的值都是…

vue多实例的骚操作,主要用于解决组件全局弹窗面板的问题。。。

1.问题背景 主要是自己写了一个组件库&#xff0c;其中涉及到弹出面板的组件遇到兼容性问题。 举个例子&#xff0c; 日期选择组件例如 DaterPicker组件 大概的代码如下&#xff08;省略了细节实现&#xff09; <template> <label>日期</label> <input …

一文详解PHP用流方式实现下载文件(附代码示例)

一淘模板给大家带来了关于PHP的相关知识&#xff0c;其中主要介绍了在PHP中怎么使用流方式来实现下载文件的&#xff0c;下面一起来看一下&#xff0c;希望对大家有帮助。 PHP 中使用流方式下载文件 在 PHP 中&#xff0c;可以使用 fopen() 函数打开一个远程文件&#xff0c;并…

Unity使用本地UPM包的实现方式

实现1&#xff1a;项目根路径实现优点&#xff1a;1.不必有额外操作2.本地包随项目版控&#xff0c;不会丢失包产生错误3.按需升级包缺点&#xff1a;1.包的修改随项目版控&#xff0c;增加日志冗余2.不利于包全局管理建议使用场景多人合作&#xff0c;开发底子较弱的团队。实现…

今年春节,全国物流很稳!

我叫张雄伟&#xff0c;是腾讯安全的一位交付工程师。我和团队的主要工作&#xff0c;是物流行业重点客户的安全防御项目管理工作。近两年&#xff0c;我们开始向顺丰、极兔等多家大型物流公司提供安全产品与服务。在双十一、618等全民购物节、春节等电商旺季&#xff0c;我们和…

百华鞋业开工大吉|起航新征程,扬帆再出发

爆竹声声迎鸿运&#xff0c;开工大吉启新程。2023年农历正月初六&#xff0c;山东百华鞋业有限公司迎来节后开工吉日。百华的家人们迅速集结工作岗位&#xff0c;以饱满的精神状态&#xff0c;按下工作复位键&#xff0c;俯身蹬地冲起跑&#xff0c;努力奋斗再出发&#xff01;…

史上最全测试开发工具推荐(含自动化、性能、稳定性、抓包)

一、UI自动化测试工具 1. uiautomator2 介绍: openatx开源的ui自动化工具&#xff0c;支持android和ios。主要面向的编程语言是python&#xff0c;api设计简洁易用&#xff0c;在开源社区也是很受欢迎。 原理图&#xff1a; 安装&#xff1a; pip install --upgrade --pre…