机器学习算法竞赛实战--2,问题建模

news2024/11/17 13:29:58

目录

一,赛题理解

1,赛题理解

2,数据理解:

3,评价指标(分类和回归)

思考练习

当参赛者拿到竞赛题目的时候,首先应该考虑的事情就是问题建模,同时完成基线模型的管道搭建,从而能够第一时间获得结果上的反馈帮助后续工作的进行,此外,竞赛的存在都依赖于真实的业务场景和复杂的数据参赛者通常对此会有很多想法,但是线上的提交结果验证的次数往往有限因此合理的切分训练集和验证集以及构建可信的线下验证就变得十分重要。这也是保障模型具有泛化性的基础。

竞赛中的问题建模主要可以分为赛题理解,样本选择,线下评估策略三个部分

一,赛题理解

1,赛题理解

赛题理解其实是从直观上梳理问题,分析问题可解的方法赛题背景,赛题的主要痛点
赛题理解的这一部分工作会成为竞赛的重要组成部分和先决条件,通过对赛题的理解,对真实业务的分析我们可以用自身的先验知识进行初步分析,很好的为接下来的部分做出铺垫
 

2,数据理解:

我们可以将数据理解分为两个部分,分别是数据基础层和数据描述层当然在问题建模阶段,并不需要对数据有特别深的理解,只需要做基本的分析即可在后面的数据探索阶段,再深入理解数据,从数据中发现关键信息

3,评价指标(分类和回归)

 

 

 在实际的数据集中,经常会出现正负样本不均衡的现象,即负样本比正样本多很多,或者相反而且测试集中正负样本的分布也可能随着时间roc曲线有一个很好的特质,那就是在这种情况下他依然能够保持不变不过roc曲线在竞赛中倒是不常见,反而auc曲线可以说是我们的老朋友,分类问题中经常出现


在互联网的搜索、推荐和广告的排序业务中,AUC是一个极其常见的评价指标。它定义为ROC曲线下的面积,因为ROC曲线一般都处于y=x 这条直线的上方,所以取值范围在0.5和1之间。之所以使用AUC作为评价指标,是因为ROC曲线在很多时候并不能清晰地说明哪个分类器的效果更好,而AUC作为一个数值, 其值越大就代表分类器的效果越好。值得一提的是AUC的排序特性。相对于准确率、召回率等指标,AUC 指标本身和模型预测的概率绝对值无关,它只关注样本间的排序效果,因此特别适合用作排序相关问题建模的评价指标。AUC 是一个概率值,我们随机挑选一个正样本和一个负样本,由当前的分类算法根据计算出的分数将这个正样本排在负样本前面的概率就是AUC值。所以,AUC值越大,当前的分类算法就越有可能将正样本排在负样本值前面,即能够更好地分类。

对数损失主要是评价模型预测的根率是否足够准确)它更关注和观察数据的吻合程度,而AUC评价的则是模型把正样本排到前面的能力。由于两个指标评价的侧重点不一样,因此参赛著考虑的问题不同,所选择的评价指标就会不同。对于广告CTR预估问题,如果考虑广告排序效果,武可以选择AUC这样也不会受到极端值的影响。此外,对数损失反映了平均偏差,更偏向于将样本数量多的那类划分准确。

平均绝对误差虽然解决了残差加和的正负底下问题能较好的衡量回归模型的好坏,但是绝对值得存在导致函数不光滑,在某些点上不能求导,即平均绝对误差不是,二阶连续可微的,同时二阶导数总为0

即使是在实际的竞赛当中,主办方提供的数据也有可能存在令参赛者们十分头疼的质量问
题。这无疑会对最终预测结果造成很大的影响,因此需要考虑如何选择出合适的样本数据进行
训练那么如何才能够选择出合适的样本呢?在回答这个问题之前,先来看看影响结果的具体
原因又是什么,这里总结出四个主要原因:分别是数据集过大严重影响了模型的性能,噪声和
异常数据导致准确率不够高,样本数据冗余或不相关数据没有给模型带来收益,以及正负样本
分布不均衡导致数据存在倾斜。

思考练习:

 


(2条消息) 机器学习中的评估指标与损失函数_Yasin_的博客-CSDN博客_余弦相似度 损失函数icon-default.png?t=MBR7https://blog.csdn.net/Yasin0/article/details/94435677

机器学习中的 7 大损失函数实战总结(附Python演练) - 知乎 (zhihu.com)icon-default.png?t=MBR7https://zhuanlan.zhihu.com/p/80370381 

【深度学习】一文读懂机器学习常用损失函数(Loss Function) - 腾讯云开发者社区-腾讯云 (tencent.com)icon-default.png?t=MBR7https://cloud.tencent.com/developer/article/1165263 

机器学习——损失函数(loss)与评价指标(metric)的区别? - 知乎 (zhihu.com)icon-default.png?t=MBR7https://zhuanlan.zhihu.com/p/373032887 

损失函数VS评估指标 - 快到皖里来 - 博客园 (cnblogs.com)icon-default.png?t=MBR7https://www.cnblogs.com/pythonfl/p/13705143.html 

机器学习样本分类不平衡问题解决思路 - 知乎 (zhihu.com)icon-default.png?t=MBR7https://zhuanlan.zhihu.com/p/84322912 

数据集样本类别不均衡时,训练测试集应该如何做? - 知乎 (zhihu.com)icon-default.png?t=MBR7https://www.zhihu.com/question/373862904 

「交叉验证」到底如何选择K值? - 知乎 (zhihu.com)icon-default.png?t=MBR7https://zhuanlan.zhihu.com/p/31924220 

交叉验证和超参数调整:如何优化你的机器学习模型 - 知乎 (zhihu.com)icon-default.png?t=MBR7https://zhuanlan.zhihu.com/p/184608795 

(2条消息) k折交叉验证优缺点_【机器学习】训练集,验证集,测试集;验证和交叉验证..._呼呼啦啦就瘸了的博客-CSDN博客icon-default.png?t=MBR7https://blog.csdn.net/weixin_35988311/article/details/112540577 

你真的了解交叉验证和过拟合吗? - Solong1989 - 博客园 (cnblogs.com)icon-default.png?t=MBR7https://www.cnblogs.com/solong1989/p/9415606.html 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/186200.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何备考2023年高级网络规划设计师?

网络规划设计师是软考高级考试科目之一,也是比较难的科目,据官方数据统计网规每年的通过率很低,而且每年只有下半年11月份考一次,如果是直接裸考,估计很悬哦~ 但是你参加考试获得证书的过程就是一个学习网络规划系统知…

一文揭晓,我是如何在Linux中查找自如

未来已来,只是不均衡地分布在当下 大家好,我是菜农,欢迎来到我的频道。 本文共 2187字,预计阅读 10 分钟 用过 Linux 的小伙伴都知道,在Linux系统中包含着大量的文件,绝大部分情况下,我们都是…

react hooks 中使用 Echarts图表中遇到的问题及相关配置

前言 项目开发中,需要做一个报表功能,看了下UI图,初步定下使用 echarts,不过之前使用 echarts 都是在 Vue2 和 Vue3 框架下开发,第一次使用 react-hooks 开发 echarts,将流程及一些 相关配置 写个随笔记录…

没有开发经验的程序员,怎么快速学习进入工作?

今天在群里,Ace老师遇到一位没有开发经验的同学,他的情况是这样的。 问题 Ace老师: 有一些伙伴,我现在真的没有想到太好的方法去教他,我跟大家讲一下他目前的情况,你们有经验的来和他说说这样的情况应该怎…

操作系统权限提升(三)之Windows系统内核溢出漏洞提权

系列文章 操作系统权限提升(一)之操作系统权限介绍 操作系统权限提升(二)之常见提权的环境介绍 注:阅读本编文章前,请先阅读系列文章,以免造成看不懂的情况!!! Windows系统内核溢出漏洞提权介绍 溢出提…

五、环境的搭建

1、配置用户信息 以下操作是用终端模拟器Cmder,这个工具比较便捷,比如需要粘贴,点击一下鼠标右键就粘贴了。如果不想下载这个工具,也可以在终端操作(打开终端快捷键:Win R,输入cmd)。 (1)查看git 打开C…

Recast-Detour看这里就够了!

目录一、 Recast生成(一) 概述1. 简介(二) 生成过程1. 体素化2. 区域3. 轮廓4. 生成凸多边形5. 详细三角形(三) 配置1. 可配置参数2. 数据结构(四) 项目应用1. CS体系方案…

2023最新前端面试题3(持续更新)

46、HTML语义化 HTML 语义化就是让页面内容结构化,它有如下优点 1、易于用户阅读,样式丢失的时候能让页面呈现清晰的结构。 2、有利于 SEO,搜索引警根据标签来确定上下文和各个关键字的权重。 3、方便其他设备解析,如盲人阅读器根…

【Pytorch项目实战】之迁移学习:特征提取、微调、特征提取+微调、雾霾清除

文章目录迁移学习(Transfer Learning)方法一:特征提取(Feature Extraction)方法二:微调(Fine Tuning)(一)实战:基于特征提取的迁移学习&#xff0…

2023第三方应用苹果电脑磁盘读写工具Tuxera NTFS

今天,小编要来分享的是Mac下一款实用的NTFS读写软件——Tuxera NTFS,我们都知道OS X默认是不支持NTFS格式写入的,对于很多使用U盘或移动硬盘写操作的朋友来说非常的不便。而Tuxera NTFS很好的解决了这个问题。小子这次带来的是2023版本。 Tu…

kali入侵电脑

kali入侵电脑 注意:本文仅用于教学目的 1 kali制作exe控制电脑(msfvenom) kali是黑客常用的系统,里面集成了很多的攻击软件,这里我给大家演示一种使用kali制作.exe文件来控制自己电脑的方式。 msfvenom a Metasploit s…

Vue2 和Vue 3的区别

Vue 2 和 Vue 3的区别 1.双向数据绑定原理不同 Vue2 的双向数据绑定是利用ES5的一个APIObject.definePropert() 对数据进行劫持,结合发布订阅模式的方式来实现的。 Vue3 中使用ES6的Proxy API对数据代理。 Vue3 使用数据代理的优势有以下几点:1&#x…

深圳MES系统如何助力注塑企业实现数字化发展

家用电器、电子产品、日用品、医疗保健、汽车零部件、新能源以及建筑、玩具等行业对注塑制品需求量日益增长。注塑企业提供的各式各样注塑产品已深入到经济生活的各个领域,为国家经济的各个部门包括轻工业和重工业提供关键的支持。 现状 现在注塑企业的注塑机工作…

RTP协议基本分析(RTSP、WebRTC使用)

1、介绍 实时流传输协议(RTSP:Real Time Streaming Protocol)是一种网络传输协议,旨在发送低延迟流。 该协议由RealNetworks,Netscape和哥伦比亚大学的专家在1996年开发。它定义了应如何打包流中的数 据以进行传输。 …

【GD32F427开发板试用】INA226完成电流电压采集

本篇文章来自极术社区与兆易创新组织的GD32F427开发板评测活动,更多开发板试用活动请关注极术社区网站。作者:จุ๊บ冰语 前言 本次有幸参与并通过了极术社区组织的【GD32F427开发板试用】活动,让我对国产兆易创新的GD32处理器有了更深刻的…

Scala系列之:函数式编程

Scala系列之:函数式编程一、面向对象编程和函数式编程二、函数基本语法三、函数和方法的区别四、函数定义五、函数参数六、函数至简原则七、匿名函数一、面向对象编程和函数式编程 面向对象编程: 解决问题,分解对象,行为&#x…

【最新消息】苹果放出新大招??!!

各位开发者新年快乐,许久没有更新了,近期我收到反馈意思遇到苹果回复的新政策,不知道各位开发者有没有碰到过,我也会在下文提出我的猜测,要是有开发者也遇到了同样的问题,欢迎一起交流哦。 疑似新政策&…

【寒假每日一题】洛谷 P1088 [NOIP2004 普及组] 火星人

题目链接:P1088 [NOIP2004 普及组] 火星人 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 题目描述 人类终于登上了火星的土地并且见到了神秘的火星人。人类和火星人都无法理解对方的语言,但是我们的科学家发明了一种用数字交流的方法。这种交流方法是…

vue-query 初探

vue-query,类似于vuex/pinia,以缓存为目的,但侧重的是对网络请求的缓存。 这是我预想的使用场景:假设在各个页面都需要发起相同的请求,去获取数据,而这种数据在一定时间内不会发生变化,那么这种…

【JavaWeb】带你走进Maven

文章目录1 什么是Maven?2 Maven 常用命令3 Maven 生命周期4 Maven 坐标详解5 IDEA 导入 Maven 项目1 什么是Maven? 如今我们构建一个项目需要用到很多第三方的类库,如写一个使用Spring的Web项目就需要引入大量的jar包。一个项目Jar包的数量之多往往让我们瞠目结舌…