Kaggle 数据竞赛 | ICR - 鉴定与年龄相关的疾病

news2024/12/24 9:16:01

文章目录

  • 一、前言
  • 二、主要内容
    • 1. 评估
    • 2. 时间线
    • 3. 奖金
    • 4. 代码要求
  • 三、总结

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

使用机器学习技术,通过匿名健康特征的测量数据来检测疾病。

ICR - Identifying Age-Related Conditions

比赛目标

本次比赛的目标是预测一个人是否患有三种医疗状况中的任何一种。您需要预测这个人是否患有其中一种或多种医疗状况(类别 1),或者没有这三种医疗状况之一(类别 0)。您将创建一个基于健康特征的测量数据训练的模型。

要确定某人是否患有这些医疗状况,需要进行长时间和侵入性的过程来收集患者信息。而通过预测模型,我们可以通过收集与该情况相关的关键特征,然后对这些特征进行编码来缩短此过程并保持患者详细信息私密。

您的工作将帮助研究人员发现某些特定特征的测量值与可能存在的患者状况之间的关系

比赛背景

他们说年龄只是一个数字,但随着年龄的增长,会带来一系列健康问题。从心脏病和痴呆症到听力丧失和关节炎,衰老是许多疾病和并发症的风险因素。生物信息学这个不断发展的领域包括对能够帮助减缓、逆转生物衰老并预防主要与年龄相关的疾患干预措施的研究。数据科学可以在开发解决具有多样化数据问题的新方法方面扮演一定角色,即使样本数量很少

目前,像 XGBoost 和随机森林这样的机器学习模型被用于预测医疗情况,但是它们的表现还不够好。在处理涉及生命安全的关键问题时,模型需要可靠地、一致性地做出正确的预测。成立于 2015 年的比赛主办方 InVitro Cell Research,LLC (ICR) 是一家私人资助公司,专注于再生和个性化预防医学。他们在纽约市区拥有最先进的研究空间。InVitro Cell Research 的科学家是他们与众不同之处,在帮助引导和定义他们研究如何快速修复老龄化人群方面发挥着重要作用。

在本次比赛中,您将使用健康特征的测量数据来解决生物信息学中的关键问题。基于最少训练,您将创建一个模型来预测一个人是否患有三种医疗状况中的任何一种,并旨在改善现有方法。您可以帮助推动生物信息学领域的发展,并探索解决具有多样化数据复杂问题新方法。

This is a Code Competition. Refer to Code Requirements for details.

关键词:表格数据、医疗健康、二分类、机器学习、平衡对数损失


二、主要内容

1. 评估

提交的结果将使用平衡对数损失进行评估。总体效果是每个类别对于最终得分都大致相等。每个观测值都属于 1 类或 0 类。对于每个观测值,您必须提交每个类别的概率。公式如下:
 Log Loss  = − w 0 N 0 ∑ i = 1 N 0 y 0 i log ⁡ p 0 i − w 1 N 1 ∑ i = 1 N 1 y 1 i log ⁡ p 1 i w 0 + w 1 \text { Log Loss }=\frac{-\frac{w_{0}}{N_{0}} \sum_{i=1}^{N_{0}} y_{0 i} \log p_{0 i}-\frac{w_{1}}{N_{1}} \sum_{i=1}^{N_{1}} y_{1 i} \log p_{1 i}}{w_{0}+w_{1}}  Log Loss =w0+w1N0w0i=1N0y0ilogp0iN1w1i=1N1y1ilogp1i

  • N 0 N_{0} N0 N 1 N_{1} N1 分别是类别 0 和类别 1 观察样本的数量; l o g log log 是自然对数; y c i y_{ci} yci 是 1 如果第 i i i 个样本的类别标签属于 1,否则为 0。
  • p c i p_{ci} pci 是第 i i i 个样本属于类别 c c c 的预测概率,权重 w 0 w_{0} w0 w 1 w_{1} w1 等于该类别样本数量的反比例。

在得分之前,给定行的提交概率不需要总和为 1 ,因为它们会被重新缩放(每行都会除以行总和)。为了避免对数函数的极端情况,每个预测概率 p p p 都被替换为: max ⁡ ( min ⁡ ( p , 1 − 1 0 − 15 ) , 1 0 − 15 ) \max \left(\min \left(p, 1-10^{-15}\right), 10^{-15}\right) max(min(p,11015),1015)

提交文件。对于测试集中的每个 id,您必须预测两个类别中每个类别的概率。该文件应包含表头,并具有以下格式:

Idclass_0class_0
00eed32682bb0.50.5
010ebe33f6680.50.5
02fa521e18380.50.5
040e15f562a20.50.5
046e85c7cc7f0.50.5

2. 时间线

2023 年 5 月 11 日 - 开始日期。

2023 年 8 月 3 日 - 报名截止日期。您必须在此日期之前接受比赛规则才能参加比赛。

2023 年 8 月 3 日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。

2023 年 8 月 10 日 - 最终提交截止日期。

所有截止时间均为相应当天 UTC 时间晚上 11:59,除非另有说明。如果比赛组织者认为必要,他们保留更新比赛时间表的权利。

3. 奖金

第一名 - $18000

第二名 - $15000

第三名 - $10000

第四名 - $7000

第五名 - $5000

第六名 - $5000

4. 代码要求

这是一场代码比赛。参赛作品必须通过 Notebooks 提交。为了在提交后激活 “提交” 按钮,必须满足以下条件:

  • CPU Notebook <= 9 小时运行时间。
  • GPU Notebook <= 9 小时运行时间。
  • 禁用互联网访问(Notebook 是离线测试的)。
  • 提交文件名必须命名为 submission.csv。

请查看代码竞赛 FAQ 以获取更多有关如何提交的信息。如果遇到提交错误,请查阅代码调试文档。


三、总结

Kaggle 链接:https://www.kaggle.com/competitions/icr-identify-age-related-conditions

ICR 比赛的目标是预测一个人是否患有三种医疗状况中的任何一种。您需要预测这个人是否患有其中一种或多种医疗状况(类别 1),或者没有这三种医疗状况之一(类别 0)的概率。创建一个基于健康特征的测量数据训练的模型,提交 notebook 评测。

在这样一个小数据集上使用机器学习算法是一项非常困难的任务。很容易出现过拟合问题,训练集分布和测试集分布之间的差异,以及潜在的特征工程。需要一些 Leaderboard 探测策略来弄清楚训练集分布和测试集分布之间的关系。但是,如何进行探测呢?我们应该关注哪些指标(标准差、均值等)?

为了有效探测,可以用表现最佳的 notebook(目前是 0.08)并在测试集(未标记)上进行预测。将这些预测用作伪标签,它们将是对真实标签的最佳近似。由于这个近似相当不错,您可以将这些预测二值化,并通过引发异常来计算正例数量。尝试一些提交后,您将得到对潜在分布的公平估计。

简单轻巧的方法可能才是制胜关键。需要一些独到的见解来处理数据集,一些信息可能会帮助我们取得成功。目前 Leaderboard 已经不可靠了,B 榜可能面临巨大的抖动。在挑战结束时需要简单的方法和大量的运气才能获得足够好的分数和排名。简单来说,需要找到一种同时改善本地 CV 和 LB 的方法。

开源的 notebooks 会诱惑你使用更复杂的模型,在小数据集上做太多事情,他们将学习到仅仅由于小数据集而产生的偶然模式,而不是具有好的预测性质的模式。一定要注意避免过拟合,稳住


📚️ 参考链接:

  • This is a very difficult competition and come and see why…🧠🧠🧠
  • ICR - Identifying Age-Related Conditions

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/695191.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为云Classroom一站式教学实践平台,开启云端教学新征程

随着高考落下帷幕&#xff0c;各高校将迎来新一届大学新生入学&#xff0c;他们的学长学姐们经过四年的学习&#xff0c;也即将步入社会&#xff0c;迈向一段新的人生旅程。 在这里小智先祝大家未来一切顺意&#xff0c;不忘初心&#xff0c;大鹏一日同风起&#xff0c;扶摇直…

win10环境下php安装thinkPHP5的曲线方式

win10环境下php安装thinkPHP5的曲线方式 强调一下在win10环境安装thinkPHP5需要使用Composer。 首先是thinkphp的教程&#xff1a;https://www.kancloud.cn/manual/thinkphp5/118006 你就会发现很坑逼 安装Composer的时候一种报错&#xff0c;就是php.ini文件错误。网上说什么…

Unity内置渲染管线升级URP教程

简介 URP全称为Universal Render Pipeline(通用渲染管线)&#xff0c;可以提供更加灵活的渲染方案&#xff0c;通过添加Render Feature实现各种渲染效果。并且可以针对移动平台进行专门的优化&#xff0c;同时还提供了SRPBatcher提高渲染效率。Unity的一些工具&#xff0c;比如…

客户关系管理系统有哪些?5款客户关系管理软件评测

客户关系管理系统是一种企业与客户之间的交互平台&#xff0c;它将客户的需求、市场环境、企业的发展战略等融入到整个业务流程中&#xff0c;在企业和客户之间建立起一个共享的资源库&#xff0c;使企业对客户的了解更深更全面&#xff0c;进而实现与客户的深入互动&#xff0…

C#创建窗体应用程序

1、新建项目&#xff0c;选择窗体应用 2、打开相关视图 工具箱&#xff1a;将工具箱中的控件直接拖拽到界面中&#xff0c;会自动生成对用的控件。 属性&#xff1a;可以设置控件的相关属性&#xff0c;包括事件&#xff0c;双击 3、设计应用界面 4、新建一个交互窗口 5、在登…

MVP(Multi-view Prompting):多视图提示改进了方面情感元组预测

论文题目&#xff08;Title&#xff09;&#xff1a;MVP: Multi-view Prompting Improves Aspect Sentiment Tuple Prediction 研究问题&#xff08;Question&#xff09;&#xff1a;多视图提示对方面情感元组检测的影响 研究动机&#xff08;Motivation&#xff09;&#x…

AI智能人脸识别,抠图-应用证件照

效果展示&#xff1a; 关键代码&#xff1a; import numpy as np import cv2 import osdef crop_face(source_image_path, output_folder_path, tag_width, tag_height):face_detector cv2.CascadeClassifier(cv2.data.haarcascades haarcascade_frontalface_default.xm…

【算法题解】45. N叉树的层序遍历

这是一道 中等难度 的题 https://leetcode.cn/problems/n-ary-tree-level-order-traversal/ 题目 给定一个 N 叉树&#xff0c;返回其节点值的层序遍历。&#xff08;即从左到右&#xff0c;逐层遍历&#xff09;。 树的序列化输入是用层序遍历&#xff0c;每组子节点都由 nu…

fopen,fputs,fgets,fclose

fopen 是打开文件 fputs 往文件里面写内容(里面有2个参数其中第一个是一个char 型 数组用于存放读取的字符串&#xff0c;表示读取 1-n个字符。第二个表示是文件读入指针) fgets 读取文件里面的内容 (里面有三个参数其中 第一个是一个char 型 数组用于存放读取的字符串。第二…

阿里云安全组 IP地址段 设置方法 斜线后面数字含义

比如公司搬家后,我的ip变成了101.83.11.11 但我希望安全组中.只限制ip的前2段,后面两段是多少,都不会限制访问 先登录阿里云的服务器管理后台,找到主机,进安全组,添加 设置方法为 端口1234为自定义的,比如远程桌面访问你的服务器,源:就是ip地址段. 101.83.1.1/16解释 斜杠…

使用 Jetpack Compose 构建 LinearProgressIndicator

欢迎阅读这篇关于如何使用 Jetpack Compose 构建 LinearProgressIndicator&#xff08;线性进度指示器&#xff09;的博客。Jetpack Compose 是 Google 推出的一款现代化 UI 工具包&#xff0c;用于构建 Android 界面。其声明式的设计使得 UI 开发更加简洁、直观。 什么是 Line…

mfc100u.dll丢失的各种解决方法分享,探究mfc100u.dll文件

在计算机系统中&#xff0c;有许多重要的文件扮演着关键角色。其中之一就是Mfc100u.dll&#xff0c;一但这个文件丢失了&#xff0c;那么你的电脑就会出现问题&#xff0c;如程序运行不了等等。今天主要来给大家讲讲Mfc100u.dll这个文件&#xff0c;mfc100u.dll丢失的各种解决方…

由spring定时任务@Scheduled(cron = “0 0 0/1 * * ?“)引起的坑

这两天做到的一个功能&#xff0c;定时任务每整点生成一条记录&#xff0c;然后使用的cron表达式是&#xff1a; Scheduled(cron "0 0 0/1 * * ?")意为每整点执行一次。 定时任务执行之后使用new Date() 拿到当前本机时间&#xff0c;作为记录的创建时间&#xf…

使用Jmeter完成数据库造数

1.添加驱动 如果使用jmeter连接数据库&#xff0c;需要在jmeter的lib下添加对应的数据库驱动 MySQL: mysql-connector-jar Oracle: ojdbc6-11.2.0.3.jar ps:找到自己对应的驱动版本 2.bin目录启动 localhost bin % sh jmeter.sh ps: Jmeter版本&#xff1a;5.6 mysq…

在windows同时安装两个idea的方法教程

因为近期使用jdk17&#xff0c;所以需要升级Idea的版本&#xff0c;但是我电脑之前用的Idea2018,我又不想卸载&#xff0c;所以想同时装两个版本的。 安装教程如下&#xff1a; IDea官网&#xff1a;https://www.jetbrains.com.cn/idea/download/?sectionwindows 在官网下载.…

从文本、图像到音视频,AIGC技术将如何重构我们的数字世界?

引言 1950 年&#xff0c;艾伦图灵提出著名的「图灵测试」&#xff0c;给出判定机器是否具有智能的试验方法。16 年后&#xff0c;世界上第一款可人机对话的机器人“Eliza”问世&#xff0c;这是 AI 技术最早期的萌芽阶段。但由于当时的科技水平限制&#xff0c;AIGC 仅限于小…

【MySql】C语言连接mysql|图形化工具

文章目录 Connector/C 使用mysql接口介绍Navicat远程连接数据库 Connector/C 使用 说完了mysql的基础,后面我们只关心使用&#xff0c;要使用C语言连接mysql&#xff0c;需要使用mysql官网提供的库&#xff0c;前往官网下载即可。 但是实际上我们并不需要这样去做&#xff0c;…

Feign、Ribbon、Hystrix(铁三角)以及三者超时时间配置

在微服务架构中很多功能都需要调用多个服务才能完成某一项功能&#xff0c;一个成熟的微服务集群&#xff0c;内部调用必然依赖一个好的 RPC 框架&#xff0c;比如&#xff1a;基于 Http 协议的 Feign&#xff0c;基于私有 tcp 协议的 Dubbo 1. Feign 是什么 Feign 是Spring …

Consul 理解

Consul是google开源的一个使用go语言开发的服务发现、配置管理中心服务。内置了服务注册与发现框 架、分布一致性协议实现、健康检查、Key/Value存储、多数据中心方案&#xff0c;不再需要依赖其他工具&#xff08;比如ZooKeeper等&#xff09;。服务部署简单&#xff0c;只有一…

SpringBoot实现自定义配置属性提示

前言 我们在使用SpringBoot开发项目时&#xff0c;常常需要编写一些属性配置类&#xff0c;用来完成自定义或特定的属性配置。在配置文件application.yml中&#xff0c;IDEA会自动提示官方默认的相关配置且可以点击属性自动跳转到属性对应的配置类中&#xff0c;实现快速查看属…