比赛链接:https://www.kaggle.com/competitions/icr-identify-age-related-conditions
比赛简介
本次比赛的目标是预测一个人是否患有三种疾病中的任何一种。您被要求预测该人是否患有三种疾病中的任何一种或多种(1 类),或者三种疾病中的任何一种(0 类)都没有。您将创建一个针对健康特征测量值进行训练的模型。
要确定某人是否患有这些疾病,需要一个漫长而侵入性的过程来收集患者的信息。使用预测模型,我们可以缩短此过程,并通过收集与条件相关的关键特征,然后对这些特征进行编码,从而将患者详细信息保密。
您的工作将帮助研究人员发现某些特征的测量与潜在患者状况之间的关系。
年龄只是一个数字,但随着年龄的增长,一系列健康问题也随之而来。从心脏病和痴呆到听力损失和关节炎,衰老是许多疾病和并发症的危险因素。不断发展的生物信息学领域包括对干预措施的研究,这些干预措施可以帮助减缓和逆转生物衰老,预防与年龄相关的重大疾病。数据科学可以在开发新方法来解决不同数据问题方面发挥作用,即使样本数量很少。
目前,像XGBoost和随机森林这样的模型被用来预测医疗状况,但模型的性能还不够好。在处理生命岌岌可危的关键问题时,模型需要在不同案例之间可靠且一致地做出正确的预测。
竞赛主办方InVitro Cell Research,LLC(ICR)成立于2015年,是一家专注于再生和预防性个性化医疗的私人投资公司。他们在大纽约市地区的办公室和实验室提供最先进的研究空间。Invitro Cell Research的科学家使他们与众不同,帮助指导和定义他们研究如何快速修复老年人的使命。
在本次竞赛中,您将使用健康特征数据的测量来解决生物信息学中的关键问题。根据最少的训练,您将创建一个模型来预测一个人是否患有三种疾病中的任何一种,目的是改进现有方法。
您可以帮助推进不断发展的生物信息学领域,并探索使用各种数据解决复杂问题的新方法。
评估方法
使用平衡对数损失评估提交。总体效果是,每个类对最终分数的重要性大致相同。
每个观察要么是1类的,要么是0类的。对于每个观测值,您必须为每个类提交概率:
其中 (N_{c}) 是类 (c) 的观测值数,(\log) 是自然对数,(y_{c i}) 如果观测值 (i) 属于类 (c),则为 1,否则为 0,(p_{c i}) 是观测值 (i) 属于类 (c) 的预测概率。
给定行的提交概率不需要求和为 1,因为它们在评分之前会重新缩放(每行除以行总和)。为了避免对数函数的极端情况,每个预测概率p替换为:
提交文件
对于测试集中的每一个id,必须预测两个类中哪个类的概率。该文件应包含标头并具有以下格式:
Id,class_0,class_1
00eed32682bb,0.5,0.5
010ebe33f668,0.5,0.5
02fa521e1838,0.5,0.5
040e15f562a2,0.5,0.5
046e85c7cc7f,0.5,0.5
...
数据描述
比赛数据包括与三种年龄相关疾病相关的五十多个匿名健康特征。你的目标是预测受试者是否被诊断出患有这些疾病之一 - 二元分类问题。
请注意,这是一个代码竞赛,其中实际的测试集是隐藏的。在此版本中,我们以正确的格式提供了一些示例数据,以帮助您编写解决方案。对提交进行评分后,此示例测试数据将替换为完整的测试集。完整测试集中大约有 400 行。
数据集
- train.csv - 训练集。
Id
每个观测值的唯一标识符。AB
-GL
56个匿名健康特征。除EJ
外,所有都是数字,它是分类的。Class
二元目标:1
表示受试者已被诊断出患有三种疾病之一,0
表示他们没有。
- test.csv - 测试集。您的目标是预测此集合中的主体属于这两个类中每个类的概率。
- greeks.csv - 补充元数据,仅适用于训练集。
Alpha
标识与年龄相关的疾病的类型(如果存在)。A
无年龄相关疾病。对应于类0
。B
、D
、G
三种与年龄相关的条件。对应于类1
。
Beta
、Gamma
、Delta
三个实验特征。Epsilon
收集此主题数据的日期。请注意,测试集中的所有数据都是在收集训练集之后收集的。