比赛链接:AMP®-Parkinson's Disease Progression Prediction | Kaggle
比赛简介
本次竞赛的目标是预测MDS-UPDR评分,该评分衡量帕金森病患者的进展。运动障碍协会赞助的统一帕金森病评定量表(MDS-UPDRS)修订版是对与帕金森病相关的运动和非运动症状的全面评估。您将开发一个模型,该模型根据帕金森病受试者与正常年龄匹配的对照受试者随时间推移的蛋白质和肽水平数据进行训练。
您的工作可以帮助提供有关哪些分子随着帕金森病的进展而变化的重要突破性信息。
帕金森病 (PD) 是一种致残的脑部疾病,会影响运动、认知、睡眠和其他正常功能。不幸的是,目前没有治愈的方法 - 并且疾病会随着时间的推移而恶化。据估计,到2037年,美国将有1万人患有帕金森病,经济成本接近6亿美元。研究表明,蛋白质或肽异常在这种疾病的发作和恶化中起着关键作用。在数据科学的帮助下,更好地了解这一点可以为开发新的药物治疗以减缓进展或治愈帕金森病提供重要线索。
目前的努力已经产生了超过10,000个受试者的复杂临床和神经生物学数据,以便与研究界广泛共享。使用这些数据已经发表了许多重要发现,但仍然缺乏明确的生物标志物或治疗方法。
竞赛主办方加速药物伙伴关系®帕金森病(AMP®PD)是政府,行业和非营利组织之间的公私合作伙伴关系,通过美国国立卫生研究院基金会(FNIH)进行管理。该伙伴关系创建了AMP PD知识平台,其中包括帕金森病患者的深层分子表征和纵向临床分析,目的是识别和验证帕金森病的诊断,预后和/或疾病进展生物标志物。
您的工作可以帮助寻找治疗帕金森病的方法,这将减轻这种疾病患者的大量痛苦和医疗费用。
评估方法
在SMAPE上,在预测值和实际值之间评估提交的内容。当实际值和预测值均为 0 时,我们定义 SMAPE = 0。
对于每次采集蛋白质/肽样本的患者就诊,您需要估计他们在该就诊时的 UPDRS 评分,并预测他们在 6、12 和 24 个月后的任何潜在就诊的评分。没有采集的不计入评估。
您必须使用提供的 python 时间序列 API 提交此竞赛,以确保模型不会及时向前窥视。若要使用 API,请按照 Kaggle 笔记本中的以下模板进行操作:
import amp_pd_peptide
env = amp_pd_peptide.make_env() # initialize the environment
iter_test = env.iter_test() # an iterator which loops over the test files
for (test, test_peptides, test_proteins, sample_submission) in iter_test:
sample_prediction_df['rating'] = np.arange(len(sample_prediction)) # make your predictions here
env.predict(sample_prediction_df) # register your predictions
数据描述
本次竞赛的目标是使用蛋白质丰度数据预测帕金森病(PD)的病程。参与PD的全套蛋白质仍然是一个悬而未决的研究问题,任何具有预测价值的蛋白质都可能值得进一步研究。该数据集的核心包括蛋白质丰度值,该值来自从数百名患者收集的脑脊液(CSF)样本的质谱读数。每位患者在多年的时间里提供了几个样本,同时还对PD的严重程度进行了评估。
这是一个时间序列代码竞赛:您将接收测试集数据并使用Kaggle的时间序列API进行预测。
train_peptides.csv肽水平的质谱数据。肽是蛋白质的组成亚基。
visit_id
- 访问的ID代码。visit_month
- 就诊月份,相对于患者第一次就诊。patient_id
- 患者的ID码。UniProt
- 相关蛋白质的 UniProt ID 代码。每种蛋白质通常有几种肽。Peptide
- 肽中包含的氨基酸序列。有关相关代码,请参阅此表。表中可能不包含一些罕见的注释。测试集可能包括在训练集中未找到的肽。PeptideAbundance
- 样品中氨基酸的频率。
train_proteins.csv从肽水平数据汇总的蛋白表达频率。
visit_id
- 访问的ID代码。visit_month
- 就诊月份,相对于患者第一次就诊。patient_id
- 患者的ID码。UniProt
- 相关蛋白质的 UniProt ID 代码。每种蛋白质通常有几种肽。测试集可能包括在训练集中未发现的蛋白质。NPX
- 标准化蛋白表达。蛋白质在样品中出现的频率。可能与组分肽没有1:1的关系,因为某些蛋白质含有给定肽的重复拷贝。
train_clinical_data.csv
visit_id
- 访问的ID代码。visit_month
- 就诊月份,相对于患者第一次就诊。patient_id
- 患者的ID码。updrs_[1-4]
- 统一帕金森病评定量表N部分的患者评分。数字越高表示症状越严重。每个小节涵盖一类不同的症状,例如第 1 部分的情绪和行为以及第 3 部分的运动功能。upd23b_clinical_state_on_medication
- 患者在UPDRS评估期间是否服用左旋多巴等药物。预计主要影响第 3 部分(运动功能)的分数。这些药物消退得相当快(大约一天),因此患者通常在一个月内进行两次运动功能检查,包括有药和不服药。
supplemental_clinical_data.csv没有任何相关脑脊液样本的临床记录。该数据旨在提供有关帕金森病典型进展的其他背景信息。使用与train_clinical_data.csv相同的列。
example_test_files/旨在说明 API 如何运行的数据。包括 API 提供的相同列(即没有 updrs 列)。
amp_pd_peptide/启用 API 的文件。预计 API 将在 1 分钟内提供所有数据(少于 000,0 名额外患者),并保留少于 5.<> GB 的内存。此处提供了有关 API 交付内容的简要演示。
public_timeseries_testing_util.py一个可选文件,旨在更轻松地运行自定义脱机 API 测试。有关详细信息,请参阅脚本的文档字符串。