Kaggle 赛题解析 | AMP 帕金森进展预测

news2024/10/5 19:14:56

文章目录

  • 一、前言
  • 二、比赛说明
    • 1. Evaluation
    • 2. Timeline
    • 3. Prize
    • 4. Code Requirements
  • 三、数据说明
  • 四、总结

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

竞赛题目:AMP®-Parkinson’s Disease Progression Prediction

竞赛地址:https://www.kaggle.com/competitions/amp-parkinsons-disease-progression-prediction

竞赛目标:本次比赛的目标是预测 MDS-UPDR 评分,该评分用于测量帕金森患者的病情进展。运动障碍学会赞助的统一帕金森病评分量表修订版 (MDS-UPDRS) 是对与帕金森病相关的运动和非运动症状的全面评估。您将开发一个模型,该模型以帕金森患者和正常同龄对照组中的蛋白质和肽水平随时间变化的数据为基础进行训练。您的工作可能有助于提供关于哪些分子在帕金森疾病进展过程中发生变化的重要突破性信息。

竞赛背景:

  • 帕金森病是一种致残的脑部疾病,影响运动、认知、睡眠和其他正常功能。不幸的是,目前还没有治愈方法,而且病情会随着时间的推移而恶化。据估计,到 2037 年,美国将有 160 万人患上帕金森病,经济成本将接近 800 亿美元。研究表明,蛋白质或肽异常在该病的发病和恶化中起着关键作用。通过数据科学更好地理解这一点,可能为开发减缓帕金森病发展甚至实现治愈的新型药物提供重要线索
  • 目前的努力已经获得了 10000 名受试者的复杂的临床和神经生物学数据,以便与研究社区广泛共享。使用这些数据已经发现了一些重要的发现,但仍缺乏明确的生物标志或治愈方法
  • 竞赛主办方——加速药物合作伙伴关系®帕金森病 (AMP®PD) 是由政府、工业界和非营利组织组成的公私合作伙伴关系,通过美国国立卫生研究院基金会 (FNIH) 进行管理。该合作伙伴创建了 AMP®PD 知识平台,其中包括对帕金森病患者进行深度分子特征化和纵向临床分析,旨在确定和验证帕金森病的诊断、预后和 / {/} /或疾病进展生物标志物。
  • 您的工作可能有助于寻找治愈帕金森病的方法,从而减轻患者的巨大痛苦和医疗费用。

二、比赛说明

1. Evaluation

提交的作品将根据预测值和实际值之间的 SMAPE 进行评估。我们定义当实际值和预测值均为 0 时,SMAPE = 0。对于每次采集蛋白质/肽样本的病人就需要估算他们在该次访问时的 UPDRS 评分,并预测他们在可能的 6、12 和 24 个月后的任何访问中的评分。最终没有实现的访问的预测将被忽略。

您必须使用提供的 Python 时间序列 API 提交到这个竞赛,该 API 可以确保模型不向前窥视时间。要使用 API,请在 Kaggle Notebooks 中遵循此模板:

import amp_pd_peptide

env = amp_pd_peptide.make_env()             # initialize the environment
iter_test = env.iter_test()                 # an iterator which loops over the test files

for (test, test_peptides, test_proteins, sample_submission) in iter_test:
    sample_prediction_df['rating'] = np.arange(len(sample_prediction))       # make your predictions here
    env.predict(sample_prediction_df)       # register your predictions

2. Timeline

除非另有说明,所有截止日期均为当天 UTC 时间晚上 11:59。竞赛组织者保留更新比赛时间表的权利,如果他们认为有必要的话。

  • 2023 年 2 月 16 日 - 开始日期。
  • 2023 年 5 月 11 日 - 报名截止日期。您必须在此日期之前接受竞赛规则才能参加比赛。
  • 2023 年 5 月 11 日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
  • 2023 年 5 月 18 日 - 最终提交截止日期。

3. Prize

  • 第 1 名 - 25,000 美元
  • 第 2 名 - 20,000 美元
  • 第 3 名 - 15,000 美元

4. Code Requirements

这是一场代码竞赛。竞赛作品必须通过 Notebooks 提交。为了使 “提交” 按钮在提交后处于活动状态,必须满足以下条件:

  • CPU Notebook <= 9小时运行时间。
  • GPU Notebook <= 9小时运行时间。
  • 禁用互联网访问。
  • 允许使用自由和公开可用的外部数据,包括预训练模型。
  • 提交文件必须命名为 submission.csv。API 将为您生成此提交文件。

请参阅 Code Competition FAQ 以获取有关如何提交的更多信息。如果遇到提交错误,请查看代码调试文档。


三、数据说明

本次竞赛的目标是利用蛋白质丰度数据预测帕金森病 (PD) 的病程。PD 涉及的完整蛋白质组仍然是一个开放的研究问题,任何具有预测价值的蛋白质都值得进一步研究。数据集的核心包括从数百名患者的脑脊液 (CSF) 样本中获得的质谱读数导出的蛋白质丰度值。每个病人在多年的时间内贡献了多个样本,同时还进行了 PD 严重程度的评估。

本次竞赛是一个时间序列的代码竞赛:您将收到测试集数据,并使用 Kaggle 的时间序列 API 进行预测。

train_peptides.csv 是蛋白质质谱数据在肽水平上的表现形式,肽是蛋白质的组成部分。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码,通常每个蛋白质有几个肽。
  • Peptide - 肽中所包含的氨基酸序列。请参考此表格中的相关代码。一些罕见的注释可能未包含在表格中。测试集可能包含在训练集中未发现的肽
  • PeptideAbundance - 样品中氨基酸的频率。

train_proteins.csv 是从肽水平数据聚合的蛋白质表达频率。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码。通常每个蛋白质有几个肽。测试集可能包含在训练集中未发现的蛋白质。
  • NPX - 经过归一化的蛋白质表达。该蛋白质在样本中出现的频率。可能与组成肽的氨基酸并非一对一的关系,因为某些蛋白质包含重复的给定肽片段

train_clinical_data.csv 是临床相关的数据。

  • visit_id - 访问的 ID 代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • updrs_[1-4] - 统一帕金森病评分量表 (UPDRS) 第 N 部分的病人得分。较高的分数表示症状更为严重。每个子部分涵盖不同的症状类别,例如第 1 部分涵盖情绪和行为,第 3 部分涵盖运动功能。
  • upd23b_clinical_state_on_medication - 病人在 UPDRS 评估期间是否服用 Levodopa 等药物。预计主要影响第 3 部分(运动功能)的得分。这些药物的效果相当快(约为一天),因此病人在一个月内常常会两次接受运动功能测试,一次在服用药物的情况下,一次在未服用药物的情况下。

supplemental_clinical_data.csv 是没有任何跟脑脊液样本相关的临床记录。该数据旨在提供关于帕金森病的典型进展的额外背景。与 train_clinical_data.csv 相同的列。

example_test_files/ 里的文件旨在说明 API 功能的数据,包括 API 提供的相同列(即没有 updrs 列)。

amp_pd_peptide/ 里的文件使 API 能够运行。预计 API 能够在不到五分钟的时间内提供所有数据(少于 1000 个额外病人),并保留少于 0.5 GB 的内存。这里提供了 API 提供的简短演示。

public_timeseries_testing_util.py 是一个可选文件,旨在使自定义离线 API 测试更容易运行。有关详细信息,请参阅脚本的 docstring。


四、总结

竞赛题目:使用帕金森病患者的蛋白质和肽数据测量来预测疾病的进展

竞赛类型:数据挖掘、时间序列、回归预测

关键词:时间序列、帕金森进展预测、生物信息、数据分析、机器学习

在这里插入图片描述

赛题是一个典型的结构化数据预测赛题,拥有多张表,且是以患者作为样本,多了解一些相关的专业知识更好。

在解决题目时,需要考虑:

  • 支持多维输入的时序预测模型。
  • 模型训练和预测速度,以及可解释性。
  • 模型泛化性和鲁棒性。
  • 根据样本个数,应该是树模型和基础时序模型为主要的预测模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/421232.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

漫画:什么是快速排序算法?

这篇文章&#xff0c;以对话的方式&#xff0c;详细着讲解了快速排序以及排序排序的一些优化。 一禅&#xff1a;归并排序是一种基于分治思想的排序&#xff0c;处理的时候可以采取递归的方式来处理子问题。我弄个例子吧&#xff0c;好理解点。例如对于这个数组arr[] { 4&…

Python调用GPT3.5接口的最新方法

GPT3.5接口调用方法主要包括openai安装、api_requestor.py替换、接口调用、示例程序说明四个部分。 1 openai安装 Python openai库可直接通过pip install openai安装。如果已经安装openai&#xff0c;但是后续提示找不到ChatCompletion&#xff0c;那么请使用命令“pip instal…

07平衡负载:gRPC是如何进行负载均衡的?

负载均衡(Load Balance),其含义就是指将请求负载进行平衡、分摊到多个负载单元上进行运行,从而协同完成工作任务。 负载均衡的主要作用: 提升并发性能:负载均衡通过算法尽可能均匀的分配集群中各节点的工作量,以此提高集群的整体的吞吐量。 提供可伸缩性:可添加或减少服…

【react 全家桶】状态提升

本人大二学生一枚&#xff0c;热爱前端&#xff0c;欢迎来交流学习哦&#xff0c;一起来学习吧。 <专栏推荐> &#x1f525;&#xff1a;js专栏 &#x1f525;&#xff1a;vue专栏 &#x1f525;&#xff1a;react专栏 08 【状态提升】 文章目录08 【状态提升】1.介绍…

【Python实战】Python采集二手车数据——超详细讲解

前言 今天&#xff0c;我们将采集某二手车数据&#xff0c;通过这个案例&#xff0c;加深我们对xpath的理解。通过爬取数据后数据分析能够直观的看到二手车市场中某一品牌的相对数据&#xff0c;能够了解到现在的二手车市场情况&#xff0c;通过分析数据看到二手车的走势&#…

C++初阶 -1- C++入门part2-引用

文章目录6.引用什么是引用&#xff1f;引用的使用引用的应用传值、传引用效率比较权限引用和指针的区别⭐7.内联函数8.auto关键字9.基于范围的for循环10.指针空值——nullptr6.引用 什么是引用&#xff1f; “别名” int a 0; int& b 0;&#x1f446;即 地址为0x00000…

Redis7搭建主从+集群三主三从主从关系由集群分配

目录文件不清晰的去Redis7搭建主从哨兵了解 别忘记关闭防火墙 hash算法一致性 1背景–主从关系由客户端构建分配 三台虚拟机&#xff0c;一台虚拟机搭建两个redis 且两个不同的端口 第一台ip和分配两个端口 6381 6382 --- 192.168.154.128 6381 6382 第二台ip和分配两个…

分析型数据库:分布式分析型数据库

分析型数据库的另外一个发展方向就是以分布式技术来代替MPP的并行计算&#xff0c;一方面分布式技术比MPP有更好的可扩展性&#xff0c;对底层的异构软硬件支持度更好&#xff0c;可以解决MPP数据库的几个关键架构问题。本文介绍分布式分析型数据库。 — 背景介绍— 目前在分布…

人工智能前沿——「全域全知全能」人类新宇宙ChatGPT

&#x1f680;&#x1f680;&#x1f680;OpenAI聊天机器人ChatGPT——「全域全知全能」人类全宇宙大爆炸&#xff01;&#xff01;&#x1f525;&#x1f525;&#x1f525; 一、什么是ChatGPT?&#x1f340;&#x1f340; ChatGPT是生成型预训练变换模型&#xff08;Chat G…

springBoot --- mybatisPlus自动生成代码

mybatisPlus自动生成代码mybatisPlus自动生成代码pom.xmlapplication.yml自动生成代码测试主启动类生成目录结果使用插件 --- 版本要求&#xff1a;3.4.0 版本以上pom.xml更新mybatisplus插件版本mp报错‘AutoGenerator()‘ has private access in ‘com.baomidou.mybatisplus.…

离散数学_九章:关系(2)

关系9.2 n元关系及其应用 1、n元关系&#xff0c;关系的域&#xff0c;关系的阶2、数据库和关系 1. 数据库 2. 主键 3. 复合主键 3、n元关系的运算 1. 选择运算 (Select) 2. 投影运算 (Project) 3. 连接运算 9.2 n元关系及其应用 n元关系&#xff1a;两个以上集合的元素间…

网络安全从业人员应该如何提升自身的web渗透能力?

前言 web 渗透这个东西学起来如果没有头绪和路线的话&#xff0c;是非常烧脑的。 理清 web 渗透学习思路&#xff0c;把自己的学习方案和需要学习的点全部整理&#xff0c;你会发现突然渗透思路就有点眉目了。 程序员之间流行一个词&#xff0c;叫 35 岁危机&#xff0c;&am…

Amazon SageMaker测评分享,效果超出预期

一、前言随着科技的进步和社会的发展&#xff0c;人工智能得到了愈加广泛的重视&#xff0c;特别是最近大火的Chatgpt&#xff0c;充分展现了研发通用人工智能助手广阔的研究和应用前景。让越来越多的组织和企业跟风加入到人工智能领域的研究中&#xff0c;但机器学习的实施是一…

项目---基于TCP的高并发聊天系统

目录 服务端 服务端视角下的流程图 一、数据库管理模块 1.1 数据库表的创建 1.2 .对于数据库的操作 1.2.1首先得连接数据库 1.2.2执行数据库语句 1.2.3 返回数据库中存放的所有用户的信息 1.2.4返回数据库中存放的所有用户的好友信息 二、用户管理模块 2.1、UserInfo类&…

深度学习和人工智能之间是什么样的关系?

深度学习与人工智能概念的潜在联系&#xff0c;我们依然借助维恩图来说明&#xff0c;如图4.1所示。 1、人工智能 “人工智能”这个概念新鲜时髦但又含混模糊&#xff0c;同时包罗万象。尽管如此,我们仍尝试对 人工智能进行定义:用一台机器处理来自其周围环境的信息,然后将这些…

学习系统编程No.10【文件描述符】

引言&#xff1a; 北京时间&#xff1a;2023/3/25&#xff0c;昨天摆烂一天&#xff0c;今天再次坐牢7小时&#xff0c;难受尽在不言中&#xff0c;并且对于笔试题&#xff0c;还是非常的困难&#xff0c;可能是我做题不够多&#xff0c;也可能是没有好好的总结之前做过的一些…

15.transformer全解

欢迎访问个人网络日志&#x1f339;&#x1f339;知行空间&#x1f339;&#x1f339; 文章目录1.基础介绍2.网络结构2.1 Input/Output Embedding2.2 自注意力机制 self-attention2.3 point-wise全连接层2.4 位置编码 Position Encoding3.输入处理过程示例4.代码实现1.基础介绍…

论文阅读和分析:Hybrid Mathematical Symbol Recognition using Support Vector Machines

HMER论文系列 1、论文阅读和分析&#xff1a;When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客 2、论文阅读和分析&#xff1a;Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客 3、论…

自然语言处理(七): Deep Learning for NLP: Recurrent Networks

目录 1. N-gram Language Models 2. Recurrent Neural Networks 2.1 RNN Unrolled 2.2 RNN Training 2.3 (Simple) RNN for Language Model 2.4 RNN Language Model: Training 2.5 RNN Language Model: Generation 3. Long Short-term Memory Networks 3.1 Language M…

论文阅读【14】HDLTex: Hierarchical Deep Learning for Text Classification

论文十问十答&#xff1a; Q1论文试图解决什么问题&#xff1f; 多标签文本分类问题 Q2这是否是一个新的问题&#xff1f; 不是 Q3这篇文章要验证一个什么科学假设&#xff1f; 因为文本标签越多&#xff0c;分类就越难&#xff0c;所以就将文本类型进行分层分类&#xff0c;这…