和鲸平台数据分析实战
题目:食品与疾病关系预测算法赛道
一、赛题描述
食品与疾病关系预测算法赛道
越来越多的证据表明,食物分子与慢性疾病之间存在关联甚至治疗关系。营养成分可能直接或间接地作用于人类基因组,并调节参与疾病风险和疾病进展的多个过程。一般来说,营养物质是为活动提供能量的物质,是身体生长和修复的物质,是保持免疫系统健康的物质。随着生物医学数据量的爆炸式增长,现在有可能通过数据驱动的方法通过化合物建立疾病和食物之间的联系,并探索食物营养物质与疾病之间的关系。
初赛任务
本赛道将提供脱敏后的食物与疾病特征,参赛团队根据主办方提供数据,在高度稀疏数据的场景中,进一步挖掘、融合特征并设计模型,以预测食物与疾病的关系。初赛阶段为二分类问题,分类标签分别为 0(无关)、1(存在正面或负面的影响)。
二、数据说明
本次算法赛将提供超过 23.5W 的食物、疾病对应关系及其量化得分,其中食物特征超过 200 个,疾病特征由 3 种不同的方式抽取,累积超过 4000 个特征信息。初赛为 0、1 二分类预测,提供食物、疾病特征,与食物疾病的关系标签。
1. 训练集
训练集包括疾病特征数据、食物特征数据(共计 348 种食物)、以及食物疾病关系,用于模型训练:
疾病特征集:disease_feature1.csv、disease_feature2.csv、disease_feature3.csv
食物特征集:train_food.csv
食物疾病关系:train_answer.csv
2. 初赛测试集
初赛测试集分两个阶段(A/B 榜),不提供预测结果,其中:
初赛第一阶段 A 榜测试集: 2023 年 2 月 22 日中午 12:00:00— 2023 年 3 月 20 日中午 12:00:00,包括 A 榜阶段食物特征数据(共计 115 种食物)与初赛 A 榜提交样例,用于模型结果验证:
preliminary_a_food.csv
preliminary_a_submit_sample.csv
初赛第二阶段 B 榜测试集: 2023 年 3 月 20 日中午 12:00:00— 2023 年 3 月 22 日中午 12:00:00,包括 B 榜阶段食物特征数据(共计 116 种食物)与初赛 B 榜提交样例,用于模型结果验证:
preliminary_b_food.csv
preliminary_b_submit_sample.csv
初赛第二阶段 B 测试集与初赛第一阶段 A 榜测试集分布与规模相同,将于 B 榜提交开始后在赛事主页提供下载,最终初赛排名以初赛第二阶段 B 榜成绩为准。
3. 字段说明
3.1 疾病特征
累计包含 407 种疾病的 4630 种特征信息,三种不同的特征抽取方式将疾病特征划分为三部分特征集,数据高度稀疏。
字段名称 | 格式 | 解释说明 | 范围/特征集1 | 范围/特征集2 | 范围/特征集3 |
---|---|---|---|---|---|
disease_id | 字符串 | 疾病 id | 共涉及 220 种疾病 | 共涉及 301 种疾病 | 共涉及 392 种疾病 |
F_x | 浮点型 | 疾病特征值 | F_0 ~F_4629,字段名称不连续,共涉及 996 种疾病特征 | F_0 ~F_4629,字段名称不连续,共涉及 3181 种疾病特征 | F_1 ~F_4627,字段名称不连续,共涉及 1453 种疾病特征 |
数据样例
3.2 食物特征
序列 | 字段名称 | 格式 | 解释说明 | 示例 |
---|---|---|---|---|
1 | food_id | 字符串 | 食物 id | food_0 |
2~213 | N_x | 浮点型 | 212 种食物特征,字段名称从 N_0 ~N_211 | 0.123 |
数据样例
3.3 食物疾病关系
序列 | 字段名称 | 格式 | 解释说明 | 示例 |
---|---|---|---|---|
1 | food_id | 字符串 | 食物 id | food_0 |
2 | disease_id | 字符串 | 疾病 id | disease_0 |
3 | related | 整型 | 食物与疾病是否相关:0(无关)、1(存在正面或负面的影响) | 0 |
数据样例
三、数据下载
下载地址
四、代码实现
见下一节