机器学习在癌症分子亚型分类中的应用

news2026/2/11 13:33:29

学习笔记：机器学习在癌症分子亚型分类中的应用——Cancer Cell 研究解析

在这里插入图片描述

1. 文章基本信息

标题：Classification of non-TCGA cancer samples to TCGA molecular subtypes using machine learning
发表期刊：Cancer Cell
发表时间：2025 年，第 53 卷，第 2 期
研究目标：
- 开发机器学习分类器，用于将非 TCGA 样本映射到TCGA 定义的分子亚型。
- 支持多组学数据整合（mRNA、DNA 甲基化、CNV、突变、miRNA），提高分类准确度。
- 提供标准化工具（Docker 容器化），使研究和临床应用更便捷。

2. 文章的主要行文思路

(1) 引言（Introduction）

介绍癌症传统分类方法（基于组织学和解剖学分类）的局限性。
介绍 TCGA 数据集在癌症亚型研究中的重要性。
说明当前分子亚型分类方法在非 TCGA 样本上的应用挑战。
提出研究目标：使用机器学习方法开发分类器，将非 TCGA 样本归类到 TCGA 定义的亚型。

(2) 方法（Methods）

数据来源：使用 TCGA 的多组学数据，包括 mRNA、DNA 甲基化、CNV、miRNA、突变数据。
机器学习方法：
- 使用五种 ML 方法（AKLIMATE、CloudForest、SKGrid、JADBio、subSCOPE）。
- 训练 8,791 个 TCGA 样本，涵盖 26 种癌症队列和 106 个分子亚型。
- 使用交叉验证评估模型性能，最终选出 737 个最优分类器。
外部验证：
- 采用 METABRIC 和 AURORA 乳腺癌数据集，测试模型的泛化能力。

在这里插入图片描述

(3) 结果（Results）

分类模型构建与性能评估：
- 统计不同数据类型对分类的贡献。
- 发现 mRNA 在大多数癌症亚型分类中起主导作用。
外部数据集验证：
- 评估不同 ML 方法在不同测序平台（RNA-seq vs. 微阵列）上的稳健性。
模型泛化能力：
- 发现 70 个样本足以预测分类器的最终性能。
- 研究不同癌症亚型对单一数据类型的依赖程度。

(4) 讨论（Discussion）

TCGA 亚型分类的临床应用潜力：
- 预测新样本时，可提供标准化的癌症分子亚型信息。
- 未来可用于开发简化的癌症检测面板。

在这里插入图片描述

研究局限性：
- TCGA 数据可能未涵盖所有癌症亚型。
- 不同测序平台可能影响模型泛化能力。

(5) 结论（Conclusion）

研究提供了一个通用的分类框架，可用于非 TCGA 样本的 TCGA 亚型分类。
公开 737 个高性能分类器，可用于癌症检测和精准医学研究。

3. 文章的主要贡献

(1) 机器学习驱动的癌症分型

使用 5 种机器学习方法 训练 TCGA 数据：
- AKLIMATE
- CloudForest
- SKGrid
- JADBio
- subSCOPE
训练 412,585 个分类模型，最终筛选出 737 个最优模型。
提供 Docker 版本，保证可复现性和易用性。

(2) 多组学数据整合

研究分析了不同数据类型的贡献：
- mRNA 对大多数癌症亚型分类最关键。
- DNA 甲基化 在 LGG、GBM 等脑肿瘤分类中尤为重要。
- 突变数据（Mutations） 适用于黑色素瘤（SKCM）。
- 整合多种组学数据可提高分类准确度。

(3) 临床应用价值

提供 TCGA 亚型分类，提高癌症精准医学能力：
- 不同 TCGA 亚型的患者具有不同的预后和治疗策略。
- 例如：CMS1 结直肠癌（高 MSI-H）对 PD-1 免疫治疗敏感，而 CMS4 免疫排斥明显。
帮助医生和研究人员在新数据集中分类样本，指导精准治疗。

(4) 公开可用的工具

提供 Docker 容器，简化安装和使用。
GitHub 代码公开，提高可复现性。

https://github.com/NCICCGPO/gdan-tmp-models

3. 作者的主要单位

单位	机构类型	研究重点	是否与临床相关
Oregon Health & Science University (OHSU)	医学中心	癌症基因组学、精准医学	✅ 高度相关
University of California, San Francisco (UCSF)	医学中心	肿瘤学、精准医学	✅ 高度相关
Dana-Farber Cancer Institute (DFCI)	癌症中心	肿瘤学、临床研究	✅ 高度相关
MD Anderson Cancer Center (UTMDACC)	癌症医院	癌症治疗、精准医学	✅ 高度相关
National Cancer Institute (NCI)	政府研究机构	癌症基因组、精准医学	✅ 高度相关
The Broad Institute (MIT & Harvard)	研究机构	癌症基因组、药物开发	✅ 高度相关
University of California, Santa Cruz (UCSC)	大学	计算生物学、生物信息学	❌ 主要是计算研究
King Abdullah University of Science and Technology (KAUST)	大学	计算机科学、机器学习	❌ 主要是算法，不直接涉及临床

📌 结论：

该研究团队涵盖了癌症精准医学、基因组学、计算生物学、机器学习等多个领域，保证了该研究的高临床相关性和计算分析的前沿性。

4. 如何使用 Docker 进行数据处理

(1) 安装 Docker

首先，确保服务器已安装 Docker：

docker --version  # 确认安装

如果未安装，可以运行以下命令安装：

sudo apt update
sudo apt install docker.io -y
sudo systemctl start docker
sudo systemctl enable docker

(2) 克隆 GitHub 仓库

git clone https://github.com/NCICCGPO/gdan-tmp-models.git
cd gdan-tmp-models

(3) 拉取 Docker 镜像

docker pull nciccpo/gdan-tmp-aklimate:latest
docker pull nciccpo/gdan-tmp-cloudforest:latest
docker pull nciccpo/gdan-tmp-skgrid:latest
docker pull nciccpo/gdan-tmp-jadbio:latest
docker pull nciccpo/gdan-tmp-subscope:latest

(4) 准备输入数据

mkdir -p ~/gdan-input
mkdir -p ~/gdan-config

将**RNA-seq 表达数据（FPKM/TPM）**放入 ~/gdan-input/ 目录，并创建 YAML 配置文件 ~/gdan-config/config.yml：

model: aklimate
input_data:
  mRNA: /data/mRNA_expression.csv
output:
  results: /data/prediction_results.csv

(5) 运行 Docker 进行 TCGA 亚型预测

docker run --rm --cpus=64 \
    -v ~/gdan-input:/data \
    -v ~/gdan-config:/config \
    nciccpo/gdan-tmp-aklimate:latest /config/config.yml

📌 参数解释

--cpus=64：使用 64 核 CPU（可根据服务器性能调整）。
-v ~/gdan-input:/data：映射输入数据目录到 /data。
-v ~/gdan-config:/config：映射 YAML 配置文件目录到 /config。

(6) 查看预测结果

ls ~/gdan-input
cat ~/gdan-input/prediction_results.txt

或者：

import pandas as pd
df = pd.read_csv("~/gdan-input/prediction_results.csv")
print(df.head())

5. 结果解读

示例结果：

Sample_ID    Predicted_TCGA_Subtype    Confidence_Score
Sample_001   BRCA_LuminalA             0.95
Sample_002   LGG_IDH_Mutant             0.87
Sample_003   SKCM_BRAF_Mutant           0.92

📌 解读