特征选择策略：为检测乳腺癌生物标志物寻找新出口

内容一览：microRNA（小分子核糖核酸）是一类短小的单链非编码 RNA 转录体。这些分子在多种恶性肿瘤中呈现失控性生长，因此近年来被诸多研究确定为确诊癌症的可靠的生物标志物 (biomarker)。在多种病理分析中，差异表达分析 (Differential Expression Analysis) 常被视为检测关键生物标志物的有效方法，而来自意大利那不勒斯费德里科二世大学的研究人员，则提出基于机器学习的特征选择 (Feature Selection) 策略能够更为有效的检测，并建议将其发现的 20 种 microRNA 作为乳腺癌诊断性生物标志物。
关键词：特征选择 microRNA 乳腺癌

本文首发自 HyperAI 超神经微信公众平台~

根据国家卫健委发布的 2022 年版《乳腺癌治疗指南》，乳腺癌是女性常见的恶性肿瘤之一，发病率高居女性恶性肿瘤之首。世界卫生组织统计，2020 年，全球共有 230 万女性被诊断为乳腺癌，随着治疗手段的不断提高，早期乳腺癌五年生存率可达到 90% 甚至更高。因此，乳腺癌早期的准确诊断尤为重要。

microRNA 除了在生物方面具备诸多关键作用，其表达上的改变也与多种癌症相关，因此可作为可靠的诊断性生物标志物（putative diagnostic biomarker）。来自意大利那不勒斯费德里科二世大学的研究人员基于机器学习，利用特征选择策略，通过分析 3 种方法的稳定性和分类性能，得到了一组乳腺癌特定诊断生物标志物，同时还发现了乳腺癌疾病发展和演变中的推定关键基因。

目前，这一研究成果发表在《第 18 届生物信息学与生物统计学计算智能方法会议论文集（CIBB 2023)》上，标题为《Robust Feature Selection strategy detects a panel of microRNAs as putative diagnostic biomarkers in Breast Cancer》。

该研究成果已发表在 CIBB 2023 上

论文地址：

https://www.researchgate.net/publication/372083934

实验概述

在本研究中，科研人员发现借助 3 种特征选择方法（增益率、随机森林及支持向量机递归特征消除），可以更加高效地提取诊断分子组合，他们揭示了一个包含 20 个 microRNA 的组合 (panel)，其中 hsa-mir-337、hsa-mir-378c 以及 hsa-mir-483 在目前的乳腺癌诊断生物标志物中，暂未受到医学界的广泛关注。该方法能够区分健康及肿瘤样本，与常用的差异表达法相比，其分类性能更佳，更容易识别易被低估甚至忽略的特征。

图 1: Pipeline 概述

Workflow 包含 4 个关键步骤：

(i) 在训练 TCGA 子集上进行 Ensemble-FS 计算

(ii) 对 TCGA/GEO 数据集进行差异表达分析

(iii) 比较差异表达分析和特征选择结果的分类性能，并评估特征选择方法的稳定性

(iv) 用计算机模拟验证所选 signature 的前 20 种 microRNA，对枢纽基因靶点进行检测。

实验详情

数据集

实验数据来源包含两个渠道：美国 GDC 官网的 TCGA-BRCA 项目以及 Gene Expression Omnibus (GEO) data repository (GSE97811)。

实验团队从 GDC TCGA-BRCA 项目中，合计收集了 1,881 个 microRNA-Seq 数据，并按照 8:2 的比例，分成了训练集和测试集两部分。这些数据与 300 个实体原发肿瘤样本 (T) 以及 101 个正常相邻肿瘤 (NAT) 样本相关，都属于导管及小叶乳腺组织。应用特征选择法之前，这些数据都进行了方差稳定归一化处理 (variance stabilizing normalization)。

同时，科研人员从 GEO 数据库 (GSE97811) 下载了一个包含 2,565 个 microRNA 的微阵列数据集 (microarray dataset)，作为本次实验的验证集。该数据集包括 16 个正常样本及 45 个肿瘤样本，然后进行数据插补 (data imputation)。

由于 GEO 数据（本实验中的验证集）涉及到的是成熟 microRNA 表达，TCGA 数据（本实验中的训练集和测试集）则包含早期形态 (precursor form)，为了统一数据，科研人员在 GEO 数据样本中只选择了平均计数值高于其对立链 (opposite strand) 的可替代成熟 microRNA；同时, microRNA 的名称也已经转换成了相应的早期形态名称。

通过这一过程后，GEO 数据（验证集）的维度减少至 1,361 个 microRNA，相应的 TCGA RNA-Seq 数据也被收集，共包括 20,404 种基因。

1. 特征选择法及 Ensemble 程序应用

科研人员选择了 3 种特征选择方法与差异表达分析法进行比较，分别是 Gain Ratio（增益率）、Random Forest（随机森林）和 SVM-RFE（支持向量机递归特征消除）。将 3 种方法应用于 microRNA-Seq 表达 TCGA 数据的 500 个子集上，以识别能区分正常样本和肿瘤样本的稳健特征面板 (panel)。观察到的结果中，按照 8:2 的比例划分为训练集和测试集，然后对数据通过重采样 (resampling) 进行自助法 (bootstrapping) 处理，使其符合数据扰动集成程序 (Data Perturbation Ensemble procedure)。每次计算返回的 500 个按「importance score」降序排列的 microRNA 向量。

｜备注：importance score（重要性得分）表示用算法计算得出的每个 feature（特征）在分类中的影响。

importance score 越高，赋予 feature 的 rank 就越低。然后科研人员通过一个聚合程序，推导出每种特征选择方法的共识签名 (consensus signature)，最终每组 microRNA 保留得分前 200 名的 feature。

2. 稳定性测试

用 Kuncheva Index (KI) 和 Percentage of Overlapping Gene/Features (POG) 评估特征选择方法的一致性，用 Stot 统计法（KI 的成对测量）确定所有方法之间的稳定性。这些统计数据是在 signature 长度逐渐增加的过程中计算得出的，feature 数量从 2 开始到 200 结束，每次重新计算增加 2 个 unit。

Stot 统计法公式

3. 差异表达分析和 DE-signature

对 TCGA 数据集（含 microRNA-Seq 及 RNA-Seq）进行差异表达分析，从原始计数 (raw count) 开始，使用精确检验 (Exact Test)，然后保留 FDR <= 0.01 及 Log2FC 阈值为 |0.5| 的 DE feature。为了获得 DE-microRNA 的 signature，将 Log2FC 值转化为绝对值，并按照 abs (Log2FC) 递减的顺序对 microRNA（保留前 200 个 feature）进行排序。

GEO 验证集借助 Limma 进行差异分析表达，该数据集获取 DE-signature 的参数及程序与 TCGA 数据集一致。

4. 分类性能分析

为了确定每个 signature 区分健康人及癌症患者的能力，科研人员在测试子集 (TCGA) 和验证集 (GEO) 上对 4 个 signature（包括特征选择 panel 和差异表达 panel）都进行了预测性分析。

最后计算出精度平均值 (ACC)、K 统计量 (KK) 以及马修斯相关系数 (MCC) 在各个 fold 以及每个 signature 的多个长度上的平均值。

5.SVM-RFE microRNA-signature 靶点 (target) 检测

为了识别 microRNA 潜在的基因靶点，科研人员进行了以下操作：

1. 将前 20 个 SVM-RFE microRNA 按照其在肿瘤样本中的上调 (up-regulated) 或下调 (down-regulated) 进行分类。

2. 对 RNA-Seq 数据进行差异表达分析，检测差异表达基因 (FDR <= 0.05)。

3. 应用斯皮尔曼相关性分析，对比 microRNA 表达与差异表达基因，只保留与 down-microRNA 负相关的 up-gene，以及 up-microRNA 负相关的 down-gene (rho <= -0.5)。

4. 收集所有经过验证的 microRNA 基因靶点 (gene targets)，且只保留那些也显示出 DE-correlated 的。

6. 网络中心性及枢纽基因识别

选定失调基因的相关矩阵 (Spearman)，并用其构建一个图结构基因网络：保留 Kleinberg’s hub 中心性得分 > 75，rho > 0.8 或 rho < -0.6 的枢纽基因。对枢纽基因进行基因富集分析 (ORA)，以便从 REACTOME 数据库中探索最丰富的 pathway。FDR 调整后 pValue 值阈设定为 0.005。

实验结果

实验表明，应用 3 种特征选择方法后，都返回了 500 个按 importance score 降序排列的 microRNA signature，汇总后得到 3 个共识 panel。值得注意的是，排名前 3 的 microRNA（hsa-mir-139、hsa-mir-96 及 hsa-mir-145）在所有 panel 中都出现了，显示出这些分子在区分肿瘤样本和健康样本中的重要性。

｜结论 1：SVM-RFE 稳定性最高

从 KI 和 POG 在共识 panel 上的计算来看，SVM-RFE 法最具稳定性，signature 长度达到 20 个 feature 时最突出。同样，Stot 指数的结果也显示出 SVE-RFE 法具有最高稳定性。

图 2: 3 种特征选择方法的稳定性指数比较

蓝色：Random Forest（随机森林）

粉色：Gain Ratio（增益率）

黄色：SVM-RFE（支持向量机递归特征消除）

｜结论 2: SVM-RFE signature 在分类中的表现优于差异表达 signature

所有单独 panel 进行分类性能分析后，无论是测试集 (TCGA) 还是验证集 (GEO)，都显示出用 SVM-RFE 获得的 signature 的预测能力最高。

图 3: 前 20 个 microRNA 分类性能及维恩图

A：条形图显示了在测试子集和外部验证 GEO 数据集上计算的平均 statistic

ACC：精度

KK：K 统计量

MCC：马修斯相关系数

绿色：DE（差异表达分析法，该实验中的对照方法）

粉色：GR（增益率）

蓝色：RF（随机森林）

橙色：RFE（SVM-RFE，支持向量机递归特征消除）

B：每个 signature 的前 20 个 microRNA 的维恩图，其中标注了 SVM-RFE panel 前 20 中的一些有趣的 microRNA–hsa-mir-337、hsa-mir-378c 及 hsa-mir-483，这 3 个 micro-RNA 在 3 种特征选择方法中都出现了，但目前关于乳腺癌的研究中尚未完全确定其作为诊断依据是否可靠。

｜结论 3: 网络分析揭示了疾病演变中的潜在关键基因

实验表明，CDC25、TPX2 及 KIF18B 在不同类型癌症以及三阴性乳腺癌患者的干细胞中，都显示高度表达，且 TGFBR2 的下调与癌症进展相关。