乳腺癌(BRCA)是一种发病率较高的异质性疾病,是女性癌症死亡的第二大原因[1]。此外,其发病率在全球范围内持续增长,并在 2020 年超过肺癌,成为全球诊断率最高的癌症[2]。此外,BRCA 患者由于死亡率较高和肿瘤内异质性的特点,生活质量较差,生存期较短。尽管如此,由于缺乏可靠的预后生物标志物,临床治疗方案和预后判断主要依据肿瘤的 TNM 分级、肿瘤的临床分期、激素表达水平和 HER2 表达水平。在 BRCA 研究中,迫切需要找到新的生物标志物来改善目前的预后和可能的增殖转移治疗策略,以进一步改善疾病预后。
图1 流程图
1.TCGA-BRCA 中 DEGs 的鉴定
利用 "limma "R软件包发现了1000个正常组和肿瘤组之间的DEGs(adj. P值< 0.05 and |log2FC| > 1)。DEGs包括396个上调基因和604个下调基因。并将 DEGs 绘制成火山图。此外,前 50 个上调和下调 DEGs 被绘制成热图。
2.共表达网络构建与关键模块识别
对提取的 DEGs 进行 WGCNA 分析,以探索基因模块与相关临床特征的相关性。BRCA 患者的临床信息来自 TCGA 数据库。结果显示,在设定软阈值β为9和切割高度为0.20后,构建的基因共表达网络近似于无标度拓扑分布,拟合R 2 = 0.86。一般来说,当拟合系数 R 2 接近或达到 0.9 时,最佳软阈值 β 即为最小软阈值。展示了基因聚类树,并最终确定了六个共表达模块。当切分高度为 0.20 时,模块与基因之间的距离热图如图 2A 所示。根据模块与性状关系的热图(图 2B),黄色模块与临床性状的相关性最高。
图2 识别 WGCNA 网络中的重要模块
3.五基因预后模型的构建
根据综合生存时间、生存状态和基因表达数据,对黄色模块中的 36 个关键基因进行了 Lasso-cox 回归分析。而 5 个生物标志物当调谐参数(λ)最小化为 9.5e-3,对数(λ)为 0.02 时,筛选出了 5 个生物标志物:FBXL19、HAGHL、PHKG2、PKMYT1 和 TXNDC17(图 3A)(图 3B)。最后,构建了一个五基因预后模型来预测预后。
图3 通过 LASSO 分析筛选关键基因
4.评估和验证五基因特征
预后模型与训练队列和验证队列模型中基因表达的关系分别如图 4A 和 B 所示。生存分析表明,风险评分对 BRCA 患者的预后有明显影响(P<0.001),高风险评分组患者的生存率较低(图 4C)。ROC 分析的曲线下面积(AUC)为 0.66(图 4E),表明该模型具有良好的预测能力。预后模型在 GSE162228 数据集中得到了进一步验证。结果显示,高风险评分组患者的生存率较低(图 4D),且差异显著,ROC 分析的 AUC 为 0.62(图 4F)。这些结果共同表明,已建立的预后模型具有良好的预测性能。
图4 五基因模型在训练队列(图左)和验证队列(图右)中的表现
5.五基因特征的 Cox 回归分析
为了证明五基因特征在 BRCA 患者中的预后价值,针对 M 分期和临床分期的独立预后因素进行了风险评分的亚组生存分析。根据 M 分期和临床分期将所有样本分为不同队列,并使用 Kaplan-Meier 分析评估风险评分在 BRCA 中的预后价值。结果显示,两组间仍有显著差异(P < 0.05),在排除M分期和分期的混杂因素后,五基因特征将高风险评分组与低风险评分组区分开来(图5A-D)。
图5 五基因特征的单变量和多变量 cox 回归分析及亚组生存分析
随后,对五基因风险评分、年龄、性别、临床分期和病理肿瘤、结节和转移(T、N、M)分期进行了 Cox 回归分析。在单变量分析中,五基因风险评分、T、N、M 分期和临床分期与预后显著相关(图 5E;P<0.05),年龄和性别无显著差异。在多变量分析中,五基因风险评分、性别、M 分期和临床分期可独立预测患者的预后(图 5F;P<0.05)。
6.蛋白质-蛋白质相互作用网络分析和基因富集分析
PPI 网络是根据关键基因和其他相关基因建立的。这些相关基因是从字符串网站上收集的。PPI网络包括54个点和386条边。PPI 网络显示,一些蛋白与枢纽蛋白有密切关系,如 RNF2 UBE2K、TXNL1、CALM1 和 TRPC7(图 6A)。根据编码相关蛋白的基因进行了 KEGG 富集和 GO 富集分析。KEGG富集分析的结果显示,这些基因富集在细胞周期、细胞衰老、p53信号通路、钙信号通路、TGF-beta信号通路、人类免疫缺陷病毒1感染、胰高血糖素信号通路、胰岛素信号通路和长期电位(图6B)。Go 富集分析结果表明,MF 主要包括细胞周期过程、细胞周期、有丝分裂细胞周期、细胞周期调控、有丝分裂细胞周期相转变、有丝分裂细胞周期 G2/M 转变的细胞周期过程调控、细胞分裂、糖原分解过程、葡聚糖分解过程(图 6C);BP 主要包括转运过程、细胞周期、有丝分裂细胞周期相转变、有丝分裂细胞周期 G2/M 转变、细胞分裂、糖原分解过程、葡聚糖分解过程(图 6D)。6C);BP 主要包括转移酶活性、组蛋白甲基转移酶活性、蛋白甲基转移酶活性、组蛋白甲基转移酶活性(H3-K4 特异性)、N-末端肉豆蔻酰化结构域结合、腺苷酸环化酶结合、磷酸酶激活剂活性(图 6D);CC 主要包括细胞周期转变、有丝分裂细胞周期 G2/M 转变、细胞分裂、糖原分解过程、葡聚糖分解过程(图 6E)。6D);CC 主要包括细胞质、催化复合物、转移酶复合物、中心体、纺锤体、纺锤极、纺锤体微管、组蛋白甲基转移酶复合物、丝氨酸/苏氨酸蛋白激酶复合物。(图 6E)。
图6 蛋白质-蛋白质相互作用网络的构建及相关基因的富集分析
7.免疫细胞浸润水平分析
TIMER 数据库用于探索免疫微环境,并确定了免疫浸润水平与 BRCA 中枢基因表达之间的相关性。结果显示,不同基因的表达与不同免疫细胞的相关性不同。例如,结果显示 FBXL19 的表达与 B 细胞浸润(r = -0.169,p = 6.03e-02)和 CD8+T 细胞(r = -0.174,p = 5.44e-02)相关;HAGHL 的表达与 B 细胞浸润(r = -0.13,p = 1.52e-01)和巨噬细胞(r = -0.323,p = 2.14e-04);PHKG2 的表达与 CD8+T 细胞(r = 0.102,p = 2.62e-01)和中性粒细胞(r = 0.12,p = 2.12e-01)相关;PKMYT1 的表达与 CD8 + T 细胞(r = -0.T细胞(r = -0.176,p = 5.21e-02)、巨噬细胞(r = -0.256,p = 3.72e-03)相关;TXNDC17的表达与CD4 + T细胞(r = -0.176,p = 5.21e-02)、巨噬细胞(r = -0.256,p = 3.72e-03)相关。T细胞(r = -0.224,p = 1.31e-02)、中性粒细胞(r = -0.222,p = 1.98e-02)相关。此外,低风险评分组巨噬细胞的免疫微环境评分明显低于高风险评分组。
8.富集分析
GSEA富集分析结果显示,P53信号通路(ES = -0.7677,NP = 0.0544)和细胞周期(ES = -0.7262,NP = 0.0261)等两条通路与高风险评分组相关。有三条通路与低风险评分组相关。这些通路包括甘油脂代谢(ES = 0.8266,NP = 0.0060)、甘油磷脂代谢(ES = 0.8362,NP = 0.0082)、胰岛素信号通路(ES = 0.7205,NP = 0.0268)(图 7)。
图7 集合富集分析(GSEA)的富集图
9.构建诺莫图
作者通过构建能整合各种临床预后因素的生存预测提名图来评估 1、3、5 年的生存概率。因此,作者构建了一个整合了五基因特征、年龄、分期、TNM 分期和性别的风险预测提名图(图 8)。该模型的C指数、危险比和P值分别为0.754、95%CI(0.698-0.809)和2.106e-19。结果表明,该模型能很好地判断患者的疾病进展情况,并能对 BRCA 患者进行个性化预测。
图8
10.五基因特征表达的验证
为了验证五基因特征的临床价值,作者研究了五种基因在 BRCA 中的表达。结果显示,所有基因在TCGA-BRCA所有样本的肿瘤中均明显上调。作者利用HPA数据库分析了这五个基因的蛋白表达水平。结果显示,HAGAL和TXNDC17在癌症中的表达量较低。HPA数据库中没有记录FBXL19、PHKG2和PKMYT1的表达。此外,生存分析表明,在TCGA-BRCA数据集中,FBXL19、HAGHL和TXNDC17的低表达与超期生存时间的延长显著相关;PHKG2的高表达与超期生存时间的延长显著相关;而PKMYT1的表达与超期生存无关。
图9 中心基因的 miRNA 分析
总结
总之,本研究构建的5基因风险模型在衍生组和验证组中都具有独立的预测能力,可以区分死亡风险高的患者和风险低的患者,为预测BRCA患者的预后提供了一种选择。所建立的提名图有助于对 BRCA 患者进行个体化生存预测。在未来的研究中,作者还需要做进一步的调查。