谷禾健康
已有研究证明宿主微生物在癌症预防和治疗反应中的关键作用,了解宿主微生物和癌症之间的相互作用,可以推动癌症诊断和微生物治疗(即用微生物作为药物)。
然而肿瘤内微生物组数据通常是复杂的,想要厘清相互关系也是极为困难的,有许多可能导致虚假关联的混杂因素,还需要足够多样本的大型数据集进行分析。
近期,研究人员开发了一个生物信息学工具——MEGA,这是一个基于深度学习的Python包,用于识别癌症相关的肿瘤内微生物。
该模型使用ORIEN(Oncology Research Information Exchange Network)的RNA-seq测序数据进行训练,以识别与12种人类癌症最相关的微生物。本文我们来详细了解一下。
01
方 法
1. 使用ORIEN数据集和两个数据库依赖项作为数据源
ORIEN数据集包括2891份样本中的2603个种水平物种以及对应的癌症类型元数据;
NJS16代谢数据库是通过对大量文献的整理和分析构建的,旨在提供关于微生物种间相互作用和代谢活动的信息,内含约570种微生物物种和3种人类细胞类型;
NCBI数据库,从中提取ORIEN数据集中物种的系统发育关系。
2. 生成用于图神经网络训练的人工智能准备数据
准备数据包括筛选后的数据归一化的相对丰度矩阵(相对丰度大于0.1%的物种)、代谢关系网络和系统发育关系网络。
3. 深度学习模型训练后,根据样本水平上每个物种的attention scores,选择与癌症相关的微生物特征
利用之前开发的基于PyTorch(v1.4.0)实现的heterogeneous graph转换模型进行训练。
heterogeneous graph转换模型是一种用于处理不同类型节点和它们之间关系的模型,在这个场景中,节点代表了微生物物种和样本,而边表示它们之间的关系。
为了训练这个模型,使用了两个自编码器来生成每个节点的密集向量,每个向量都是256维,这些向量作为深度学习模型的输入值,用于学习样本和物种之间的关系。
训练中,使用Adam优化器,并设置学习率为0.003,其他超参数的默认设置为:
- n_hid=128
- KL_COEF=0.00005
- THRES=3
Focal Loss函数用于量化预测的癌症类型标签与真实标签之间的差异。当评估指标连续5个epoch没有改善时,学习率会降低0.5倍。最终生成attention score值作为重要的训练结果。
这个分数表示源节点对目标节点的重要性。
较高的分数表示该物种在样本中具有较高的代表性,然后通过计算具有较高分数的每个物种在癌症类型中的样本数量,确定与癌症类型显著相关的物种,p值小于0.05的物种被认为与癌症类型显著相关。
4. 最终识别出的与癌症相关的微生物群落结果将输出为以tab分隔的文件,可用于后续的可视化操作
结果可以以UpSet图进行展示,也可以通过Cytoscape软件生成网络图。
MEGA的Github地址:
02
使用MEGA识别ORIEN数据集中与癌症相关的微生物
MEGA在ORIEN数据集中鉴定出了来自12种癌症类型的73种独特的微生物群落。
分析结果显示,在12种癌症类型的微生物群落中有15个物种是共有的。而在结肠腺癌、直肠腺癌和其它结直肠癌中,有8种物种是独属于它们的。
下图展示了已确定的物种和癌症类型的分布。
条带的宽度指示该癌症中检测到的物种总数,并且与各自存在的物种相连。
COAD(结肠腺癌); 肺腺癌(LUAD); LUSC(肺鳞状细胞癌);
OtherCR(未指明的其他结直肠癌类型);
OtherLung(未指明的其他肺癌类型);
OtherPancreatic(未指明的其他胰腺癌类型);
胰腺腺癌(PAAD); READ(直肠腺癌); SARC(肉瘤);
小细胞肺癌(SCLC); 皮肤黑色素瘤(SKCM);
THCA(甲状腺癌)
03
使用MEGA鉴定与结肠腺癌和甲状腺癌相关的微生物
为了展示MEGA的数据分析和解释能力,研究人员重点研究了结肠腺癌和甲状腺癌的案例。
分析发现,有8种物种是只在结直肠相关癌症类型中共享的,分别为:
- Bacteroides fragilis (脆弱拟杆菌)
- Ruminococcus gnavus (活泼瘤胃球菌)
- Bacteroides ovatus (卵形拟杆菌)
- Lacrimispora saccharolytica
- Odoribacter splanchnicus
- Phocaeicola dorei
- Phocaeicola vulgatus
- Streptococcus porcinus
其中的Bacteroides fragilis, Ruminococcus gnavus,Bacteroides ovatus 这3个物种与之前的验证实验结果一致,这表明MEGA仅通过整合代谢和系统发育关系就成功鉴别出了这些物种。
结直肠癌
通过整合物种与代谢之间的关系,发现在结肠腺癌中,Fusobacterium nucleatum具有较强的代表性,而在小鼠模型的研究中,它通过改变黏膜微生物群和结肠转录组促进了结直肠癌的进展。
Ruminococcus gnavus与结肠腺癌的相关性较弱,其丰度与结直肠癌肿瘤数量和疾病评分呈显著负相关。
然而,这两种菌Fusobacterium nucleatum和Ruminococcus gnavus 共享了同一种代谢物——N- Acetylneuraminate acid,它参与的细胞间的黏附事件在结直肠癌的血管生成、转移和生长控制中可能起着重要作用。
Ruminococcus gnavus还与Bacteroides fragilis 共享了同一种代谢物L-Fucose,而最近的研究发现,Bacteroides fragilis毒素可能有助于结直肠癌的形成。
甲状腺癌
在甲状腺癌中,发现 Pseudomonas aeruginosa和Staphylococcus aureus与代谢物甘油三酯相关。而最近的研究表明,甘油三酯水平可能与甲状腺癌的发生风险相关。
通过整合物种的系统发育关系,能够发现与癌症相关性较弱的物种之间的关联。
例如,Bacteroides ovatus(卵形拟杆菌)在以往的研究被证明是结肠癌中的代表物种之一,但在MEGA的分析中,它与结肠腺癌的关联较弱,很有可能被遗漏,但通过分析Bacteroides fragilis的系统发育,依旧被识别出了。
图为结肠腺癌和甲状腺癌中已鉴定微生物群落的网络可视化。圆形节点指代微生物物种,黄色三角形节点指代代谢物,线条厚度表示物种与癌症之间关系的强度,灰色线条表示系统发育关系。
A) 结肠腺癌相关微生物与代谢物间的关联。
B) 甲状腺癌相关微生物与代谢物间的关联。
C) 结肠腺癌相关微生物与系统发育关系的关联。
D) 甲状腺癌相关微生物与系统发育关系的关联。
04
结 论
MEGA的开发代表着在识别和解读与癌症相关的肿瘤内微生物方面,迈出了重要一步。
研究中提出的深度学习模型可以识别与12种不同癌症类型相关的微生物特征,并将相关性的强弱通过attention scores进行了量化,通过网络图直观展示,从而可以更全面、更细致地理解相互关系。
此外,研究人员认为将MEGA应用于单细胞RNA-seq数据,可以更详细地了解微生物群落与肿瘤细胞在细胞水平上的相互作用,从而为基于肿瘤内微生物多样性的肿瘤异质性表征提供新的视角,也可能为癌症的治疗干预提供新的靶点。
参考文献:
Wang C, Ma A, McNutt ME, Hoyd R, Wheeler CE, Robinson LA, Chan CHF, Zakharia Y, Dodd RD, Ulrich CM, Hardikar S, Churchman ML, Tarhini AA, Singer EA, Ikeguchi AP, McCarter MD, Denko N, Tinoco G, Husain M, Jin N, Osman AEG, Eljilany I, Tan AC, Coleman SS, Denko L, Riedlinger G, Schneider BP, Spakowicz D, Ma Q. A bioinformatics tool for identifying intratumoral microbes from the ORIEN dataset. bioRxiv [Preprint]. 2023 May 24:2023.05.24.541982.