今天给同学们分享一篇共病+WGCNA+机器学习+实验的生信文章“Exploring immune related gene signatures and mechanisms linking non alcoholic fatty liver disease to atrial fibrillation through transcriptome data analysis”,这篇文章于2023年10月16日发表在Scientific Reports期刊上,影响因子为4.6。
房颤(AF)是最常见的持续性心律失常,目前患病率在2%至4%之间。然而,由于人口老龄化和对未诊断房颤进行更加密集的筛查,预计这一比例将增加2.3倍。房颤的患病率上升可以归因于多种风险因素,包括年龄增长、遗传易感性、肥胖、吸烟、糖尿病(DM)和炎症性疾病。然而,并非所有房颤病例都可以通过上述风险因素来解释,这凸显了发现新的诱因的重要性。
图1 流程图
1. NAFLD和AF相关关键模块的识别
NAFLD数据集的功率值设置为3,AF数据集的功率值设置为8,以满足拟合指数超过0.85的无标度拓扑条件,然后相应地构建了WGCNA网络。NAFLD数据集的所有基因被分为25个模块。作者评估了每个模块与年龄、性别以及五个肝脏病理特征(细胞膨胀分级、纤维化分期、小叶炎症分级、NAS和脂肪变性分级)之间的相关性。类似地,AF数据集的所有基因被分为19个模块,并对每个模块进行了与AF发生的模块特征相关性分析。如图2所示,来自NAFLD数据集的棕色模块(图2A中的MEbrown)和黄色模块(图2A中的MEyellow),以及来自AF数据集的黑色模块(图2B中的MEblack)与临床特征具有最高相关性,因此被选择为最相关的模块。对这三个模块进行了GO、KEGG和REACTOME通路富集分析。GO结果显示,在NAFLD数据集中,棕色模块在与中性粒细胞介导的免疫、对未折叠蛋白的应答以及中性粒细胞颗粒溶解相关的过程中显著富集。在同一数据集中,黄色模块在与T细胞激活、白细胞细胞间粘附以及淋巴细胞增殖相关的过程中表现出最高的富集程度。在AF数据集中,黑色模块在与T细胞激活和filamin结合相关的过程中富集程度最高。在这三个关键模块中,最显著富集的GO术语与淋巴细胞和中性粒细胞介导的免疫相关。
图2 加权共表达网络中模块-特征关系的相关热图
2. 加权共表达网络中模块-特征关系的相关热图
为了研究NAFLD相关模块和AF相关模块中共享基因的潜在生物学功能,作者合并了两个关键的NAFLD模块(NAFLD-brown模块和NAFLD-yellow模块)中的重叠基因,与一个关键的AF模块(AF-black模块)合并。这个合并的基因集被称为NASGS(图3A)。GO富集分析显示,NASGS主要富集在T细胞介导的免疫反应中,如T细胞激活(图3B)。为了更好地理解GO术语的相互作用,作者通过“ClueGO”构建了一个从NASGS到整合的GO通路网络。一致地,显著富集的GO术语的功能组分布表明,“T细胞激活”和“髓样白细胞迁移”是最主要的聚类(图3C)。
图3 最相关的NAFLD和AF模块的共享基因和生物途径
此外,作者对NAFLD黄色和棕色模块以及AF黑色模块的高度相互连接的聚类应用了GO富集分析。结果显示,NAFLD黄色模块和AF黑色模块在免疫过程中显著富集,尤其是T细胞激活(图4),表明这两个模块在NAFLD和AF期间与免疫过程更为相关。
图4 从选定的NAFLD和AF相关模块中,对高度相互连接的聚类进行PPI网络和通路富集分析
为了进一步阐明T细胞介导的免疫在非酒精性脂肪肝(NAFLD)和房颤(AF)中的参与,选择了包含59个样本的AF数据集GSE115574和NAFLD数据集,提取P值<0.05的差异表达基因(DEGs)。在NAFLD或AF中,共有311个基因发生了显著变化。对这些基因进行GO通路富集分析证实,包括T细胞激活通路在内的免疫过程参与了NAFLD-AF共享的病理生理过程。
3. AF和NAFLD数据集的免疫细胞浸润分析
富集分析表明,免疫过程在非酒精性脂肪肝(NAFLD)和房颤(AF)中起着重要作用。此外,作者应用ssGSEA方法对NAFLD数据集和AF数据集进行分析,以分析每个样本中免疫细胞的丰度。在将肝脏样本按照NAS(非酒精性脂肪肝活动性评分)分为“NAFLD组”和“对照组”(以5为分界值)后,作者比较了两组之间每种免疫细胞的丰度。激活的CD4 T细胞、激活的CD8 T细胞、1型辅助T细胞(T1)、调节性T细胞、中央记忆CD4 T细胞、中央记忆CD8 T细胞、效应记忆CD4 T细胞、效应记忆CD8 T细胞、激活的树突状细胞、未成熟的树突状细胞、自然杀伤T细胞、γδT细胞、T辅助细胞、髓源性抑制细胞、单核细胞和肥大细胞在NAFLD组中显著增加(P < 0.05)(图5A)。在AF数据集中,激活的CD4 + T细胞,激活的CD8 + T细胞,T H 1,调节性T细胞,中央记忆CD8 + T细胞,效应记忆CD4 + T细胞,γδT细胞,效应记忆CD8 + T细胞,髓源性抑制细胞,激活的树突状细胞,未成熟的树突状细胞,自然杀伤细胞,巨噬细胞,单核细胞,肥大细胞和中性粒细胞在AF组中显著增高(P < 0.05)(图5B)。
图5 在NAFLD数据集中,使用单样本基因集富集分析算法比较(A)NAS < 5和NAS ≥ 5之间的免疫细胞浸润情况,以及在AF数据集中比较(B)SR组和AF组。
4. 通过PPI分析和机器学习的方法鉴定NAGDS
通过将最显著富集于免疫过程的NAFLD黄色模块和AF黑色模块进行交叉,建立了NAGDS。从STRING数据库中可视化了PPI网络(图6A)。通过最大团中心性算法确定了前20个中心基因(图6B)。结合SVM-RFE(图6C)和LASSO回归分析(图6D、E),以提高诊断效果并减少噪音信息。通过这两种机器学习算法选择了四个基因,分别是C–C motif chemokine 4(CCL4)、CD48 antigen(CD48)、integrin beta-2(ITGB2)和ribonuclease K6(RNASE6)(图6F)。
图6 使用LASSO回归和SVM-RFE算法构建NAGDS
5. NAGDS在NAFLD和AF数据集中的验证
每个NAGDS在NAFLD和AF(图7A,B)数据集中的表达均高于对照组(P < 0.05)。ROC分析显示了每个NAGDS的潜在诊断性能,反映在AUC上。在NAFLD数据集中,CCL4、CD48、ITGB2和RNASE6的AUC分别为78.92%、78.15%、75.15%和75.77%(图7C),在AF数据集中,AUC分别为87.50%、95.83%、100%和100%(图7D),表明这四个基因在NAGDS中具有相对较高的诊断价值。接下来,作者评估了NAFLD和AF数据集中NAGDS得分及其诊断价值的水平。一致地,NAFLD和AF数据集中的NAGDS得分较高(图7E,F),整体NAGDS得分的AUC不低于单个NAGDS(图7G)。为了进一步验证NAGDS得分的稳定性,作者在两个外部数据集中研究了其ROC曲线。在GSE63067的NAFLD数据集中,NAGDS得分的AUC为71.4%,在GSE14975的AF数据集中为84.0%。
图7 NAGDS的验证
6. NAFLD小鼠模型中肝脏和心房的NAGDS验证
每个NAGDS的表达在NAFLD小鼠模型(n = 12)的肝脏和心房组织以及AF小鼠模型(n = 8)的心房组织中通过qRT-PCR进行了验证。与NAFLD和AF数据集中的结果一致,每个NAGDS的mRNA在NAFLD(图7H-O)和AF(图7P-S)中显著上调(P < 0.05)。
7. NAGDS的生物学意义和临床相关性
为了研究NAGDS的生物学意义,作者按照NAGDS分数重新分组了样本。GSEA分析表明,在NAFLD和AF数据集中,高NAGDS分数组与低NAGDS分数组相比,T细胞激活和巨噬细胞激活等与巨噬细胞和T细胞相关的GO术语显著富集(图8A、B)。NAGDS分数与28种免疫细胞丰度之间的相关分析表明,在NAFLD和AF数据集中,激活的T细胞和巨噬细胞与NAGDS分数显著正相关(图8C)。NAFLD和AF数据集附带有临床特征,包括肝脏病理特征和AF持续时间。相关分析表明,在NAFLD数据集中,NAGDS与肝NAFLD活动分数、纤维化阶段、小叶炎症分级、脂肪变性分级和细胞球化分级呈正相关(图8D),在AF数据集中与AF持续时间呈正相关(图8E)。作者观察到总体NAGDS评分和个体NAGDS与T细胞、巨噬细胞、肝脏病理特征和AF持续时间等免疫细胞之间存在强烈的相关性。因此,作者打算研究针对NAGDS的潜在治疗调控网络。NAFLD和AF在HMDD数据库中共有15个miRNA,其中7个miRNA被发现能够靶向NAGDS(图8F)。作者认为hsa-miR-26a-5p可能与临床更相关,因为它能够靶向三个NAGDS,并在转录后调控的miRNA-mRNA网络中发挥核心作用。
图8 NAGDS的生物学意义和临床相关性
总结
总结一下,作者的工作提出了NAFLD和AF之间的免疫调节网络,首次揭示了T细胞激活介导的免疫反应在NAFLD中可能是AF的一个重要易感因素,并建立了NAGDS模型,可以准确诊断NAFLD和AF。这些NAGDS基因也可能成为免疫调节治疗的潜在靶点。