1. GSEA富集分析原理图
2. GSEA富集分析过程
1. 计算富集分数(ES)
富集分数:S 反应基因集(比如某个通路内的基因集)成员 s 在排序基因集 L(比如根据 logFC 排序的差异基因集,默认降序,所以上调基因在顶端)的两端富集的程度。富集得分 ES 最后定义为最大的peak值。正值ES表示基因集 S 在基因集 L 的顶部富集,负值ES表示基因集 S 在基因集 L 的底部富集。
2. 估计富集分数的显著性水平
因为每个基因集的大小不同,而 ES 又和基因集大小有关,因此需要对其进行 normalization。为了检验每个基因集的 NES 是否显著,将总基因集 L 随机打乱排列一定次数,每次都计算每个基因集的 NES(ES),得到每个基因集的 NES 在随机排序情况下的理论分布,从而计算其 p 值。
3. 矫正多重假设检验
FDR 则是对 p 值进行 BH 校正之后的 p 值。
3. GSEA富集分析结果
1. 富集结果表格解读
ID:通路名
Description:通路描述信息
setSize:该通路中包含表达数据集文中的基因数目(经过条件筛选后的值)
enrichmentScore:富集分数
NES:标准化后的富集分数
pvalue:是对 ES 的统计学分析,用来表征富集结果的可信度
p.adjust:是多重假设检验校正之后的 p-value
qvalues:是多重假设检验(FDR法)校正之后的 p-value,即对NES可能存在的假阳性结果的概率估计。GSEA 对显著性的定义为 p-value<5%,FDR q-val<25%
rank:当 ES 最大时,对应基因所在排序好的基因列表中所处的位置
leading_edge:tags 表示核心基因占该通路基因集的百分比;list 表示核心基因占所有基因的百分比;signal,将前 2 项统计值结合在一起计算出的富集信号强度
core_enrichment:核心富集基因集
2. 富集可视化图解读
富集图一共分为上中下 3 部分。如A_VS_B差异分析:
第一部分 ES 折线图:显示了当分析沿着排序基因集按排序计算时,ES 值在计算到每个位置时的展示。最高峰处的ES得分 (垂直距离 0.0 最远)便是基因集的 ES 值。
第二部分 hits 图,俗称条形码图,用线条或者 hit 标记了通路基因集(基因组所有)中成员出现在基因排序列表中的位置。如果基因集里的基因 集中在所有基因的前部分,就是在A组里面富集,如果集中在后面部分,就是在B组里面富集。leading edge subset 就是(0,0)到绿色曲线峰值 ES 出现对应的这部分基因(x轴0到虚线那部分)。所谓 Leading-edge subset,就是对富集得分贡献最大的基因成员。如果ES得分都是正值(如上图所示),那么Leading-edge subset就在峰值ES的左侧,反之则在右侧(底部富集 = A/B 下调表达 = B 组高表达)。那么根据本图我们很容易看出,该通路在 A 组高表达。
第三部分是排序后所有基因 rank 值的分布,热图红色部分对应的基因在 A 组高表达,蓝色部分对应的基因在 B 组高表达,每个基因对应的信噪比(Signal2noise,前面选择的排序值计算方式)以灰色面积图展示。
参考:https://zhuanlan.zhihu.com/p/582401881