大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。
DNA甲基化(DNA methylation)为DNA化学修饰的一种形式,能够在不改变DNA序列的前提下,改变遗传表现。所谓DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5号碳位共价键结合一个甲基基团。大量研究表明,DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而调控基因表达。
DNA甲基化一般遵循三个步骤进行数据挖掘。
首先,进行整体全基因组甲基化变化的分析,包括平均甲基化水平变化、甲基化水平分布变化、降维分析、聚类分析、相关性分析等。
其次,进行甲基化差异水平分析,筛选具体差异基因,包括DMC/DMR/DMG鉴定、DMC/DMR在基因组元件上的分布、DMC/DMR的TF结合分析、时序甲基化数据的分析策略、DMG的功能分析等。
最后,将甲基化组学&转录组学关联分析,包括Meta genes整体关联、DMG-DEG对应关联、网络关联等。
那么甲基化差异水平分析,筛选具体差异基因中的DMC、DMR、DMG怎么做呢?
一、差异甲基化位点/区域分析DMC/DMR分析
(1)DMC/DMR鉴定
- 差异甲基化位点:DMC
- 差异甲基化区域:DMR
(甲基化位点一般是与附近的位点一起起作用的)
- 鉴定实验组与对照组甲基化图谱的具体差异。
- 如果实验设计包括多个时间节点,也可以比较相邻时间节点/感兴趣的时间节点之间的甲基化图谱的差异。
DMC在基因组上的分布
DMR在基因组上的分布
(2)DMC/DMR转录因子结合分析(TF binding motif )
主要关注Promoter和Enhancer等调控区域DMC/DMR的TF结合位点。
(3)时序甲基化数据的分析策略(Time Course)
- 比较相邻时间点的差异
- 直接筛选时间阶段相关的DMC和DMR
- 线性模型/混合线性模型
(可以排除混杂因素干扰,如性别)
- 共甲基化模式分析(阶段特异性Cluster筛选)
- WGCNA(权重基因共表达网络分析)
- MEGENA(多尺度嵌入式基因共表达网络分析)
- mfuzz
- ... ...
(4)DMC/DMR在基因元件上的分布
- TE(转座元件):影响基因组稳定性
- Promoter:影响基因表达
- Genebody
二、差异甲基化基因(DMG)的功能分析
将有至少一个 DMR 注释到其 promoter 或 genebody 的基因称之为差异甲基化基因。 有研究表明 promoter 区域甲基化提高具有潜在抑制基因转录的功能;而 genebody 区域 与表达具有正相关关系。所以研究这两个区域发生差异甲基化的基因,可以帮助我们研 究受甲基化调控的细胞功能的变化规律。
分析策略:
- 可以分为Hyper-DMG和Hypo-DMG
- 可以分为Promoter-DMG和Genebody-DMG
- Gene Ontology
- KEGG pathway
- Reactome pathway
- DisGeNET disease
- Disease Ontology
三、易基因差异甲基化水平检测
(1)差异甲基化区域(DMR)检测
DMR检测使用权威期刊发表的metilene 软件,该软件利用二元分隔算法(binary segmentation algorithm)结合双重统计学检验(MWU-test和2D KS-test),可快速实现成对样本或两组样品间的DMR 重头检测(de novo)。最后,通过多重检验校正,进而得到差异甲基化区域。使用CpG 位点来寻找差异甲基化区域。
DMR 检测规则:
- 每个CpG 位点测序深度>=5x;
- CpG 位点的甲基化差异>=0.2;
- 该区域的差异甲基化 CpG 位点个数>=5;
- 相邻差异甲基化CpG 位点的距离<=300bp;
- MWU-test p-value < 0.05。
(2)差异甲基化区域(DMR)的注释
将 DMR 分别注释到genebody和 promoter 区。
表1:DMR 注释结果(部分)
(3)差异性甲基化基因(DMG)的功能分析
GO、KEGG 富集分析。为了研究DMG的功能,采用超几何分布检验(Hypergeometric distribution test)分析 DMG在GO term和KEGG pathway中的富集情况。
(4)差异性甲基化区域(DMR)的可视化
由于DMR 数量太多,筛选 Q-value top20 的差异甲基化区域进行可视化绘图。下图为例,黄色部分为 DMR 区域。横坐标以绘出以 DMR 区域为中心向两侧各扩展 1kb 区域的甲基化情况。最上方黑色方框标识出该区域内基因 promoter 区的位置(如果有)和基因表达方向。中间部分是两组样本的甲基化水平变化曲线。最下方是 CG 位点密度曲线。
图: 组间 DMR 差异甲基化曲线
易基因科技提供全面的DNA甲基化研究整体解决方案,详询易基因:0755-28317900。
相关阅读:
干货系列:DNA甲基化研究的3大前期探索性实验思路
干货分享:DNA甲基化研究的测序数据挖掘思路
手把手教你做全基因组DNA甲基化测序分析
易基因2022年度DNA甲基化研究高分项目文章精选