大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。
表观遗传学近几年取得的一系列研究进展,确实吸引着越来越多的关注!为了帮大伙儿梳理一下表观遗传学的基本概念和研究方法,小编打算开一个系列专题,详细聊一聊这里面的弯弯绕!
话说,关于表观遗传学,小编被问得最多的问题,就是应该如何研究DNA甲基化,哪些技术适合我使用?
每次,小编都会耐心地把各种技术的优势解释一遍。说的多了,发现说来说去就是几个核心点,干脆列出来,跟大伙儿分享一下:
-
1.在表观遗传修饰中存在哪些甲基化修饰?
-
2.DNA甲基化起到的作用是什么?
-
3.现在研究DNA甲基化的技术手段有哪些?各有什么优势和劣势?
-
4.常规的分析方法及内容有哪些?
1、什么是甲基化修饰?
首先说一下第一个问题,存在哪些甲基化修饰
现在对于甲基化修饰的研究,总的来说大致可以分为三大类:
-
DNA甲基化修饰,这一类是研究最多,修饰也最为稳定的类型;
-
组蛋白甲基化修饰,以及乙酰化(如果大伙儿对这块也感兴趣,小编下次可以开一个专题来单独讲了,这里就不啰嗦了);
-
RNA甲基化修饰,虽然RNA的修饰有100多种,但A碱基甲基化修饰(6mA)研究最为成熟和火爆,后续系列小编会慢慢讲。
今天我们重点聊一聊DNA的甲基化修饰。
那么,什么是DNA甲基化修饰呢?简单的讲,就是在DNA上胞嘧啶发生了一个甲基基团的修饰,有图有真相:
因此,提到DNA甲基化的时候,我们也会说5mC甲基化。别看这只是一个小小的改变,它所起到的作用却是巨大的!有些科学家甚至将DNA甲基化叫做“第五种碱基”!
2、DNA甲基化的作用
那么第二个问题就来了,这玩意儿有什么作用呢?
简单来说,DNA甲基化可以调控基因的表达。以高等动物为例,每个个体从一个受精卵发育成成体的过程中,DNA甲基化都是不同的,会调控不同的细胞往不同的方向分化。比如,哪些细胞群变成大脑,哪些变成心脏,都和它有着密切的关系。
另外一个方面,当我们长大了,如果某些关键基因的DNA甲基化发生了改变,那就坏掉了,很可能会引起癌症,糖尿病等多种疾病。
在人以及各种哺乳动物中,很多C和G连续的碱基上会发生DNA甲基化,而与C相邻的其他碱基则不会,这种现象与DNA甲基化修饰酶有一定的关系。
在人的基因组上,有很多CG碱基聚集的地方,我们称之为CpG岛,这个地方往往是低甲基化的,如果甲基化发生了改变,就会导致后面的基因无法表达,进而就会有一系列问题了。所以在大量的文献中,CpG岛的甲基化修饰一直是研究重点。
现在又有了CpG 海岸的概念。啥意思呢?就是科学家们发现,除了CpG岛会出问题,岛旁边的位置也很容易发生改变!
在很多研究中,大家都会关心DNA甲基化是不是导致基因表达变化了,而很多转录起始位置附近也会有CpG岛,所以我们也常常会把研究的焦点集中于转录起始位置的启动子区域(一般是转录起始位置上游2k,下游500的样子,当然不同研究中的定义略有不同)。
除了发现DNA甲基化会调控基因表达,也有发现表明,外显子和内含子的DNA甲基化异常也会导致不同的选择性剪切,这个也是一个重要的研究内容。
3、研究方法与技术手段
上面说了DNA甲基化的作用,接下来聊聊第三个问题:研究DNA甲基化的技术手段有哪些咧?
简单的说,可以分为两大类。
一类是IP类的,代表作就是DNA甲基化免疫共沉淀技术(MeDIP-seq),当然还有专门富集CpG的MBD技术,不过研究的不多。
另外一类就是今天要说的重点内容:重亚硫酸盐处理技术。它包括的种类五花八门,比如:
-
全基因组DNA甲基化技术(WGBS)
-
酶切简化基因组甲基化技术(RRBS/DRRBS)
-
启动子液相捕获DNA甲基化测序技术(LHC-BS)
-
基于氧化的精确DNA甲基化技术(oxBS)
DRRBS技术和LHC-BS是小编自己研发的,这种技术的优势在于,想研究哪里就捕获哪里,具体的实现我们后面详细的聊。
另外,这里要重点说一下精确DNA甲基化技术。什么是精确?比如,在动物体内,DNA甲基化是一个动态变化的过程,不仅有DNA甲基化过程,也有TET酶参与的去甲基化过程。在去甲基化的过程中,甲基基团首先会被氧化成羟基,这个羟基在后续会进一步被氧化成醛基、羧基,然后就变成无官一身轻的胞嘧啶了。
图:胞嘧啶氧化过程
重亚硫酸酸盐处理以后,醛基修饰的胞嘧啶,羧基修饰的C,还有没有甲基化的C全部都会变成胸腺嘧啶T。传统的bisulfite技术研究的是甲基化和羟甲基化,而精确DNA甲基化技术是通过氧化剂,把羟基给氧化了,这样后续处理的时候,也会变成T,而剩下的就只有甲基化胞嘧啶C了。所以通过这个技术,可以将羟甲基化单独拎出来研究。目前,国内成熟的氧化甲基化技术(oxBS)由易基因独家推出。
说完了技术手段,接下来我们讨论一下各种技术的优劣势。
先说准确性。现在研究DNA甲基化,最准确的自然还是重亚硫酸盐处理,这种手段可以精确的看到每个胞嘧啶位点上的甲基化修饰情况。对于经费充足的实验室,重亚硫酸盐处理技术中的WGBS技术是首选,此技术可以覆盖全基因组,一般要求30X,比如人的基因组差不多需要90G的数据量。考虑到测序成本,此技术更适合经费充足的实验室,或者做植物研究的实验室。
对于精度要求更高的,比如只研究精确的DNA甲基化的修饰情况,或者是想研究羟甲基化的修饰情况,oxWGBS是首选,它的成本也相对比较高。此类技术的应用限制,现阶段来说就是测序成本较高。
其他定量研究DNA甲基化的技术,都是只研究基因组上一部分区域的甲基化修饰情况,代表技术有RRBS(基于酶切),LHC-BS(基于液相捕获),以及现在临床应用比较多的850k/450k甲基化芯片。
RRBS和LHC-BS是基于测序技术,研究的CpG位点数大概都是在2M左右,也是基于测序技术研究大规模样品常用的工具之一,数据量一般8-10G。
RRBS研究的区域是全基因组上的酶切位点,如MspI酶的CCGG位点等。不过此类技术在现有读长PE150的背景下会浪费很多数据(因为有效的酶切区域片段为40-220,现有测序技术会被测通,从而导致大量数据被浪费)。
而LHC-BS的优势在于可以覆盖基因组上绝大多数的启动子区域(95%),全部的CG岛和CpGshore区域,但是对实验操作者的水平要求较高。此条件下,8G的数据量,在人的样品中目标区域60M,可得到的实际深度为50~60X,和BS技术对比吻合度也比较好,对现阶段大规模DNA甲基化样品研究而言,还是一个值得选择的工具了。
再有就是450k甲基化芯片和850k甲基化芯片,这两款芯片是基于荧光定量来鉴定DNA甲基化的,和测序的结果吻合度也较好,但问题在于检测位点数太少,且现阶段的成本也不便宜,与RRBS和LHC-BS相比成本也低不了太多。
说了这么多,大伙儿是不是有点晕?来,我们整个图,直观地展示一下这几种技术在各基因元件上的覆盖情况。
4、DNA甲基化的数据分析
小编是生信背景,数据分析是本人的老本行。下面我们就详细聊聊第四点,DNA甲基化数据分析的常规流程及工具。
针对DNA甲基化的数据分析,基本上是三步走(大家看到的各个公司提供的分析报告也基本如此)。
首先是质控。此步骤通常是过滤低质量的reads,一般测序结果为N占总reads数50%,或者低质量base数占总base数的50%会过滤掉。如果测序数据比较充足可以不用管这个部分的参数设置。
过滤完毕后,下一步就是比对了。这个部分是很消耗资源的。一般用的研究DNA甲基化的高通量测序软件主要有BSMAP、BS Seeker、bismark、SOCS-B、BRAT等,网上有人总结过这些软件,感兴趣的小伙伴可以自行查找一下。
小编个人比较推荐BSMAP,计算速度快,操作简单,自带的脚本也可以比较方便的计算出C位点的甲基化率(CG/CHG/CHH)。
第三步,也是比较重要的一步,就是找DMR或者DMS。常见的软件有MethMarker、metilene、eDMR等。上面这两款软件对于找DMR还是不错的,当然也可以自己写脚本来验证。
另外在高级分析方面,DNA甲基化的分析也可以结合SNP的结果。这方面的软件有BS-SNPer、bis-SNP等,各有优势,有的是基于GATK流程开发的,有的是基于SOAPSNP开发的,在速度和准确性方面各有千秋。
其他的分析如ASM,推荐amrfinder软件,这款软件现在整合到了methpipe中,感兴趣的小伙伴们都可以试试。另外对于如MeDIP类的技术,一般也是先过滤低质量reads,然后再比对,call peak。不过这里小编建议对于两组peak间最好求出组间的差异,对于后续分析还是蛮有用的。
这些流程走完了之后,后面基本上都是一些功能分析的内容了,可以根据各自不同的项目分别选用不同的工具,这里就不啰嗦了。
能读到这里的小伙伴,也是真爱了!本文只是对各个技术做了简单的总结,后面会针对每个技术展开来,做详细的介绍和讨论,大伙儿如果喜欢可以继续关注。
感兴趣的小伙伴们,可以留言点赞,赠送于文强、徐国良老师主编的【表观遗传学】书籍上下册,(文件有点大)目录如下:
感兴趣的小伙伴们,可以留言点赞,免费赠送于文强、徐国良老师主编的【表观遗传学】书籍上下册(文件有点大),可私信。
DNA甲基化干货分享:
干货系列:DNA甲基化研究的3大前期探索性实验思路
干货分享:DNA甲基化研究的测序数据挖掘思路
干货分享:DNA甲基化差异水平分析中的DMC、DMR、DMG鉴定
干货分享:DNA甲基化测序后的后期验证方法