大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。
高通通量表观基因组分析技术可用于阐明大脑中细胞复杂性的基因调控程序。5'-甲基胞嘧啶 (5mCs)是哺乳动物基因组中最常见的修饰碱基,大多数5mCs发生在胞嘧啶-鸟嘌呤二核苷酸(CpGs)上。CG差异甲基化区域 (DMRs)通常是顺式调控元件(CREs)的标志。在脊椎动物的神经系统中,5mCs也在非CpG(或CH,H=A、C或T)中被大量检测到。CG和CH甲基化(mCG和mCH)在大脑发育过程中高度动态变化,并表现出细胞类型特异性。mCG和mCH对于基因调控和大脑功能至关重要。因此基因调控需要适当的染色质折叠3D构象,这些构象被组织成活性(A)或抑制性(B)区、拓扑关联域(TADs)和染色质环(chromatin loops)。这些3D结构促进了基因启动子与其调控元件之间的互作,提供了额外但关键的调控机制层面。DNA甲基化与染色质构象互作,且过程高度相关。基于高通量表观基因组分析技术对大脑细胞的表观基因组表征分析可以加深对人类大脑的复杂性基因调控的理解。
2023年10月13日,索尔克生物研究所Joseph R. Ecker团队联合其他团队研究人员在《科学》(SCIENCE)杂志上发表了“Single-cell DNA methylation and 3D genome architecture in the human brain”研究论文,通过使用单核表观基因组测序技术,全面分析成年人类大脑皮层和亚皮层区域中的DNA甲基化和染色质构象,展示了人类大脑的单细胞DNA甲基化和3D基因组结构图谱,阐明了整个大脑中细胞的细胞类型特异性和不同的表观遗传结构。
研究摘要:
阐明复杂细胞类型的基因调控程序对于理解健康和疾病中的大脑功能至关重要。本研究通过在3个成年男性大脑的46个区域对517k个细胞(399k神经元和118k非神经元)中以单细胞分辨率的DNA甲基化和染色质构象来全面描绘人脑细胞表观基因组谱。研究共鉴定出188种细胞类型并表征其分子特征。综合分析揭示了DNA甲基化、染色质可及性、染色质组织和跨细胞类型,皮质区域和基底神经节结构和基因表达在细胞类型、皮层区域和基底神经节结构中的一致变化。进一步开发了使用靶向基因组位点的甲基化状态可靠预测脑细胞类型的scMCodes方法。这种多模式表观基因组脑细胞图谱为成人大脑中细胞类型特异性基因调控的复杂性提供了新的见解。
小编就本文中的DNA甲基化研究内容进行解读分享。
甲基化研究思路
样本:
517k 细胞(399k 神经元和 118k 非神经元),来自 3 个成年男性大脑的 46 个区域
技术:
- snmC-seq3(mC) 在单细胞水平上分析所有 46 个大脑区域的 DNA 甲基化 (DNAm)
- single-nucleus methylation sequencing单核亚硫酸盐转化的甲基胞嘧啶测序方法
- snm3C-seq(m3C) 检测单细胞 DNA 甲基化和染色质构象
研究结果
(1)基于表观基因组的脑细胞类型分类法
解剖了46个大脑区域,包括大脑皮层(CX,22个区域)、基底前脑(BF,2个区域)、基底核(BN,11个区域)、海马体(HIP,5个区域)、丘脑(THM,2个区域)、中脑(MB,1个区域)、脑桥(PN,1个区域)和小脑(CB,2个区域)(图1A)。大多数区域设置三个成年男性供体的三个生物学重复,两个杏仁核区域除外(BM和CEN,各两个重复)。荧光激活细胞核分选(FANS)用于分离每个样品中90%的NeuN阳性细胞和10%的NeuN阴性细胞。然后使用snmC-seq3(“mC”)在单细胞水平上分析所有46个大脑区域的DNA甲基化(DNAm)。此外利用snm3C-seq(“m3C”)同时分析CX、BF和BN的17个大脑区域的单细胞DNA甲基化和染色质构象。经过严格质控,共378940 mC和145070 m3C细胞核用于进一步分析。每个mC细胞核平均产生0.94M过滤reads,而每个m3C核产生约2.2M reads和406k个染色质可及性。这样的数据质量能够可靠地分析各种基因组特征上的DNAm,鉴定可变甲基化区域,并精确定位不同大脑细胞类型的拓扑关联域(TADs)和染色质环。
图1:使用snmC-seq3和snm3C-seq技术对人类大脑细胞进行表观基因组分析。
- 人类大脑结构和区域覆盖。
- snmC-seq3和snm3C-seq的分析模式图。
- 人脑核的迭代聚类和注释: 使用t-SNE技术对整个mC数据集、抑制性/非端脑神经元细胞类以及SubCtx-Cplx主要类型的细胞进行可视化,根据相应迭代中注释的细胞组着色。
- 主要类型的稳健树状图和亚型数量、大脑结构和供体来源的meta信息。
- SubCtx-Cplx主要类型的兴奋性和抑制性标记(SLC17A1和GAD1)的CH甲基化水平。
- 按解剖区域着色的人类大脑细胞。
- snm3C-seq分析的人脑核的2D可视化。
- 大脑细胞类型间整体CG-和CH甲基化变化。
- 整体DNA甲基化与MECP2和DNMT1基因表达的相关性。
通过对mC数据集进行迭代聚类(iterative clustering),前脑分化出了最前端的端脑(telencephalon)和紧随其后的间脑(diencephalon),后脑分裂出了后脑(metencephalon)和最末端的末脑(myelencephalon),中脑还是中脑,没有进一步分裂。
细胞类型通过神经细胞的CH位点的低甲基化基因标记,和非神经细胞的CG位点的低甲基化标记区分(之前提到在脊椎动物神经元系统中,5mCs 在非 CG(或 CH,H=A、C 或 T)背景下也能被大量检测到)
尽管在不同供体中某些细胞类型的比例略有不同,但所有major types和subtypes的分类都是一致的
树枝图显示了主要类型和亚型之间的关系。端脑兴奋性神经元和抑制性/非端脑神经元与非神经元细胞很好地区分开来,每种类型都形成了一个特定的支系,但 CB 和 PKJ 与非神经元细胞类型归为一类,这可能是由于它们的整体 CG- 甲基化和 CH-甲基化程度相似。
分析结果表明:
- 378940 mC和145070 m3C细胞核被证实可检测跨基因组特征的DNAm;
- 通过对mC数据集的迭代聚类,首先将细胞核分为端脑兴奋性神经元、抑制性/非端脑神经元和非神经元细胞(40种主要类型和188种亚型);
- 根据神经元细胞的CH低甲基化基因标记物和非神经元细胞的CG低甲基化标记物对细胞类型进行注释。
- 整体甲基化水平在主要类型之间有所差异:mCG为77.7%-85.5%,mCH为0.8%-10.7%。
- 非神经元和颗粒细胞(DG和CB)的主要类型在mCG和mCH的整体评分最低。
- 皮层抑制性神经元具有最高的mCG水平,而丘脑、中脑和脑桥的某些非端脑神经元表现出最高的mCH水平。
- 细胞类型的整体甲基化与DNA甲基化reader和修饰因子的基因表达相对应。
- 主要mCH reader MECP2表达与整体mCH呈正相关(皮尔逊相关系数,PCC=0.39),与mCG弱相关(PCC=0.17)。
- DNA甲基转移酶DNMT1在其表达与mCG之间呈强正相关(PCC=0.63),且DNMT1表达与mCH相关性更高(PCC=0.72)。
- DNMT1与mCH之间可能存在某种尚未被发现的相关性。
(2)基因组组织与其他分子模式之间的关系
作者研究不同3D结构特征与其他表观基因组模式(mCG、mCH和开放染色质)之间的相关性。研究结果揭示了在所有神经细胞类型中,mCG和mCH都与三维基因组组织呈负相关,但与染色质开放性存在正相关的关系,表明DNA甲基化可能促进CTCF和cohesin。
图2-I:在所有基因(左)或仅最高差异表达基因(DEGs)(右)的所有主要类型中,区室得分、边界概率或环互作强度与ATAC信号、bin的mCG和mCH分数之间的皮尔逊相关系数(PCC)。
在DNAm和三维基因组结构之间观察到的负相关性可能是由于DNAm对驱动基因组折叠的因子(如CTCF)的结合产生了影响,通过高阶结构的形成招募或排除了甲基化写入因子或清除因子(如DNMTs和TETs),或者是甲基化和基因组组织的共同调控因子。
图2-J:使用所有基因(左)或最高DEG(右)的所有主要类型中不同类别的重叠(x轴),隔室得分、边界概率或环互作强度和基因表达之间的PCC。
结果表明:
- 基因表达也与三维(3D)基因组结构相关,特别是对于细胞类型特异性基因。
- 在所有神经元主要类型中,1099(1,358)个最高差异表达基因(DEGs)与其基因体或启动子重叠的所有三个结构特征显示出强烈的正相关性。基因表达和/或区块结构信号的变异性增加与它们之间更高的正相关性相关联,这证实了差异结构特征和差异基因表达之间的重叠。
- 这些(负)相关性表明,活性区、强结构域和环路相互作用以及开放染色质和甲基化耗竭之间存在协调关系,与活性染色质状态相对应。
- 所有细胞类型之间的相关性普遍弱于神经元单独存在的相关性。
(3)细胞类型特异性DNA甲基化模式和相关基因调控谱:CG和CH甲基化与染色质构象的整合揭示了不同的细胞类型调控动动态
为了描绘细胞类型特异性的甲基化谱,作者在188种大脑细胞亚型中鉴定了24455个CH型和13096个CG型差异甲基化基因(CG-DMGs)以及2059466个CG型差异甲基化区域(CG-DMRs)(图3A)。除了为脑细胞身份提供独特的表观遗传标记外,这些甲基化模式还提供了关键的见解,以理解脑细胞中的基因调控程序。基因体甲基化与基因表达呈负相关,DMRs作为潜在的顺式调控元件(CREs),且转录因子(TF)motif暗示了候选的细胞类型特异性调控因子。
如果是低甲基化DMGs,且其motif在相同细胞类型的低甲基化DMRs(hypo-DMRs)中富集,就将TFs分配给特定的细胞类型。总共有612个TFs被分配到主要的神经元类型和亚型中,它们可能在塑造和维持细胞身份方面发挥重要角色。例如,TBR1被分配到深层兴奋性神经元,特别是L6-CT和L6b(图3B),并注意到它在皮质外向投射神经元的发育中起着决定命运的作用。ZNF423和EBF2都被分配到小脑细胞类型(图3B)。两者对小脑的发育至关重要,而EBF2尤其介导Purkinje细胞的迁移。
进一步分析亚型突出了TF利用的变化。例如TF PBX3,TF PBX3属于纹状体中普遍存在的MSN-D1主要类型,仅在纹状体区室的亚型中被低甲基化,而在纹状体的基质区室中没有被低甲基化,这表明 PBX3 更倾向于在纹状体中表达,印证了之前的观察结果。对 PBX3 的潜在结合位点(具有 PBX3 motif的hypo-DMRs)的进一步研究表明,纹状体亚型的平均甲基化分数较低,表明这个TF在纹状体中具有特定室的调控作用。
整合差异甲基化基因(DMGs)、差异甲基化区域(DMRs)和差异环(differential loops)来精确定位每种细胞类型的潜在顺式调控元件(CREs)(图3C)。如果一个基因的转录起始位点(TSS)位于DMR的5 Mb范围内,那么这个基因就被认为是与DMR相关联。进一步细化保留与环或差异环(DL)的两个锚点重叠的DMR-DMG对。计算不同细胞亚型中DMR的mCG分数与基因体的mCH分数之间的皮尔逊相关系数(PCC)来评估这种关联。特别对于经过DL筛选的DMRs,观察到了增强的相关性(图3D),这些DMRs也显示出与开放染色质区域的重叠增加(图3E)。在1122919个DMRs和12327个基因之间鉴定出3.2M潜在的调控性DMR/基因对。这些DMRs、DMGs的甲基化分数以及它们互作强度(环)呈现出(负)相关性(图3F),这些因素共同协调特定的基因调控程序。例如,编码突触结合蛋白-1(Synaptotagmin-1)的基因SYT1,在L2/3-IT神经元中展现出较低的远端DMRs和SYT1基因体的甲基化分数,并且与DMRs和启动子之间的相互作用比MSN-D1神经元更强(图3G),导致SYT1在L2/3-IT中的表达高于MSN-D1(图3G)。总体而言,CG和CH甲基化与染色质构象的整合揭示了不同细胞类型的调控动态。
通过全基因组关联研究(GWAS)确定了许多与脑部疾病相关的非编码位点,其中很多位于增强子区域。DMRs和loops有助于将这些遗传变异定位到特定细胞类型的调控元件上。使用连锁不平衡得分回归(LDSC)方法,检测到20种脑部疾病或性状与人类大脑细胞中的DMRs或与环重叠的DMRs之间的关联(图3H)。精神分裂症、双相情感障碍和神经质风险变异在皮质和海马体的兴奋性神经元的低甲基化DMRs中显著富集,而阿尔茨海默病(AD)与小胶质细胞(MGC;图3H)相关。烟草使用障碍变异与基底节的Foxp2细胞类型相关(图3H),这是一个与烟草成瘾相关的区域。对疾病风险变异的进一步探索揭示了对基因调控的多样化影响。尽管许多细胞类型与相同的疾病有关,但它们所涉及的风险变异可能多样。例如,精神分裂症风险变异rs2789588在L2/3-IT和L6-CT神经元中都有所涉及,具有相似的表观遗传特征,但rs17194490仅在L2/3-IT中涉及,与相应基因的特定DNA低甲基化、更强的长距离相互作用和与L6-CT相比更高的基因表达相关。
图3:大脑细胞中的基因调控
(4)人、鼠脑细胞类型和DMR的保守性
研究人员分析了灵长类动物(人类)和啮齿类动物(小鼠)之间在大脑细胞类型上的保守性。通过比较人类和小鼠的单核DNA甲基化图谱,范围覆盖大脑皮层、基底前脑、基底核和海马体等相应区域。整合分析表明,人类大脑中定义的三种主要类型与小鼠脑细胞不一致(图5A),小鼠L4-IT神经元只对应于人类L4-IT神经元亚群(图5B),证实了人类L4-IT神经元中存在更大的异质性。人类海马体中的HIP-Misc1神经元与一些小鼠皮层IT神经元整合,而HIP-Misc2神经元与任何小鼠细胞类型均不对应。平行snRNA数据集验证了这两种人类海马体细胞类型(图5C)。尽管未匹配的细胞类型需要进一步研究,但主要类型的分类在人类和小鼠之间更广泛的大脑区域通常是保守的(图5A),而对于相应的细胞类型,人类的整体CG和CH甲基化水平始终高于小鼠(图5D)。
为了比较人脑和小鼠大脑之间的基因调控,研究者使用liftOver匹配在单个物种内鉴定的主要类型低甲基化差异区域(hypo-DMRs)(图5E)。跨细胞类型的40~60%的hypo-DMRs在另一种物种中具有同源序列(将这些DMRs称为OrthSeqs)。大约一半的OrthSeqs在另一种物种中的同源物也是hypo-DMRs(OrthDMRs)。大多数(95%)OrthDMRs相互匹配(CnsvDMRs;图5F)。CnsvDMRs的甲基化分数在人鼠细胞类型间显示出显著的相关性(图5, G和H),表明功能在物种间保守。
研究者进一步选择了相关性最高的DMRs(hcCnsvDMRs,图5G)。hcCnsvDMRs的功能富集分析表明,它们在与前脑发育相关的生物过程和与树突和突触相关的细胞组分中富集(图5F和G)。与小鼠前脑的组蛋白修饰比较表明,这些DMRs在异染质区域(H3K9me3)中缺失,在增强子(H3K27ac和H3K4me1)、启动子(H3K4me3)和poised增强子(H3K27me3)区域中富集。根据染色质可及性将hcCnsvDMRs进一步分类为开放或关闭状态,结果表明开放DMRs在增强子和启动子中富集。而关闭的DMRs在poised增强子中特别富集(图5I),这些增强子可能在发育过程中活跃。
物种间的甲基化保守性暗示了通过比较表观遗传学发现增强子的策略。例如,Pvalb神经元的特定基因INPP5J,有许多远端和近端的hcCnsvDMRs与匹配的染色质可及区域重叠(图5J),包括两个被验证为小鼠Pvalb神经元病毒靶向的特定增强子(图5J)。
图5:人类和小鼠大脑细胞甲基化组的跨物种比较。
- 2D t-SNE可视化人类和小鼠大脑之间的单细胞甲基组化整合。
- L4-IT、HIP-Misc1和HIP-Misc2细胞类型中,人类和小鼠大脑的细胞类型差异。
- TF TSHZ2在HIP-Misc1和HIP-Misc2细胞类型中,CH低甲基化和基因表达。
- 人类和小鼠之间保守细胞类型的整体mCH和mCG相关性。
- 跨物种匹配细胞类型DMRs示意图。
- 大约50%的DMRs在另一个物种中具有同源序列,其中约25%是相互对应的DMRs。
- 跨物种DMR甲基化相关性分布(红色)和随机背景(黑色)。
- hcCnsvDMRs的甲基化分数示例。
- hcCnsvDMRs在组蛋白修饰标记中的富集情况。
- 在Pvalb主要类型中,围绕INPP5J基因的hcCnsvDMRs的浏览器视图。
(5)单细胞甲基化条形码 (scMCodes) 可靠地预测人脑细胞身份。
细胞基因组中的DNA甲基化变化包含了代表过去和现在基因调控事件的分子“印记”,许多CpG位点上大脑细胞类型的DNA甲基化模式具有高度特异性。为此,作者设计了单细胞甲基化条码(scMCodes),通过选定CpG位点的甲基化状态来确定单个细胞水平上的大脑细胞类型(图6A)。
首先通过迭代选择区分大脑细胞类型的CpG位点,然后根据其在不同细胞类型间的甲基化模式,将这些位点进一步聚类成39k个群体。接着通过机器学习模型交叉验证评估了它们的细胞类型预测能力,最终选择800个群体共12000个CpG位点作为scMCodes(图6B和C),以在保持特征数最小化同时实现良好的预测能力。这些scMCodes达到约93%的准确率(图6D)。
在本研究的三个供体和一个外部个体之间进行了跨供体测试。结果显示高预测准确率(92~96%;图6E),证明了scMCode方法在跨个体上的稳健性。单细胞测序的基因组覆盖有限,平均每个细胞中只检测到约200个scMCodes的CpG位点(图6F),强调了scMCode使用少数选定的甲基化位点来确定人类大脑细胞类型的scMCode方法有效性。
图6:大脑细胞类型的snMCodes。
- snMCodes的工作流程。
- 来自所有三位供体的snMCodes。
- snMCode特征的细胞类型特异性示例。
- snMCodes在预测细胞类型时的混淆矩阵热图。
- 跨供体测试中的细胞类型预测准确率。
- snMCodes能够在单细胞分辨率下使用有限数量的CpG位点预测人类细胞类型
Discussion
研究人员编制了一个全面的单细胞DNA甲基化和人类大脑3D基因组结构图谱,并比较了不同大脑区域相同细胞类型的表观遗传多样性。DNA甲基化(DNAm)中编码的复杂调控信息使我们能够提炼出一组单细胞甲基化条码(scMCodes),用于可靠的细胞类型识别。鉴于循环游离DNA(cfDNA)甲基化已被认定为癌症诊断的有力工具,并且为脑部疾病提供了有希望的生物标志物。
研究通过单细胞分析技术揭示的DNA甲基化模式在理解和分类大脑细胞类型中的重要性。研究人员利用这些信息开发了scMCodes,可以在单细胞水平上准确地鉴定和分类细胞类型。此外,cfDNA中的甲基化模式的研究不仅在癌症诊断中显示出潜力,也为脑部疾病的生物标志物发现提供了新的方向。这些发现可能对开发新的诊断方法和治疗策略具有重要意义。
易基因微量cfDNA甲基化测序(cfDNA-BS)技术
cfDNA片段化严重,片段大小常在150bp左右,现有甲基化检测技术包括cfMeDIP和微量WGBS等。无法做到碱基分辨、具有抗体特异性和非特异性捕获、覆盖深度低、检测成本高等特点。常规RRBS富集约70-350bp范围酶切片段,如对于CG含量高的片段将被切割的更碎而无法检测,保留下来的片段反而是CG含量低,无甲基化信息的基因片段。
易基因研发cfDNA-RBS技术,特异性捕获CCGG位点两端的DNA,通过亚硫酸盐测序,实现高深度,单碱基分辨检测CG位点甲基化信息。DNA起始量仅需1ng,是目前肿瘤甲基化标志物检测研究的优选技术。
技术优势:
- 超低起始量:100-500ul血浆或1ng cfDNA;
- 测序覆盖度高:20G测序数据,可达10M的CG位点覆盖,涵盖CpG岛、启动子、增强子、CTCF结合位点等多种核心调控区域
- 单碱基分辨率:在其覆盖范围内可精确分析每一个C碱基的甲基化状态;
- 性价比高:成本相对于现有技术大幅降低。
技术指标
应用场景:
- 癌前病变的癌变预警标志物检测
- 肿瘤早期筛查标志物检测
- 肿瘤预后标志物检测
- 药物疗效预测标志物检测
易基因科技提供全面的表观遗传学研究(DNA甲基化、RNA甲基化、染色质结构与功能组学)整体解决方案,详询易基因:0755-28317900。
参考文献:
Tian W, Zhou J, Bartlett A, Zeng Q, Liu H, Castanon RG, Kenworthy M, Altshul J, Valadon C, Aldridge A, Nery JR, Chen H, Xu J, Johnson ND, Lucero J, Osteen JK, Emerson N, Rink J, Lee J, Li YE, Siletti K, Liem M, Claffey N, O'Connor C, Yanny AM, Nyhus J, Dee N, Casper T, Shapovalova N, Hirschstein D, Ding SL, Hodge R, Levi BP, Keene CD, Linnarsson S, Lein E, Ren B, Behrens MM, Ecker JR. Single-cell DNA methylation and 3D genome architecture in the human brain. Science. 2023 Oct 13;382(6667):eadf5357. doi: 10.1126/science.adf5357. PubMed PMID: 37824674.
相关阅读:
揭秘:cfDNA甲基化在器官和组织损伤检测中的强大力量
干货:cfDNA甲基化测序实验怎么做,看完你就知道了
深度综述 | cfDNA甲基化诊断和监测肿瘤的研究进展与展望:胰腺癌
技术推介 | 微量cfDNA简化基因组甲基化测序(cfDNA-RBS)
学科前沿 | Science:人类大脑的单细胞DNA甲基化和3D基因组结构