《A complete telomere-to-telomere assembly of the maize genome》方法总结

news2024/10/24 22:46:15

研究背景

  • 完整的T2T基因组组装一直是基因组研究的长期追求。

研究方法

  • 通过生成高深度覆盖的超长 Oxford Nanopore Technology (ONT) 和 PacBio HiFi 测序数据,报道了玉米的完整基因组组装。

  • 每条染色体均以单一contig的形式完整覆盖。

结果概述

  • 基因组特征

    • Mo17基因组的大小为 2,178.6 Mb,基础准确率超过 99.99%

    • 揭示了基因组所有重复区域的结构特征。

  • 简单序列重复

    • 发现多个超长简单序列重复阵列,其中连续的 TAG 三核苷酸重复长度可达 235 kb

  • 核仁组织区域

    • 完整组装了 26.8 Mb 的核仁组织区域,包含 2,974 个 45S rDNA 拷贝,揭示了rDNA重复和转座子插入的复杂模式。

  • 中心粒分析

    • 完成了十个中心粒的完整组装,精确剖析了CentC丰富和CentC贫乏中心粒的重复组成。

研究意义

  • Mo17基因组的完整组装标志着在理解高等植物基因组中难以处理的重复区域复杂性方面的重要进展。

1.植物材料与基因组测序

  • 植物材料:

    • 采用玉米(Zea mays)自交系Mo17,在温室中生长。

    • 生长条件:光照下30°C 16小时,黑暗中25°C 8小时。

    • 在生长14天后,采集新鲜幼叶组织,立即用液氮冷冻以进行DNA提取。

  • DNA提取:

    • 使用CTAB法提取高分子量基因组DNA,随后使用Qiagen基因组试剂盒(Qiagen, 13343)进行纯化。

  • 测序文库构建:

    • 利用高分子量DNA构建PacBio HiFi和ONT(Oxford Nanopore Technologies)测序文库。

    • 还采用核提取法构建了超长测序文库。

  • 测序平台:

    • Nanopore PromethION测序仪上进行ONT测序。

    • PacBio Sequel II平台上进行PacBio测序。

2.全基因组组装

  • ONT数据组装:

    • 使用428.7 Gb的高质量过滤超长ONT数据。

    • 选择最长的332.1 Gb读取,N50为100.7 kb

    • 使用NextDenovo(v2.2-beta.0)进行组装,使用了特定参数。

  • PacBio HiFi数据组装:

    • 利用151.1 Gb的PacBio HiFi数据。

    • 同时使用Hifiasm(v.0.7)和Canu(v.2.0)进行组装。

    • Hifiasm组装使用默认参数;Canu组装使用了定制参数,包括内存和计算资源选项。

3.全基因组抛光

  • 抛光过程:

    • 使用ONT数据、PacBio HiFi数据和Illumina无PCR数据对初始ONT组装的567个contig进行抛光,采用NextPolish(v1.1.0)。

    • 先使用ONT数据抛光三轮,再用PacBio HiFi数据抛光三轮,最后用Illumina数据抛光四轮。

    • 由于PacBio HiFi数据质量高,因此未对使用PacBio数据组装的contig进行进一步抛光。

    • 手动提取闭合间隙的序列及其上下游区域,并进行迭代抛光。

4.伪分子的构建

  • 伪分子构建:

    • 基于使用玉米泛基因组基因型测序(GBS)标签的高密度遗传图构建伪分子。

    • 将初始ONT组装的567个contig与基因组图进行比对,采用bwa mem工具。

    • 19个非冗余contig中构建伪分子,以覆盖其余的548个contig

    • 由于组装错误,手动将一个contig拆分为两个,根据GBS标签的位置确定contig的顺序和方向。

5.本地覆盖异常区域的识别

  • 覆盖分析:

    • 417.9 Gb质量合格的超长ONT读取(长度超过10 kb)与基础Mo17组装进行比对,使用Minimap2

    • 根据特定FLAG值和查询覆盖率选择主要和补充比对。

    • 使用BEDTools(v2.29.2)计算每个碱基的读取深度。

    • 根据1 kb的区间计算平均深度,定义低覆盖区域(LCR)和高覆盖区域,并根据需要合并相邻区间。

6.基础Mo17组装与PacBio组装的整合

使用Minimap2(参考文献78)将PacBio Hifiasm和Canu组装的contig比对到基础Mo17组装上,参数设置为‘-x asm5 -f 0.02’。根据比对结果,将两类PacBio contig整合到基础Mo17组装中,包括能够填补空缺的contig和用于修正基础Mo17组装错误的contig。

7.TAG重复阵列和45S rDNA阵列相关缺口的闭合

根据超长的ONT读取手动闭合了5个与TAG重复阵列相关的缺口,并基于PacBio HiFi读取闭合了与45S rDNA阵列相关的缺口,具体方法详见补充材料。

8.FISH实验

收集新鲜的Mo17花序,并用Carnoy溶液(乙醇:冰醋酸,3:1,体积比)固定。按照参考文献80中的方法进行FISH实验。FISH探针(TAG)15和(TTTAGGG)7(端粒重复序列)分别标记为digoxigenin和Cy5。通过与Rhodamin(Roche)结合的抗-digoxigenin抗体检测digoxigenin标记的探针。将Mo17的花药压碎,并通过相差显微镜进行分期。选择有早期细胞期的切片进行FISH实验。使用配备有CCD相机的Olympus BX61荧光显微镜(QImaging; RETGA-SRV FAST 1394)捕捉细胞学图像。使用Image-Pro Plus 6.0软件(Media Cybernetics)分析数字图像。

9.rDNA拷贝数估计

通过基于BLAST的方法使用ONT超长数据和PacBio HiFi数据,采用k-mer基于的方法使用Illumina无PCR数据,估计基因组中5S和45S rDNA的拷贝数。此外,使用Naica Crystal Digital PCR System(Stilla Technologies)估计基因组中45S rDNA的拷贝数,具体方法详见补充材料。

10.使用ONT数据验证T2T Mo17组装

将417.9 Gb质量合格的超长ONT读取(长度超过10 kb)使用Minimap2(参考文献78)比对到T2T Mo17组装上,参数设置为‘-x map-ont -r 10000 -N 50’。根据比对结果,识别出合适的比对读取,标准为主比对和辅助比对(SAM格式文件中的FLAG值必须为0、16、2048或2064),且查询序列覆盖率最低为0.85。识别融合读取的标准是该读取比对到多个基因组区域,且所有比对的查询覆盖率合计达到0.85。识别对称读取的标准是该读取可大致分为两部分,序列互为反向互补,并且两部分对齐到同一区域,查询覆盖率合计达到0.85。仅使用合适的ONT读取进行读取覆盖分析。使用BEDTools(v2.29.2)计算T2T组装每个碱基的读取深度,参数为‘genomecov -bga -split’。然后计算基因组中所有1 kb bin的平均深度。将深度低于100或高于250的bin标识为局部覆盖异常。相邻的bin被合并。除了合适的比对读取、融合读取和对称读取外,剩余的ONT读取进一步被判断为源自细胞器基因组或嵌合读取(补充材料)。

11.T2T Mo17组装的验证

使用PacBio和Illumina数据

  1. 精度估算

    • 使用Merqury(v1.1)从映射的k-mer估计T2T Mo17组装的准确性。

    • 使用251 Gb的Illumina PCR-free数据生成k-mer数据库(K=21)。

    • 在Mo17组装中,每个k-mer的存在性与Illumina数据库进行比较,缺失的k-mer被视为基于的“错误”。

    • 发现2178604120个k-mer中有2676840个仅在组装中检测到,计算得出质量值(QV)为42.3252。

    • 通过以下公式得出Mo17组装的准确性:

      100−(10(42.3252/−10))×100=99.9941100−(10(42.3252/−10))×100=99.9941

  2. 覆盖异常区域识别

    • 使用151.1 Gb的PacBio HiFi读取对T2T Mo17组装进行比对,采用Minimap2(参数:‘-x map-pb -r 1000 -N 50’)。

    • 根据比对结果,识别出映射正确的读取,标准为主对齐和补充对齐,最小查询序列覆盖率为0.85。

    • 使用BEDTools计算每个基因组位置的读取深度,并识别深度低于20或高于105的区域作为局部覆盖异常。

12.重复元素注释

  1. 转座子元素库

    • 从玉米TE联盟手动整理转座子元素库(maizeTE02052020),用于识别Mo17基因组中新转座子的注释。

    • 使用EDTA(v1.7.0)进行新转座子的识别,参数为‘-species maize -curatedlib maizeTE02052020’。

  2. 重复元素的发现与标注

    • 使用RepeatMasker(v4.1.1)发现和识别Mo17基因组中的重复元素。

    • 使用Tandem Repeats Finder(TRF,v4.09.1)识别微卫星、迷你卫星和卫星,并对结果进行冗余剔除。

  3. 图形表示

    • 不同颜色被分配给注释中不同类型的重复元素,以便在基因组区域或ONT读取的图形表示中进行可视化。

13.转座子阵列的识别

  • 将所有基因间区域划分为100kb的窗口,并计算每个窗口的转座子比例,比例超过0.95的被视为转座子阵列,重叠的阵列合并。

14.生成ISO-seq数据

  • 为了帮助基因组注释,生成了来自五种不同组织的混合RNA的ISO-seq数据,包括根、丝、穗和苞片(收集于抽穗阶段),以及14天的幼苗。

  • 提取RNA的纯度、浓度和完整性,以确保使用高质量的RNA进行文库构建。

  • 使用ab initio预测和基于证据的预测方法对Mo17基因组中的蛋白编码基因进行预测,方法包括RNA测序、ISO-seq、蛋白质同源搜索和MAKER预测。

16.同源基因分析

  • 使用OrthoFinder(v2.5.2)进行Mo17基因组和NAM创始系基因组的同源性分析。

  • 通过BLASTP对Mo17基因组中的着丝粒基因进行同源基因识别,E值阈值设定为小于1×10^-3。

17.基因重复的识别

  • 使用 BLASTP 计算每个基因最长转录本编码的蛋白质之间的成对相似性,设定E值阈值为 < 1.0 × 10⁻²⁰。

  • 然后使用 MCscanX 进行分类,采用默认参数。

18.几乎相同的片段重复的识别

  • 将 T2T Mo17基因组 进行自身比对,使用 Mummer 工具。

  • 从Mummer的结果中,识别出相似度超过0.99且长度超过1,000 bp的区域对作为几乎相同的片段重复。

  • 将重叠和相邻的几乎相同片段重复合并。

19.卫星数组的识别

  • 使用 BLAST 识别与五个已报道的卫星重复(knob180、TR-1、CentC、Cent4和tRNASAT_ZM)以及三个新识别的卫星重复(sat268、sat261和sat112)在Mo17基因组中的匹配。

  • knob180、TR-1和CentC的序列来源于 MTEC,Cent4和tRNASAT_ZM的序列来源于 Repbase

  • 将基因组分成100 kb的窗口,步长为10 kb,计算每个窗口中八种卫星的比例。

  • 对于每种卫星,窗口中序列超过10%的定义为数组。将相同类型的重叠数组合并,并修剪合并后的数组边界,以去除末端非卫星序列。

20.高阶重复分析

  • 为knob180、TR-1和CentC重复生成位置概率矩阵(PPM),并根据先前报道的方法计算每个卫星重复副本与PPM的变异距离。

  • 所有分析的卫星完整拷贝使用 MAFFT 进行多序列比对,并计算每个比对位置的核苷酸频率以生成PPM。

  • 对于每个单体,通过将每个位置的不同核苷酸概率求和(即1减去相应的核苷酸频率)计算“变异距离”。

  • 每种卫星的单体与其他拷贝进行比较,变异得分为5或更少的单体被聚类为同一组,称为高阶重复组。一个单体可以同时属于不同的高阶重复组。

21.5S和45S rDNA的基因型分析

  • 从最终的T2T Mo17基因组组装中提取每个完整的5S和45S rDNA拷贝序列。

  • 分别使用 MAFFT 进行多序列比对。

  • 对于5S rDNA,选择支持超过10% 5S rDNA拷贝的SNPs和插入缺失(indels)用于基因型分析。

  • 对于45S rDNA,仅选择支持超过10% 45S rDNA拷贝、且大于5 bp的插入缺失用于基因型分析,所有选定的插入缺失位于间隔区。

22.中心粒的识别

  • 使用兔多克隆抗体抗CENH3进行抗体染色质免疫沉淀测序(ChIP-seq)库的构建,抗体针对的肽序列为RPGTVALREIRKYQKSSTSATPERAAGTGGR。

  • 收集约10 g的新鲜Mo17叶片进行细胞核提取,提取的细胞核用微球菌核酸酶消化,然后使用抗CENH3进行ChIP。

  • 每25 µg的染色质使用5 µl的抗体(浓度为0.83 mg/ml)。设置两个生物重复。

  • ChIP-seq库在Illumina HiSeq平台上进行测序,生成150-nucleotide成对读取。

  • 原始读取进行接头修剪和过滤,使用 fastp 进行处理,随后将结果映射到Mo17基因组,使用 Bowtie2 进行映射。

  • 提取唯一映射的读取,用于进一步分析。使用 bamCompare 计算CENH3的富集水平,保留富集水平大于5的bins,并合并距离小于1 Mb的bins,最终通过可视检查确定Mo17基因组的功能性中心粒区域。

23.亚端粒的识别

  • 使用 RepeatMasker 识别Mo17基因组中的亚端粒重复序列,最初基于两个已报道的亚端粒重复(U39642.1和4-12-1)。

  • 发现Mo17基因组上的亚端粒重复与U39642.1和4-12-1序列不完全一致。基于U39642.1的亚端粒,识别到的对应重复单位为629 bp。

  • 对于4-12-1序列,发现只匹配部分序列,因此使用 TRF 重新定义亚端粒重复单位,得到532 bp的重复单位,称为亚端粒重复2。

  • 基于亚端粒重复1和重复2,重新识别Mo17基因组中的亚端粒重复序列。

  • 最终,十条染色体每端的亚端粒区域通过可视检查确定,两个亚端粒重复的序列在补充说明中提供。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2222766.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3中mitt和pinia的区别和主要用途,是否有可重合的部分?

在 Vue 中&#xff0c;Mitt 和 Pinia 是两个不同的工具&#xff0c;它们的主要用途和功能有所不同&#xff0c;但在某些方面也存在重合的部分。 区别 Mitt&#xff1a; Mitt 是一个简单而强大的事件总线库&#xff0c;用于在组件之间进行事件的发布和订阅。 它提供了一种简洁…

【Linux】实现一个简易的shell命令行

&#x1f984;个人主页:修修修也 &#x1f38f;所属专栏:Linux ⚙️操作环境:Xshell (操作系统:Ubuntu 22.04 server 64bit) 目录 一.项目简介 二.分析项目实现 三.逐步实现项目功能 1.获取命令行 2.解析命令行 3.指令的判断 4.普通命令的执行 四.完整项目代码 结语 一.项目简介…

计算生物学与生物信息学漫谈-1-测序一路走来

最近工作中&#xff0c;反思自己计算生物学基础非常薄弱&#xff0c;然而作为一门非常新兴的交叉学科&#xff0c;涉及计算机、物理、生物、数学等多多学科&#xff0c;国内并没有这样完善的教程&#xff0c;因此想要自己做一个教程&#xff0c;使用费曼学习法学习&#xff0c;…

【亚马逊云】基于 Amazon EKS 搭建开源向量数据库 Milvus

文章目录 一、先决条件1.1 安装AWS CLI ✅1.2 安装 EKS 相关工具✅1.3 创建 Amazon S3 存储桶✅1.4 创建 Amazon MSK 实例✅ 二、创建EKS集群三、创建 ebs-sc StorageClass四、安装 AWS Load Balancer Controller五、部署 Milvus 数据库5.1 添加 Milvus Helm 仓库5.2 配置 S3 作…

Vue2、Element中实现Enter模拟Tab,实现切换下一个框的效果

目录 &#x1f4c3;前序 &#x1f449;开发历程 &#x1f4bb;实际代码 &#x1f4fd;实现效果图 前序 在几乎所有的浏览器中&#xff0c;都具备通过 Tab 键来切换焦点的功能。然而&#xff0c;有些用户提出了强烈要求&#xff0c;希望能够增加通过 Enter 键…

进程间通信(二)消息队列、共享内存、信号量

文章目录 进程间通信System V IPC概述System V IPC 对象的访问消息队列示例--使用消息队列实现进程间的通信 共享内存示例--使用共享内存实现父子进程间的通信&#xff08;进程同步&#xff09;示例--使用进程实现之前的ATM案例&#xff08;进程互斥&#xff09; 信号量示例--利…

上传Gitee仓库流程图

推荐一个流程图工具 登录 | ProcessOnProcessOn是一个在线协作绘图平台&#xff0c;为用户提供强大、易用的作图工具&#xff01;支持在线创作流程图、思维导图、组织结构图、网络拓扑图、BPMN、UML图、UI界面原型设计、iOS界面原型设计等。同时依托于互联网实现了人与人之间的…

大厂常问iOS面试题–Runloop篇

大厂常问iOS面试题–Runloop篇 一.RunLoop概念 RunLoop顾名思义就是可以一直循环(loop)运行(run)的机制。这种机制通常称为“消息循环机制” NSRunLoop和CFRunLoopRef就是实现“消息循环机制”的对象。其实NSRunLoop本质是由CFRunLoopRef封装的&#xff0c;提供了面向对象的AP…

6个RAG进阶优化方案,对应14篇论文案例解析

本文对近几月我了解到的RAG优化策略进行总结, 每个优化策略都有相应的研究论文作为支撑。在01先总结优化方向, 02细化说明相应论文 在介绍RAG优化策略之前, 先说说知识库数据处理: 增强数据粒度&#xff1a;旨在提升文本标准化、一致性、事实准确性和丰富的上下文&#xff0c…

Acrel-1000变电站综合自动化系统及微机在化工企业中的应用方案

文&#xff1a;安科瑞郑桐 摘要&#xff1a;大型化工企业供配电具有的集约型特点&#xff0c;化工企业内35kV变电站和10kV变电所数量大、分布广&#xff0c;对于老的大多大型及中型化工企业而言&#xff0c;其变电站或变电所内高压电气设备为旧式继电保护装置&#xff0c;可靠…

详解Java的类文件结构(.class文件的结构)

this_class 指向常量池中索引为 2 的 CONSTANT_Class_info。super_class 指向常量池中索引为 3 的 CONSTANT_Class_info。由于没有接口&#xff0c;所以 interfaces 的信息为空。 对应 class 文件中的位置如下图所示。 06、字段表 一个类中定义的字段会被存储在字段表&#x…

zotero文献管理学习

1 zotero软件简介 zotero是一款开源的文献管理软件。如果你听说或使用过EndNote&#xff0c;那么可能会对“文献管理”有一定的概念。可以简单地这样理解&#xff1a;zotero一定程度上可以作为EndNote的平替。 EndNote需要注册付费&#xff0c;对于无专业科研机构隶属关系的企…

MATLAB运动目标检测系统

应用背景 运动目标的定位跟踪&#xff0c;检测识别&#xff0c;运动分析在图像压缩、运动分析、交通检测&#xff0c;智能监控等方面有主要的应用。 首先&#xff0c;在图像压缩中&#xff0c;运动目标检测技术可以在背景区域中将前景区域提取分割出来&#xff0c;只传递部分…

植物端粒到端粒(T2T)基因组研究进展与展望

鼠鼠跳槽了&#xff0c;因为现在公司发(bu)展(zhang)受(gong)限(zi)&#xff0c;只能跳一次&#xff0c;从大兴到昌平了。从二代ivd行业去三代T2T和泛基因组了。在这里我们分享一篇文章。 摘要&#xff1a;高质量的参考基因组是基因组学研究的基础。目前&#xff0c;大多数的参…

笨蛋学习FreeMarker

笨蛋学习FreeMarker FreeMarker参考网址创建实例引入Maven创建工具类创建实例并进行输出 FreeMarker数据类型布尔型&#xff1a;日期型&#xff1a;数值型&#xff1a;字符型&#xff1a;需要处理字符串为null的情况&#xff0c;否则会报错字符串为空不会报错cap_firstuncap_fi…

【银河麒麟高级服务器操作系统实例】金融行业TCP连接数猛增场景的系统优化

了解更多银河麒麟操作系统全新产品&#xff0c;请点击访问 麒麟软件产品专区&#xff1a;https://product.kylinos.cn 开发者专区&#xff1a;https://developer.kylinos.cn 文档中心&#xff1a;https://documentkylinos.cn 服务器环境以及配置 物理机/虚拟机/云/容器 物理…

12 django管理系统 - 注册与登录 - 登录

为了演示方便&#xff0c;我就直接使用models里的Admin来演示&#xff0c;不再创建用户模型了。 ok&#xff0c;先做基础配置 首先是在base.html中&#xff0c;新增登录和注册的入口 <ul class"nav navbar-nav navbar-right"><li><a href"/ac…

使用 VSCode 通过 Remote-SSH 连接远程服务器详细教程

使用 VSCode 通过 Remote-SSH 连接远程服务器详细教程 在日常开发中&#xff0c;许多开发者需要远程连接服务器进行代码编辑和调试。Visual Studio Code&#xff08;VSCode&#xff09;提供了一个非常强大的扩展——Remote-SSH&#xff0c;它允许我们通过 SSH 协议直接连接远程…

一图读懂“低空经济”

&#x1f482; 个人主页: 同学来啦&#x1f91f; 版权: 本文由【同学来啦】原创、在CSDN首发、需要转载请联系博主 &#x1f4ac; 如果文章对你有帮助&#xff0c;欢迎关注、点赞、收藏和订阅专栏哦 文章目录 ✈️ 一、低空经济简介&#x1f534; 1、基本含义&#x1f7e0; 2、…

【免费领取】基于javaweb实现的的日志管理系统

主营内容&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 项目描述 本工作日志管理系统是一个面向中小企业的简单的工作管理系统&#xff0c;它主要实现公…