基因组组装:NextDenovo2 使用大全

news2024/10/7 8:29:43
alt

简介

NextDenovo 是一种针对长序列读取(包括CLR和ONT技术)的新型基因组组装工具。它采取了一种“先校正错误再进行组装”的方法,这与canu工具类似,但对于PacBio HiFi读取数据则无需进行校正。相较于其他工具,NextDenovo在计算资源和存储空间的需求上要小得多。完成组装后,每个碱基的准确率可以达到98%至99.8%。如果您希望进一步提升单个碱基的精确度,可以尝试使用NextPolish工具进行优化。

在性能对比测试中,我们将NextDenovo与其它几种组装工具进行了比较,测试所用的数据包括来自人类和果蝇的Oxford Nanopore长序列读取,以及来自拟南芥的PacBio连续长序列读取(CLR)。结果显示,NextDenovo在生成较少片段的连续性组装方面表现更佳。此外,NextDenovo在组装的一致性和单个碱基的精确度上也展现出了较高的准确性水平。

安装

  • 直接下载
 wget https://github.com/Nextomics/NextDenovo/releases/latest/download/NextDenovo.tgz
 tar -vxzf NextDenovo.tgz && cd NextDenovo
  • 自己编译(可选)
 git clone git@github.com:Nextomics/NextDenovo.git
 cd NextDenovo && make

使用

准备输入

# 准备input.fofn
ls reads1.fasta reads2.fastq reads3.fasta.gz reads4.fastq.gz ... > input.fofn

*配置文件

配置文件是一个文本文件,其中包含一组参数(键=值对),用于设置 NextDenovo 的运行时参数。以下是一个典型的配置文件,也位于 doc/run.cfg 中。

[General]
job_type = sge # local, sge, pbs, lsf, slurm… (default: sge)
job_prefix = nextDenovo
task = all
rewrite = yes
deltmp = yes
parallel_jobs = 22  # 线程
input_type = raw
read_type = ont # clr, ont, hifi 数据类型
input_fofn = input.fofn  # 输入文件
workdir = HG002_NA24385_son_assemble  # 工作目录

[correct_option]
read_cutoff = 1k  # reads 截断 过滤器读取长度< read_cutoff(默认值:1k)
genome_size = 3g # estimated genome size 基因组大小
sort_options = -m 50g -t 30  # sort 内存+线程
minimap2_options_raw = -t 8  # minimap2 选项,用于查找原始读取之间的重叠
pa_correction = 5
correction_options = -p 30

[assemble_option]
minimap2_options_cns = -t 8  # minimap2 选项,用于查找校正读数之间的重叠
nextgraph_options = -a 1
  • 有关 correction_options 参数

使用选项 -p--process 可以设定用于序列校正任务的并行进程数,默认设置为10个进程。

选项 -b--blacklist 允许用户禁用数据过滤步骤,以便获得更多的校正后数据。

-s--split 选项用于将校正后的序列种子与未校正的区域进行分离,默认不启用此功能。

启用 -fast 选项可以提升程序运行速度至原来的1.5至2倍,但这可能会略微牺牲校正的准确度,默认情况下此功能是关闭的。

-dbuf 选项用于关闭2bit文件格式的缓存,从而减少大约为输入总碱基数四分之一的内存使用量,该选项同样默认不启用。

-max_lq_length 参数用于设定校正序列种子中允许的连续低质量区域的最大长度。如果将此值设置得更大,可以获得更多的校正数据,但这会以牺牲校正的准确度为代价。默认情况下,该参数会根据使用的测序平台自动调整,对于PacBio平台是1k,对于ONT平台是10k。

运行

# 运行
nextDenovo run.cfg

结果

在目录 workdir/03.ctg_graph/ 下的文件 nd.asm.fasta 中,包含了以fasta格式存储的连续序列信息。每个序列的fasta头部信息包括了序列的ID、类型、长度以及节点数量。

在序列中,如果出现连续的小写字母的区域,则意味着该处的连接可能不够稳定。此外,序列中用单个小写字母表示的碱基是质量较低的。

在同一个目录下的另一个文件 nd.asm.fasta.stat 包含了一些基础的统计数据,如N50、N70、N90等指标,以及总的序列大小等信息。

要点

  • 组装大小小于预期基因组大小时的参数调整

对于高度杂合的基因组,可以尝试设置nextgraph_options = -a 1 -A。否则,可以在nextgraph_options中将-q的值从5调整到16。测试表明,设置nextgraph_options = -a 1 -q 10通常能获得最佳结果。

  • nd.asm.p.fasta与最终组装结果nd.asm.fasta的区别

nd.asm.p.fasta理论上包含比nd.asm.fasta更多的结构和碱基错误。可以选择nd.asm.p.fasta作为最终组装结果,但应首先验证组装质量。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1630340.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用 Vitepress 构建博客并部署到 github 平台

前言 最近写了好多篇 Chrome 浏览器插件相关的文章&#xff0c;有十几二十篇&#xff0c;就想着构建个博客&#xff0c;用来放置相应的文章。 正好前段时间看到 VitePress 1.0.0 发布了&#xff0c;而且是用 markdown 写文章&#xff0c;正好写插件文章的时候文章都是 md 格式…

达梦数据查询语句不带模式名称,报错无效的表或视图名[某某表]

[执行语句1]: select * from sys_config 执行失败(语句1) -2106: 第2 行附近出现错误: 无效的表或视图名[SYS_CONFIG]1条语句执行失败 解决方案&#xff1a; 保证模式名和用户名一致&#xff0c;而且你当前登录的用户要和模式名一致 把用户换成一样的&#xff0c;查询就可以不 …

如何利用 GPT 自我提高写作能力

GPT革命&#xff1a;如何用AI技术重新定义写作 介绍 在我们的数字时代&#xff0c;了解自我提高写作的必要性至关重要。 随着 GPT 的兴起&#xff0c;我们正在见证书写的变革时代。 这篇扩展文章深入探讨了 GPT 如何显着提高写作技能。 拥抱未来&#xff1a; 人工智能时代的写…

HarmonyOS 应用开发——入门

首先当然是华为的官方文档了&#xff0c;要认真学习: https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V2/start-overview-0000001478061421-V2 不想花时间看&#xff0c;可以看我下面总结的干货&#xff0c;哈哈 第一个问题&#xff1a;stage架构和fa架构的区…

Linux下的常用基本指令

基本指令 前言ls 指令语法功能常用选项举例注意要点关于拼接关于 -a关于文件ls与/的联用ls与根目录ls与任意文件夹ls与常用选项与路径 ls -d与ls -ldls与ll pwd命令语法功能常用选项注意要点window与Linux文件路径的区别家目录 cd 指令语法功能举例注意要点cd路径.. .相对路径与…

【中级软件设计师】上午题12-软件工程(1):软件工程模型、敏捷方法、软件需求、系统设计

上午题12-软件工程&#xff08;1&#xff09; 1 软件过程1.1 CMM 能力成熟度模型1.1 CMMI (建议直接看思维导图&#xff09; 2 软件过程模型2.1 瀑布模型2.2 增量模型2.3 演化模型2.3.1 原型模型2.3.2 螺旋模型 2.5 喷泉模型 3 统一过程&#xff08;UP&#xff09;模型4 敏捷方…

Kafka报错ERROR Exiting Kafka due to fatal exception during startup

报错&#xff1a; ERROR Exiting Kafka due to fatal exception during startup. (kafka.Kafka$) kafka.common.InconsistentClusterIdException: The Cluster ID FSzSO50oTLCRhRnRylihcg doesnt match stored clusterId Some(0oSLohwtQZWbIi73YUMs8g) in meta.properties. Th…

zabbix监控Tongweb7企业版(by lqw+sy)

此贴参考zabbix通过jmx监控Tongweb7企业版&#xff08;by lqw&#xff09;&#xff0c;是在此帖子的基础和同事整理的文档基础上重新部署验证的优化版&#xff0c;使用的是centos7。 优点&#xff1a; 1.不需要通过jmx配置进行监控。&#xff08;jmx配置需要修改tongweb的配置…

鸿蒙开发实战

问题&#xff1a; 1&#xff0c;鸿蒙DevEco Studio 机测试Failure[INSTALL_FAILED_APP_SOURCE_NOT_TRUSTED] 勾选☑️ 勾选自动签名&#xff0c;然后自动跳转登录华为网站&#xff0c;登录即可。 //持续更新&#xff01;

长图高效切割新体验:支持按随机宽度灵活裁切,释放无限创意与效率

图像的传播已经成为我们日常生活的一部分。而长图&#xff0c;作为一种特殊的图像形式&#xff0c;其独特的展示方式能够吸引更多的目光。但是&#xff0c;如何将长图高效切割&#xff0c;以展现其独特的魅力呢&#xff1f;现在&#xff0c;我们为您带来了一款支持按随机宽度切…

Leetcode-17.04. 消失的数字

面试题 17.04. 消失的数字 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/missing-number-lcci/ 目录 面试题 17.04. 消失的数字 - 力扣&#xff08;LeetCode&#xff09; 题目 解题(注释) 第一种方法 第二种方法 第三种方法 题目 数组nums包含…

快速集成xxljbo

目录 1.下载工程 2.docker集成admin 1.拉取镜像 2.启动xxl-job 3.访问 3.配置测试 1.添加依赖 2.配置yml文件 3.添加配置类

【Linux系统编程】基础指令(三)

&#x1f49e;&#x1f49e; 前言 hello hello~ &#xff0c;这里是大耳朵土土垚~&#x1f496;&#x1f496; &#xff0c;欢迎大家点赞&#x1f973;&#x1f973;关注&#x1f4a5;&#x1f4a5;收藏&#x1f339;&#x1f339;&#x1f339; &#x1f4a5;个人主页&#x…

CLI举例:基于用户接入方式和终端设备类型的安全策略

组网需求 如图1所示&#xff0c;某企业在网络边界处部署了FW作为安全网关&#xff0c;连接内部网络与Internet。具体情况如下&#xff1a; 内部网络中已经部署了Agile Controller身份验证机制&#xff0c;Agile Controller服务器上存储了用户信息。内部网络中的用户可以使用不…

网络攻击日益猖獗,安全防护刻不容缓

“正在排队登录”、“账号登录异常”、“断线重连”......伴随着社交软件用户的一声声抱怨&#xff0c;某知名社交软件的服务器在更新上线2小时后&#xff0c;遭遇DDoS攻击&#xff0c;导致用户无法正常登录。在紧急维护几小时后&#xff0c;这款软件才恢复正常登录的情况。 这…

65、二分-在排序数组中查找元素的第一个和最后一个位置

思路&#xff1a; 寻找数组中的目标值第一个和最后一个&#xff0c;如果不存在哪儿就是返回-1。 第一种方式直接线性遍历&#xff0c;找到目标值记录当前下标。继续寻找下一个不等于目标值&#xff0c;说明下一个目标值的下标就是结尾。直接返回。 第二种方式通过使用二分法…

双系统下删除ubuntu

絮絮叨叨 由于我在安装Ubuntu的时候没有自定义安装位置&#xff0c;而是使用与window共存的方式让Ubuntu自己选择安装位置&#xff0c;导致卸载时我不知道去格式化哪个分区&#xff0c;查阅多方资料后无果&#xff0c;后在大佬帮助下找到解决方案 解决步骤 1、 插上Ubuntu安…

【Python】控制语句

1、运用python的控制语句if elif else 2、回顾输入输出函数的使用 3、使用random函数得到随机数 4、运用python的循环语句 5、熟悉了埃筛法找素数 6、练习了数组和参数传递 1、从键盘接收整数的一百分制成绩(0~100),要求输出其对应的成绩等级A~E。其中,90分(包含)以上为A,…

数组和指针经典笔试题讲解下

目录 创作不易&#xff0c;如对您帮助&#xff0c;还望一键三连&#xff0c;谢谢&#xff01;&#xff01;&#xff01; 题目一&#xff1a; 题目二&#xff1a; 题目三&#xff1a; 题目四&#xff1a; 题目五&#xff1a; 题目六&#xff1a; 题目七&#xff1a; 创作…

应急行业的智能安全帽(高端)

前面介绍了低端、中端安全帽&#xff0c;接着再讲讲高端安全帽。做高端安全帽的企业非常少&#xff0c;估计一只手都数的出来。确实也和智能安全帽这个领域体量有关系&#xff0c;并且他有一个新的“劲敌”——智能眼镜从其他领域瓜分原属于他的市场&#xff0c;这些都是题外话…