宏基因组|使用CheckM2评估分箱质量

news2024/12/28 19:05:01

在这里插入图片描述

简介

CheckM2使用机器学习快速评估基因组bin质量

与CheckM1不同,CheckM2采用通用训练的机器学习模型,无论分类学谱系如何,均可用于预测基因组bin的完整性和污染情况。这使得它能够在训练集中纳入许多仅具有少数(甚至只有一个)高质量基因组代表的谱系,通过将其置于训练集中所有其他生物体的背景下进行分析。得益于这一机器学习框架,CheckM2对于具有缩减基因组或特殊生物学特性的生物体,如Nanoarchaeota或Patescibacteria,也具有极高的准确性。

CheckM2使用两种独立的机器学习模型来预测基因组完整性。其中,“通用”梯度提升模型具有良好的泛化能力,适用于GenBank或RefSeq中代表性不足的生物体(大致相当于在目、纲或门水平上为新物种)。而“特定”神经网络模型在预测与参考训练集相近物种的完整性时更为准确(大致相当于已知物种、属或科中的生物体)。CheckM2通过计算余弦相似度自动确定适用于每个输入基因组的完整性模型,但用户也可以强制使用特定的完整性模型,或者获取两种模型的预测输出。至于污染情况,CheckM2只有一种基于梯度提升的模型,该模型不受不同版本分类学物种注释的影响,适用于所有情况。

安装

mamba env create -f checkm2.yaml
mamba activate checkm2

checkm2.yaml文件如下

names: checkm2
channels:
  - conda-forge
  - bioconda
  - defaults
dependencies:
  - checkm2=1.0.1

下载数据库

官方下载链接

https://zenodo.org/api/files/fd3bc532-cd84-4907-b078-2e05a1e46803/checkm2_database.tar.gz

或者从我们的网盘中下载

链接:https://pan.quark.cn/s/e714d2d9d7f2
提取码:u2R1

解压

tar -xf checkm2*z

使用

checkm2 predict \
    --threads 16 \
    --input ./Bin/ \
    --output-directory ./Bin_quality/ \
    --database_path ./checkm2/uniref100.KO.1.dmnd
  • --input 输入目录,包含bin.fa或bin.fna等文件
Bin.1.fa
Bin.2.fa
Bin.3.fa
Bin.4.fa
Bin.5.fa
Bin.6.fa
...
  • --output-directory 输出文件目录
  • --database_path 数据库文件
  • --threads 所使用的线程数

输出结果

  • diamond_output/
  • protein_files/
  • checkm2.log
  • quality_report.tsv

可以根据quality_report.tsv文件中的Completeness>75和Contamination<10挑选Bin

grep 'Bin' Bin_quality/quality_report.tsv | \
awk '{if($2>75 && $3<10) print $1}' > Bin_quality/checkm2_pick.txt

NameCompletenessContaminationCompleteness_Model_UsedTranslation_Table_UsedCoding_DensityContig_N50Average_Gene_LengthGenome_SizeGC_ContentTotal_Coding_SequencesAdditional_Notes
Bin.3164.524.61Gradient Boost (General Model)110.8814705287.052094518187720.631862None
Bin.31087.922.31Neural Network (Specific Model)110.84119758357.399481924568440.511930None
Bin.31122.070.01Neural Network (Specific Model)110.85216495304.85945955944760.42555None
Bin.31270.10.93Neural Network (Specific Model)110.8684467273.762299915927660.381687None
Bin.3135.450.02Neural Network (Specific Model)110.92562916244.93877552321560.41294None
Bin.31491.290.5Gradient Boost (General Model)110.95414158348.068849712997130.491191None

Reference

https://github.com/chklovski/CheckM2
https://pubmed.ncbi.nlm.nih.gov/37500759/

承接宏基因组、扩增子全部分析内容
在这里插入图片描述

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1614906.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Proxyman Premium for Mac:网络调试利器,开发者首选!

Proxyman Premium for Mac是一款功能强大的网络调试和分析工具&#xff0c;专为开发者和测试人员打造。这款软件以其出色的性能和丰富的功能&#xff0c;帮助用户在网络开发和调试过程中更有效地分析和拦截网络请求&#xff0c;进行必要的修改和重发&#xff0c;从而进行更深度…

局域网屏幕桌面监控哪个软件比较好

在企业、教育机构或其他组织中&#xff0c;出于提高工作效率、保障数据安全、规范员工行为等目的&#xff0c;对局域网内电脑屏幕进行实时监控的需求日益凸显。 面对市场上众多屏幕监控软件&#xff0c;选择一款功能全面、稳定可靠且符合法规要求的产品至关重要。 在局域网屏幕…

python 如何表示大写字母

upper() 方法将字符串中的小写字母转为大写字母。 语法 upper()方法语法&#xff1a; str.upper() 参数 NA。 返回值 返回小写字母转为大写字母的字符串。 实例 以下实例展示了 upper()函数的使用方法&#xff1a; #!/usr/bin/python str "this is string example…

【看不懂命令行、.yaml?】Hydra 库极速入门

Hydra 是一个开源的 Python 框架&#xff0c;可以简化研究和其他复杂应用程序的开发。其核心功能是通过组合动态创建层次化的配置&#xff0c;并可以通过配置文件和命令行进行覆盖。Hydra 的名字来源于它能够运行多个类似的作业 - 就像一个多头的水怪一样。 主要特性: 从多个…

LLM学习之自然语言处理简单叙述

自然语言处理基础 自然语言处理&#xff1a;让计算机读懂人所写好的这些文本&#xff0c;能够像人一样进行交互。 自然语言处理的任务和应用 任务&#xff1a; 词性标注 part of speech tagging 动词&#xff0c;名词&#xff0c;形容词&#xff1f; 命名实体的识别 name…

深度学习与神经网络入门

前言 人工智能&#xff08;AI&#xff09;与机器学习&#xff08;ML&#xff09;与深度学习&#xff08;DL&#xff09;的关系&#xff1a; DL包含于ML&#xff0c;ML包含于AI。 即深度学习是机器学习一部分&#xff0c;机器学习又是人工智能的一个分支。 那么深度学习到底有…

用Python自动化操作PPT,看完这篇文章就够了!

1.PPT自动化能干什么&#xff1f;有什么优势&#xff1f; 它可以代替你自动制作PPT它可以减少你调整用于调整PPT格式的时间它可以让数据报告风格一致总之就是&#xff1a;它能提高你的工作效率&#xff01;让你有更多时间去做其他事情&#xff01; 2.使用win32com操作ppt 官…

GDC 笔记

1 Title Diffusion Improves Graph Learning&#xff08;Johannes Gasteiger, Stefan Weienberger, Stephan Gnnemann&#xff09;【NeurIPS 2019】 2 Conclusion This study removes the restriction of using only the direct neighbors by introducing a powerful, yet spa…

【软件测试】Selenium实战技巧-多页面和Windows控件处理

01 多页面处理 做UI自动化的时候常常会遇到浏览器弹出新的Tab页&#xff0c;或者需要在多个网页服务之间来回取数据的情况。 比如在首页点击文章“Jmeter使用&#xff1f;”的链接&#xff0c;浏览器会弹出一个新的页面显示“Jmeter使用&#xff1f;”这篇文章的详情。此时如…

PySide6应用实践 | 在PyCharm配置和使用PySide6 QtDesinger

PySide6应用实践 | 在PyCharm配置和使用PySide6 QtDesinger 一、前言二、在PyCharm External Tools中配置PySide61.PyCharm External Tools的用途2.在Pycharm External Tools中配置PySide6 QtDesinger3.在Pycharm中使用PySide6 QtDesinger 一、前言 程序员缓解工作压力的小窍门…

JS -关于对象相关介绍

在JS中&#xff0c;除去基本的数据类型&#xff0c;还有包含对象这种复合数据类型&#xff0c;他可以储存多个键值对&#xff0c;并且每个键都是唯一的&#xff0c;并且在对象中可以包含各种数据类型的值&#xff0c;包括其他对象&#xff0c;数组&#xff0c;函数等。对象是Ja…

Android studio添加aidl文件时,添加按钮为黑色不可点击添加解决办法

在android studio添加aidl文件时出现下面这个情况只需要在模块的build.gradle.kts文件中的android中添加以下代码即可添加aidl android {// 设置 AIDL 支持buildFeatures {aidl true} }

pyenv-win管理windows上多个版本python

pyenv是一款管理多个python版本的工具&#xff0c;可以便捷的切换使用的python版本&#xff0c;但是不支持windows环境&#xff0c;在windows环境需要使用pyenv-win pyenv-win安装 官方介绍的安装方式比较多&#xff0c;在此主要记录一下我习惯的安装方式 下载pyenv-win,可以…

虚良SEO怎么有效的对百度蜘蛛权重优化?

人们交换链接通常首先要问的是你BR值是多少&#xff1f;国内搜索引擎来说以百度马首是瞻&#xff0c;无论seo还是竞价都看重的是百度&#xff0c;那么针对百度权重的优化就特别重要了。其实&#xff0c;百度权重是民间的一种说法&#xff0c;百度官方并没有认同这个数值&#x…

DenseDiffusion:Dense Text-to-Image Generation with Attention Modulation

1 研究目的 该文献的研究目的主要是&#xff1a; 探讨一种更为广泛的调制方法&#xff0c;通过设计多个正则化项来优化图像合成过程中的空间控制。论文的大致思想是&#xff0c;在现有的基于数据驱动的图像合成系统基础上&#xff0c;通过引入更复杂的调制策略&#xff0c;实现…

操作系统——进程

进程定义 是计算机中已经运行的程序是系统进行资源分配和调度的一个独立单位。 进程的特性 独立性&#xff1a;进程在内存中可以独立寻址&#xff0c;每个进程都有一个独立的堆栈空间。动态性&#xff1a;进程在执行过程中可以申请资源、使用资源、释放资源。并发性&#xf…

埃夫特机器人更换编码器电池

一、编码器电池位置 埃夫特机器人编码器电池位置&#xff0c;在机器人基座底部位置&#xff0c;将编码器电池包拆卸下来&#xff0c;并按线标将新的编码器电池连接上去。 二、消除各轴编码器报警 点开监控选项中的驱动器页面&#xff0c;输入密码1975&#xff0c;开打权限管理…

将CSV转换为LDIF以便导入到ldap中?

将CSV转换为LDIF以便导入到ldap中&#xff1f; 目标格式&#xff1a; dn: uidzhangsan,ouusers,dcbaimeidashu,dccom objectClass: posixAccount objectClass: top objectClass: inetOrgPerson gidNumber: 0 givenName: zhangsan sn: 1 displayName:张三 uid: zhangsan homeDi…

node.js-包

包的概念 包&#xff1a;将模块&#xff0c;代码&#xff0c;其他资料聚合成的一个文件夹 包分类&#xff1a; 1.项目包&#xff1a;主要用于编写项目和业务逻辑的文件夹 2.软件包&#xff1a;封装工具和方法供开发者使用&#xff08;一般使用npm管理&#xff09; 1&#…

迅雷下载不了的资源怎么下载?

我想下载Boost库&#xff0c;但是下载不下来 用迅雷下载是一直卡在0k 后来尝试在centos上用wget进行下载&#xff0c;竟然可以 wget https://boostorg.jfrog.io/artifactory/main/release/1.85.0/source/boost_1_85_0.tar.gz