Kingfisher — 快速灵活的公共数据库下载工具

news2025/1/13 11:34:31

Kingfisher — 快速灵活的公共数据库下载工具

Kingfisher 是一个快速灵活的程序,用于从公共数据库下载序列文件 (及其元数据注释),包括 European Nucleotide Archive (ENA), NCBI SRA,亚马逊 AWS 和谷歌云。它的输入是一个或多个 "Run" 条目,例如DRR001970,或一个 BioProject 条目,例如 PRJNA621514 或 SRP260223。

Kingfisher logo
Kingfisher logo

官方说明参考:

https://wwood.github.io/kingfisher-download/

安装方式

推荐使用 docker 容器安装:

docker pull wwood/kingfisher:0.4.1
# 安装完成后查看
docker run wwood/kingfisher:0.4.1 annotate --full-help

Kingfisher 用法

这个工具有两种主要模式——"get" 模式用于下载序列数据,而 "annotate" 模式用于下载元数据。

annotate 模式 — 获取元数据表

一般情况下,文献中的所有原始测序数据会存储在 NCBI 或其它数据库的某个项目号(NCBI 为 Bioproject)下,因此,我们可以直接使用该项目号一次下载其全部数据,例如:

获取项目号
获取项目号

在 GEO 中检索到其 BioProject 号:

image-20240215161601464
image-20240215161601464

利用 "annotation" 子命令从 NCBI 获取该项目的部分元信息。

docker run wwood/kingfisher:0.4.1 annotate -p PRJNA758280
# 或使用转换后的容器
singularity exec kingfisher_0.4.1 kingfisher annotate -p PRJNA758280
image-20240215161813872
image-20240215161813872

如果想要获取完整详细的注释信息,可以将以下三个参数搭配使用:

docker run -v `pwd`:/data wwood/kingfisher:0.4.1 \
 annotate -p PRJNA217407 \
 --all-columns -f tsv -o /data/PRJNA758280.metainfo.csv
  • --all-column 获得更完整的信息集;
  • -f 指定以 CSV、 TSV、 JSON、feather 或 parquet 格式输出。
  • -o 指定输出文件的写入路径。

get 模式 — 从公共数据库下载并转换序列数据

在 "get" 子命令中,Kingfisher 从一系列冗余的源中下载数据,按顺序尝试,直到其中一个成功。然后,下载的数据按照需要转换为输出的 SRA / FASTQ / FASTA / GZIP 文件格式。与使用 NCBI 的 SRA 工具相比,下载和提取阶段都可能更快。特别是从 ENA 下载意味着直接下载 FASTQ 文件,因此不需要提取步骤。

下载整个 BioProject 的测序数据:

docker run -v `pwd`:/data wwood/kingfisher:0.4.1 \
 get -p PRJNA531115 --download-threads 8 --output-directory /data/PRJNA531115 \
 --download-methods prefetch ena-ascp ena-ftp aws-http aws-cp gcp-cp

--download-threads:指定下载线程数

--output-directory:指定下载目录

--download-methods :指定下载源。

get 模式中,有以下几种下载方式:

methoddescription
ena-ascpDownload .fastq.gz files from ENA using Aspera, which can then be further converted. This is the fastest method since no fasterq-dump is required.
ena-ftpDownload .fastq.gz files from ENA using curl, which can then be further converted. This is relatively fast since no fasterq-dump is required.
prefetch利用 NCBI prefetch 从 sra-tools下载 .sra文件,然后使用 fasterq-dump 提取.
aws-httpDownload .SRA file from AWS Open Data Program using aria2c with multiple connection threads, which is then extracted with fasterq-dump.
aws-cpDownload .SRA file from AWS using aws s3 cp, which is then extracted with fasterq-dump. Does not usually require payment or an AWS account.
gcp-cpDownload .SRA file from Google Cloud gsutil, which is then extracted with fasterq-dump. Requires payment and a Google Cloud account.

经测试使用 prefetch 方法更快

其它参数:

-r下载某个确定的 SRA 数据

--run-identifiers-list:SRR 样本列表文件,换行分隔 SRR 号。

扫码关注微信公众号【生信F3】获取文章完整信息,分享生物信息学最新知识。 ShengXinF3_QRcode ShengXinF3_QRcode

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1450772.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Fluke ADPT 连接器新增对福禄克万用 Fluke 17B Max 的支持

所需设备: 1、Fluke ADPT连接器; 2、Fluke 17B Max; Fluke 17B Max拆机图: 显示界面如下图: 并且可以将波形导出到EXCEL: 福禄克万用表需要自己动手改造!!!

2024年【危险化学品经营单位安全管理人员】考试报名及危险化学品经营单位安全管理人员考试资料

题库来源:安全生产模拟考试一点通公众号小程序 危险化学品经营单位安全管理人员考试报名是安全生产模拟考试一点通总题库中生成的一套危险化学品经营单位安全管理人员考试资料,安全生产模拟考试一点通上危险化学品经营单位安全管理人员作业手机同步练习…

C#(C Sharp)学习笔记_循环语句【七】

什么是循环语? 循环语句是由循环体及循环的终止条件两部分组成的。 在不少实际问题中有许多具有规律性的重复操作,因此在程序中就需要重复执行某些语句。一组被重复执行的语句称之为循环体,能否继续重复,决定循环的终止条件。循环…

摸索设计模式的魅力:从策略模式看软件设计的智慧-灵活应对变化的艺术

设计模式专栏:http://t.csdnimg.cn/U54zu 目录 一、案例场景1.1 一坨坨代码实现1.2 存在的问题 二、使用策略模式解决问题2.1 使用策略模式重构代码2.2 克服了问题 三、模式讲解3.1 结构图及说明3.2 实现步骤和注意事项3.3 适用场景 四、优势和局限性4.1 优势4.2 局…

IP地址+子网掩码+CIDR学习笔记

目录 一、IP地址 1、表示方法: 2、特殊IP地址 二、子网掩码 1、判断网络位和主机位 2、子网划分 三、无分类编址CIDR 1、CIDR路由汇聚 汇聚规则: 汇聚ID: 2、最佳路由匹配原则 一、IP地址 1、表示方法: 机器中存放的…

【报告解析】OpenAI Sora视频模型官方报告全解析 | 效果,能力以及基本原理

省流版 1 核心数据处理将视频数据整合成一个一个的Patch,方便统一训练数据,利用扩散Transformer架构 2 功能效果除了可以实现基础的文生视频外,实际上还有非常惊艳的视频延展,视频编辑,视频连接等多种功能&#xff0…

防御保护--防病毒网关

网络安全之防病毒网关--恶意软件 按照传播方式分类 病毒 病毒 --- 一种基于硬件和操作系统的程序,具有感染和破坏能力,这与病毒程序的结构有关。病毒攻击的宿主程序是病毒的栖息地,它是病毒传播的目的地,又是一个感染的出…

Python算法题集_二叉树的层序遍历

Python算法题集_二叉树的层序遍历 题102:二叉树的层序遍历1. 示例说明2. 题目解析- 题意分解- 优化思路- 测量工具 3. 代码展开1) 标准求解【DFS递归】2) 改进版一【BFS迭代】3) 改进版二【BFS迭代循环】 4. 最优算法 本文为Python算法题集之一的代码示例 题102&am…

变分自编码器(VAE)PyTorch Lightning 实现

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心&…

Tcl 过程

一个Tcl过程就是Tcl脚本定义的一个命令。可以使用proc命令定义新的过程。Tcl还提供了处理变量作用域的特殊命令,这些命令允许使用引用而非值传递参数,并能把新的Tcl控制结构实现为过程。 一、proc与return 过程由proc命令创建, 其中参数{a b} 中的大括…

【Win10 触摸板】在插入鼠标时禁用触摸板,并在没有鼠标时自动启用触摸板。取消勾选连接鼠标时让触摸板保持打开状态,但拔掉鼠标后触摸板依旧不能使用

出现这种问题我的第一反应就是触摸板坏了,但是无意间我换了一个账户发现触摸板可以用,因此推断触摸板没有坏,是之前的账户问题,跟系统也没有关系,不需要重装系统。 解决办法:与鼠标虚拟设备有关 然后又从知…

【解决(几乎)任何机器学习问题】:超参数优化篇(超详细)

这篇文章相当长,您可以添加至收藏夹,以便在后续有空时候悠闲地阅读。 有了优秀的模型,就有了优化超参数以获得最佳得分模型的难题。那么,什么是超参数优化呢?假设您的机器学习项⽬有⼀个简单的流程。有⼀个数据集&…

Vulnhub靶机:DC5

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.15) 靶机:DC5(10.0.2.58) 目标:获取靶机root权限和flag 靶机下载地址:https://download.vulnhub.com/dc/DC-5.zi…

Rust 数据结构与算法:4栈:用栈实现进制转换

2、进展转换 将十进制数转换为二进制表示形式的最简单方法是“除二法”&#xff0c;可用栈来跟踪二进制结果。 除二法 下面实现一个将十进制数转换为二进制或十六进制的算法&#xff0c;代码如下&#xff1a; #[derive(Debug)] struct Stack<T> {size: usize, // 栈大…

SG7050EEN晶体振荡器SPXO规格书

频率范围:25mhz ~ 500mhz供电电压:2.5 V型。/ 3.3 V类型功能:输出使能(OE)外形尺寸:7.0 5.0 1.5 mm输出:LV-PECL低相位抖动:50fs型。(f0 156.25 MHz)工作温度:-40℃~ 105℃ 规范

二叉树相关OJ题

创作不易&#xff0c;感谢三连&#xff01;&#xff01; 一、选择题 1、某二叉树共有 399 个结点&#xff0c;其中有 199 个度为 2 的结点&#xff0c;则该二叉树中的叶子结点数为&#xff08; &#xff09; A.不存在这样的二叉树 B.200 C.198 D.199解析&#xff1a;选B&…

致创新者:聚焦目标,而非问题

传统的企业创新管理方式常常导致组织内部策略不协调、流程低效、创新失败率高等问题。而创新运营作为企业管理创新的新模式&#xff0c;通过整合文化、实践、人员和工具&#xff0c;提高组织创新能力。已经采用创新运营的公司报告了一系列积极的结果&#xff0c;如市场推出速度…

最长连续手牌 - 华为OD统一考试

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 200分 题解&#xff1a; Java / Python / C 题目描述 有这么一款单人卡牌游戏&#xff0c;牌面由颜色和数字组成&#xff0c;颜色为红、黄、蓝、绿中的一种&#xff0c;数字为 0−9 中的一个。游戏开始时玩家从手牌中…

力扣hot3--并查集+哈希

第一想法是排个序然后遍历一遍&#xff0c;but时间复杂度就超啦 并查集居然与哈希结合了&#xff08;&#xff09; 已经好久没用过并查集了&#xff0c;&#xff0c;&#xff0c;我们用哈希表f_node中来记录原结点的父节点&#xff0c;其中key是原结点&#xff0c;value是父节点…

OpenHarmony—UIAbility组件生命周期

概述 当用户打开、切换和返回到对应应用时&#xff0c;应用中的UIAbility实例会在其生命周期的不同状态之间转换。UIAbility类提供了一系列回调&#xff0c;通过这些回调可以知道当前UIAbility实例的某个状态发生改变&#xff0c;会经过UIAbility实例的创建和销毁&#xff0c;…