如何下载SRA存放在AWS的原始数据

news2025/2/1 22:49:23

通常,我们都是利用prefetch从NCBI上获取数据,然后用fasterp-dump/fastq-dump 转成fastq。但遗憾的SRA的数据是原数据的有损压缩,比如说我19年参与发表的文章里单细胞数据上传的是3个文件,但是当时的faster-dump/fastq-dump只能拆出2份(目前可以顺利拆出三份)。

但在https://trace.ncbi.nlm.nih.gov/Traces/index.html?view=run_browser&display=metadata 搜索SRR8485805是可以看到我上传的三个原始数据。

然而这些数据存放位置以S3开头,无法直接下载,必须需要通过Cloud Data Delivery的方式进行获取。

为什么,我们需要下载原始数据呢?

  • 一些比对后的BAM,转成SRA后,可能就只能得到单端测序,而不是原来的双端
  • PacBio HiFi测序输出的bam包含的编号信息,是纠错是必须的,不能损失
  • 一些10x数据可能从sra解压缩成fastq后会出现问题

因此,有些时候,我们就需要获取最原始的作者的上传文件了。

创建Amazon的AWS账号

为了使用Cloud Data Deliver,我们你需要创建一个账号:https://aws.amazon.com/cn/cli/ 【需要一张信用卡用于支付账单】。在注册时候时候选择语音播报,我发现短信发送太慢了。

注:Amazon 的AWS如果90天不用,账号就会被停用,然后你就得重新创建账号。

最后一步,选择基本支持-免费(能省就省)

在AWS的控制台中(console.aws.amazon.com),选择存储的S3服务。

之后,我们创建一个存储桶。

大部分参数都保持默认,只需要修改两个配置,存桶的名称必须唯一,地区必须是美国的N. Virginia 。

创建成功后,就可以回到NCBI这一边。

NCBI创建数据传输请求

通过https://www.ncbi.nlm.nih.gov/Traces/cloud-delivery/访问NCBI的云数据传递服务(这个服务是需要你登录NCBI)。

然后,我们需要选择我们需要获取的数据,通过https://www.ncbi.nlm.nih.gov/Traces/study/ 可以检索你需要的数据,例如SRR8485805。勾选需要传输的数据后,点击Deliver Data。

接着是关键的第二部,我们需要输入Bucket name,让NCBI给我们生成一个策略。

拿到这个策略后,我们需要访问https://s3.console.aws.amazon.com/s3/buckets,选择我们之前创建的桶

选择权限,并点击存储桶策略的编辑

然后将粘贴NCBI上复制的语句,并保存更改即可。

最后勾选,你需要获取的数据,点击Deliver data。

需要注意的是AWS的存储服务时收费的,它的定价页面见https://aws.amazon.com/cn/s3/pricing/

数据发起请求和请求完成,你都会在你登录账号对应的邮箱中收到邮件。

数据下载

获取数据之后,就可以从S3上下载数据了。

在此之前,我们需要先创建一个安全凭证。

之后从https://docs.amazonaws.cn/cli/latest/userguide/getting-started-install.html获取你对应平台的软件

例如Linux的安装方式如下(以非root权限安装)

curl "https://awscli.amazonaws.com/awscli-exe-linux-x86_64.zip" -o "awscliv2.zip"
unzip awscliv2.zip
./aws/install -u -i ~/.local -b ~/.local/bin
# 安装成功的提示信息
You can now run: /home/xzg/.local/bin/aws --version

用密钥配置aws,

aws configure

后续,就可以上传和下载数据了,例如把数据传到aws

aws s3 cp app.R s3://xzg-aws-ncbi
# upload: ./app.R to s3://xzg-aws-ncbi/app.R
# 查看档期数据
aws s3 ls s3://xzg-aws-ncbi
2023-07-15 10:39:29     521416 app.R

运行数据获取命令

# 命令形式如下
aws s3 cp --recursive s3://<bucket>/<folder> <local_folder>
# copy我从NCBI后去数据
aws s3 cp --recursive s3://xzg-aws-ncbi/SRR17027125  SRR17027125

当然,你也可以选择在AWS的S3网页端进行下载。

下载速度基本上不受限,只跟你家里的带宽有关。

可能的问题: An error occurred (RequestTimeTooSkewed) when calling the PutObject operation: The difference between the request time and the current time is too large

这可能是服务器的上时间偏差太大了 ,用chronyd矫正下(root权限)

chronyd -q 'server 0.pool.ntp.org iburst'

费用

分为两个部分:

  • 存储上,标准的S3是每个月,前50T每 GB 0.023 USD,差不多是2毛钱1G

传输上:

  • 传入不要钱
  • 每月前 100GB 传出至互联网的数据,所有 AWS 服务和区域加总计算(中国和 GovCloud 区域除外)。
  • 前10TB 每 GB 0.09 USD, 差不多是7毛钱1G

假设,你传了200G,不考虑免费额度,在带宽上花费140,然后存储是每天一块多(不需要的数据赶紧删,省钱)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/762743.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MongoDB源码安装

文章目录 MongoDB源码安装&#xff1a;注&#xff1a;下载&#xff1a;解压&#xff1a;创建数据目录&#xff1a;创建软链接&#xff1a;创建变量脚本&#xff1a;执行脚本&#xff1a;启动mongodb:检查&#xff1a;连接mongodb&#xff1a; MongoDB源码安装&#xff1a; 注&…

Flutter系列文章-Flutter基础

Flutter是Google推出的一种新的移动应用开发框架&#xff0c;允许开发者使用一套代码库同时开发Android和iOS应用。它的设计理念、框架结构、以及对Widget的使用&#xff0c;都让开发者能更有效率地创建高质量的应用。 一、Flutter设计理念 Flutter的设计理念是“一切皆为Wid…

安装hive数据仓库

部署hive数据库 环境准备 需要安装部署完成的Hadoop的环境如果不会搭建的可以参考&#xff1a; 安装mysql 卸载Centos7自带的mariadb rpm -qa|grep mariadbrpm -e mariadb-libs-5.5.64-1.el7.x86_64 --nodepsrpm -qa|grep mariadb mariadb-libs-5.5.64-1.el7.x86_64是使用…

ToT: 利用大语言模型进行有意识的问题解决(上)

ToT 摘要介绍利用大语言模型进行有意识的问题解决1. 思维分解2. 思维产生 G(p,s,k)3. 状态评估V(p,S)4. 搜索算法 实验相关工作讨论 原文&#xff1a; 摘要 语言模型正在迅速成为一般问题解决的部署&#xff0c;但在推理过程中仍然局限于 标记级别&#xff08;token-level&…

uniapp左右滑动切换月份

左右滑动触发事件 给组件绑定事件,主要利用组件的触摸开始和触摸结束事件来实现: <view @touchstart="touchStart" @touchend="touchEnd"> 2,声明初始化点击位置变量startX data() {return {list:[],pageNum:1,pageSize:10,//初始化点击位置…

手撕Spring06

概述 该章节通过各种Context解决上下文问题&#xff0c;使用模版方法的设计模式&#xff0c;并增加了bean实例化之前、beanc初始化前后的扩展点整体设计 知识点补充 类图 context context包下主要是传递上下文、调用core.io、beans等包下的实际功能完成&#xff0c;配置文件…

12.11 FS4412开发环境搭建

目录 开发边硬件资源介绍 地址映射表 硬件控制原理 load/store 地址映射表4个G包括 开发边硬件资源介绍 地址映射表 硬件控制原理 1.数据运算指令&#xff08;CPU内部&#xff09; 2.跳转指令&#xff08;CPU内部&#xff09; 3.load/store&#xff08;通过读写对硬件…

测试的基本概念(测试系列2)

目录 前言&#xff1a; 1.什么是需求 1.1需求的定义 1.2为什么有软件需求 1.3测试人眼里的需求 2测试用例 2.1什么是测试用例 2.2为什么要有测试用例 3.软件错误&#xff08;BUG&#xff09; 3.1什么是bug 4.软件的生命周期 5.开发模型 5.1瀑布模型 5.2螺旋模型 …

【PHP源码】手术麻醉管理系统介绍

手术麻醉管理系统是什么&#xff1f; 手术麻醉信息管理系统是数字化手段应用于手术过程中的重要组成部分&#xff0c;用数字形式获取并存储手术相关信息&#xff0c;既便捷又高效。既然是管理系统&#xff0c;那就是一整套流程&#xff0c;管理患者手术、麻醉的申请、审批、安…

c#语法问题记录

1.using using 语句定义一个范围&#xff0c;在此范围的末尾将释放对象。using 指令为命名空间创建别名&#xff0c;或导入在其他命名空间中定义的类型。 2. internal sealed partial class internal&#xff1a; 关键字是类型和类型成员的访问修饰符。sealed &#xff1a;应…

IndexDB完整使用指南

IndexDB完整使用指南 数据存储是大多数 Web 应用程序的重要组成部分&#xff0c;从跟踪用户数据到应用程序数据。随着更快、更强大的 Web 应用程序的快速开发&#xff0c;需要高效的客户端存储来帮助开发。 多年来&#xff0c;Web 上的客户端存储已经发生了很大的变化&#x…

极智AI | torch与torchvision版本对应关系速查

欢迎关注我的公众号 [极智视界]&#xff0c;获取我的更多经验分享 大家好&#xff0c;我是极智视界&#xff0c;本文来介绍一下 torch与torchvision版本的对应关系。 邀您加入我的知识星球「极智视界」&#xff0c;星球内有超多好玩的项目实战源码下载&#xff0c;链接&#x…

2023年湖北安全员ABC考试题型有哪些?考多少分及格呢?

2023年湖北安全员ABC考试题型有哪些&#xff1f;考多少分及格呢&#xff1f; 安全员分为交通厅、水利厅和建设厅三个部门颁发&#xff0c;每个部门发的安全员证书也是不一样的。那么今天启程别跟大家讲的是建设厅安全员ABC证书报考的一些事宜&#xff08;启程别是谁&#xff1f…

稀疏光流法跟中移动物体、监督学习聚类、K均值聚类、加载深度神经网络模型、深度神经网络模型的使用

目录 1、稀疏光流法跟中移动物体 2、监督学习聚类 3、K均值聚类 4、加载深度神经网络模型 5、深度神经网络模型的使用 1、稀疏光流法跟中移动物体 //稀疏光流法跟中移动物体 vector<Scalar> color_lut;//颜色查找表 void draw_lines(Mat &image, vector<Point…

程序员如何90天成功转行黑客(网络安全)?

有人说&#xff1a;”黑客到底比程序员高在哪&#xff0c;为什么很多人开始转行了“ 其实黑客都是程序员&#xff0c;但是并不是所有的程序员都是黑客. 从企业和社会需求来看&#xff0c;现在真不缺程序猿 &#xff0c;反而大量的缺安全工程师 &#xff0c;同样8000块月薪&am…

【Spring框架】spring更简单的读取和存储对象

目录 前置工作更加简单的存储Bean对象类注解存储Bean命名问题Java项目标准分层五大类注解之间的关系方法注解Bean重命名Bean的几种方式 前置工作 在spring-config.xml添加如下配置&#xff1a; 配置bean的扫描根路径&#xff1a;只有当前目录下的类才会扫描是否添加了注解&…

【Android Framework系列】第7章 WMS原理

1 前言 前面【Android Framework系列】第5章 AMS启动流程和【Android Framework系列】第6章 AMS原理之Launcer启动流程我们分析了AMS启动以及Launcher启动的整体流程&#xff0c;那Launcher(Activity启动)后&#xff0c;UI是如何渲染到屏幕并且展示出来的呢&#xff1f;我们这…

零代码编程:用ChatGPT批量提取网页上的文本信息内容

现在有很多个网页&#xff1a; 要批量提取网页内的文本&#xff1a; 可以在ChatGPT中这样写提示词&#xff1a; 你是一个Python专家&#xff0c;写一段Python程序&#xff0c;完全提取网页文本内容的任务&#xff0c;下面是一步步的步骤&#xff1a; 打开表格文件&#xff0c…

麒麟SP3X86系统下,安装Oracle11g数据库

目录 1、写在前面 2、准备工作 2.1 环境准备 2.2 数据库安装前准备 2.2.1 安装依赖 2.2.2 系统环境准备 2.2.3 上传软件安装包 2.2.4 安装调图形化界面的依赖和相关设置 3、执行安装程序 1、写在前面 随着国产化进程&#xff0c;各大应用需要在国产服务器上面进行部署…

【Java基础教程】(十五)面向对象篇 · 第九讲:抽象类和接口——定义、限制与应用的细节,初窥模板设计模式、工厂设计模式与代理设计模式~

Java基础教程之面向对象 第九讲 本节学习目标1️⃣ 抽象类1.1 抽象类定义1.2 抽象类的相关限制1.3 抽象类应用——模板设计模式 2️⃣ 接口2.1 接口定义2.2 接口的应用——标准2.3 接口的应用——工厂设计模式 (Factory)2.4 接口的应用——代理设计模式 (Proxy) 3️⃣ 抽象类与…