提交高通量测序原始数据到 SRA --- 操作流程

news2024/9/23 6:32:41

写在前面

由于最近在提交课题数据到 NCBI 数据库,整理了相关笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容:
1. 提交高通量测序数据到 GEO --- 说明书


目录

  • 1 注册 NCBI 账号
  • 2 准备要上传的原始数据
  • 3 填写数据信息
    • 3.1 填写提交者信息
    • 3.2 填写一般信息
    • 3.3 填写项目信息
    • 3.4 填写样本类型
    • 3.5 填写样本属性
    • 3.6 填写 SRA Metadata
    • 3.7 上传文件
    • 3.8 检查并提交

在发表文章之前往往需要将高通量测序的数据上传到 NCBI 数据库。上传的数据可以分为两类:① Raw data(fastq文件)通常上传到 SRA、② Processed data(counts matrix、RDS 等)通常上传到 GEO。本文详细介绍提交高通量测序 raw data 到 SRA 的操作流程。

1 注册 NCBI 账号

首先需要登陆https://www.ncbi.nlm.nih.gov/account/注册一个 NCBI 账号,NCBI 支持用各种第三方账户进行注册:

alt

2 准备要上传的原始数据

新建一个文件夹,将所有需要上传的样本的原始数据放置到同一个文件中:

alt

3 填写数据信息

进入 NCBI 首页(https://www.ncbi.nlm.nih.gov/),按如下操作:① 选择 SRA、② 点击 Search、③ 点击 Submit to SRA、④ 点击 New submission

alt
alt
alt
3.1 填写提交者信息(SUBMITTER)

第一项要填写提交者信息,按要求填写即可,注意*为必填选项,填写完成后点击 Continue。

alt
3.2 填写一般信息(GENERAL INFO)

第二项要填写一般信息,如果是第一次提交 BioProject 和 BioSample 都选择 NO,Release data 建议选择靠后一些的日期,避免数据过早发布,后续可以根据课题进展修改。填写完成后点击 Continue。

alt
3.3 填写项目信息(PROJECT INFO)

第三项要填写项目信息,填写项目标题、项目描述,如果是第一次提交选择 NO 即可,其他部分选填,填写完成后点击 Continue。

alt
3.4 填写样本类型(BIOSAMPLE TYPE)

第四项要填写样本类型,比如小鼠样本,就选择 Model organism or animal,其他样本在选项中找到对应类型即可,填写完成后点击 Continue。

alt
3.5 填写样本属性(BIOSAMPLE ATTRIBUTES)

第五项要填写样本属性,可以选择使用内置表格编辑器,或下载Excel和TSV模板填写后上传。

alt

以下载的Excel表格为例:

alt

绿色为必填项(必须全部填写)蓝色为选填项(至少选填一个)黄色为可选项(可以空着)。如果任何选项的信息在你的研究中没有涉及,可以填写 "not collected"、"not applicable"、"missing"。你也可以添加任意数量的自定义选项来完整描述你的样本信息。可以将鼠标悬停在选填名称上以查看定义,或者查看 https://www.ncbi.nlm.nih.gov/biosample/docs/attributes/

填写完成后点击 Choose file 上传,然后点击 Continue。

3.6 填写 SRA Metadata(SRA METADATA)

第六项要填写 SRA Metadata,同样可以选择使用内置表格编辑器,或下载Excel模板填写后上传。

alt

以下载的Excel表格为例:

alt

注意黄色列有下拉菜单,可让从下拉菜单中进行选择。蓝色为必填项绿色为可选项。每一个选项的填写要求如下:

  • sample_name:样本名称,应该与前一个表格(BIOSAMPLE ATTRIBUTES)中的 sample_name 项名称相同。
  • library_ID:文库ID,必须是唯一的,不能重复。
  • title:数据集的简短描述,格式为 {methodology} of {organism}: isample info},例如 RNA-Seq of mus musculus: adult female spleen。
  • library_strategy:文库策略,如 RNA-Seq。
  • library_source:文库来源,如 GENOMIC。
  • library_selection:文库选择,如 PCR。
  • library_layout:文库设计,single 或 paired。
  • platform:测序平台,如 ILLUMINA。
  • instrument_model:仪器型号,如 Illumina NovaSeq 6000。
  • design_description:设计说明,用于创建测序文库的方法的自由格式描述,简短的"材料和方法"部分。
  • filetype:文件类型,如 fastq。
  • filename:文件名,如 Sample1_R1_001.fq.gz。
  • filename2:文件名2,如双端测序的第二个文件 Sample1_R2_001.fq.gz。
  • assembly:组装,仅当您提交针对 NCBI 组装的 BAM 文件时需要,请提供 NCBI 名称或注册号(例如GRCH37)。
  • fasta_file:fasta 文件,仅当您提交针对 NCBI 组装的 BAM 文件时需要,提供比对过程中使用的自定义组装 fasta 文件的名称(例如 Mouse.fasta)。

填写完成后点击 Choose file 上传,然后点击 Continue。

3.7 上传文件(FILES)

第七项要上传文件。

alt

注意事项:

  • 上传的每个文件必须在上一步的 SRA metadata 中列出。如果您要上传 tar 存档,请列出每个文件名,而不是存档名称。
  • 所有文件都应使用不包含任何敏感信息的唯一文件名,因为文件名会公开显示。
  • 文件可以使用 gzipbzip2 进行压缩,并且可以以 tar 存档的形式提交,但不需要存档或压缩文件。 不要使用 zip!

可以通过三种方式上传文件:

  • Web 浏览器上传,通过 HTTP 或 Aspera Connect 插件,但是如果您要上传超过 10 GB 或超过 300 个文件,请勿使用 Web 浏览器 HTTP 上传。
  • FTP 或 Aspera 命令行上传,提交的所有文件必须上传到一个文件夹中。
  • AWS or GCP bucket

由于原始数据通常很大,一般存储在 Linux 服务器中,因此我这里使用 Aspera 命令行上传。Aspera 提供跨越洲际距离的快速上传连接,上传速度可达 100Mb/s

上传步骤:

  1. 下载并安装 Aspera Connect 软件,下载链接: https://www.ibm.com/products/aspera/downloads
  2. 下载 key file,下载链接: https://submit.ncbi.nlm.nih.gov/preload/aspera_key/
  3. 使用以下 Aspera 命令行上传文件: ascp -i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files> subasp@upload.ncbi.nlm.nih.gov:uploads/tigerzheng1998_gmail.com_M11M5vYX
    其中 <path/to/key_file> 必须是绝对路径,例如: /home/keys/aspera.openssh<path/to/folder/containing files> 需要指定包含所有要上传的文件的本地文件夹。

上传成功后,点击 Select preload folder 选择上传的文件夹,然后提交。

注意:上传的文件至少需要 10 分钟才能在 Select preload folder 中可供选择。请在创建文件夹后 30 天内完成提交。如果您上传文件但未提交,它们将在文件夹创建后 30 天自动删除。

3.8 检查并提交(REVIEW & SUBMIT)

第八项,检查前面填写的内容,如果没有问题点击 Submit 提交。

alt

提交后等待 NCBI 审核,SRA 编号可能需要一些时间才能处理完成,一般 24 小时之内能够完成。如果审核长时间没有完成,可以发邮件给 NCBI 询问。如果提交显示下面三项都通过了,就表明数据上传成功了。

alt

--------------- 结束 ---------------

注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。

alt

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1942911.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RedHat9 | Tomcat服务器部署

一、相关知识 Tomcat介绍 Tomcat 是 Apache 软件基金会&#xff08;Apache Software Foundation&#xff09;下的一个开源项目&#xff0c;主要用于实现 Java Servlet、JavaServer Pages (JSP)、Java Expression Language (JEL) 以及 Java WebSocket 技术的容器。作为轻量级的…

YOLOv8改进 | 融合改进 | C2f结合可变形大核注意力超越自注意力【含Seg、OBB、OD代码】

秋招面试专栏推荐 &#xff1a;深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 &#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 专栏目录 &#xff1a;《YOLOv8改进有效…

Linux进程间通信(管道,命名管道/FIFO,消息队列)

目录 前言 一、管道 二、命名管道/FIFO 三、消息队列 前言 前面我们学习了Linux进程编程的相关函数&#xff0c;也举了几个进程编程的实际应用场景&#xff1b;我们之前学到父进程等待子进程退出时也涉及到了一些进程间通信的概念&#xff0c;比如子进程调用exit函数&#…

AWS DMS MySQL为源端,如何在更改分区的时候避免报错

问题描述&#xff1a; 文档[1]中描述MySQL compatible Databases作为DMS任务的源端&#xff0c;不支持MySQL 分区表的 DDL 更改。 在源端MySQL进行分区添加时&#xff0c;日志里会出现如下报错&#xff1a; [SOURCE_CAPTURE ]W: Cannot change partition in table members…

2024年普通人怎么利用AI工具赚钱?

在当今这个信息爆炸的时代&#xff0c;AI技术的应用如同一股不可阻挡的潮流&#xff0c;为普通人开辟了全新的赚钱途径。以下是一些普通人就可以做的赚钱方法&#xff1a; 1、信息差模式 现在市场上AI应用工具很多&#xff0c;不是所有人都会对这些工具进行深入学习和测试&am…

网络访问(Socket/WebSocket/HTTP)

概述 HarmonyOS为用户提供了网络连接功能&#xff0c;具体由网络管理模块负责。通过该模块&#xff0c;用户可以进行Socket网络通滚、WebSocket连接、HTTP数据请求等网络通信服务。 Socket网络通信&#xff1a;通过Socket(嵌套字)进行数据通信&#xff0c;支持的协议包括UDP核…

iOS开发设计模式篇第一篇MVC设计模式

目录 1. 引言 2.概念 1.Model 1.职责 2.实现 3.和Controller通信 1.Contrller直接访问Model 2.通过委托(Delegate)模式 3.通知 4.KVO 4.设计的建议 2.View 1.职责 2.实现 3.和Controller通信 1. 目标-动作&#xff08;Target-Action&#xff09;模式 2…

matlab gui下的tcp client客户端编程框架

GUI界面 函数外定义全局变量 %全局变量 global TcpClient; %matlab作为tcpip客户端 建立连接 在“连接”按钮的回调函数下添加以下代码&#xff1a; global TcpClient;%全局变量 TcpClient tcpip(‘192.168.1.10’, 7, ‘NetworkRole’,‘client’); %连接到服务器地址和端…

免费【2024】springboot北京医疗企业固定资产管理系统的设计与实现

博主介绍&#xff1a;✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围&#xff1a;SpringBoot、Vue、SSM、HTML、Jsp、PHP、Nodejs、Python、爬虫、数据可视化…

Springboot项目打包成镜像、使用docker-compose启动

Springboot项目打包成镜像、使用docker-compose启动 1、创建一个boot项目 1、添加依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSch…

Adobe Dimension(DN)安装包软件下载

目录 一、软件简介 二、软件下载 三、注意事项 四、软件功能 五、常用快捷键 快捷键&#xff1a; 一、软件简介 Adobe Dimension&#xff08;简称DN&#xff09;是Adobe公司推出的一款三维设计和渲染软件。与一般的3D绘图软件相比&#xff0c;DN在操作界面和功能上有所不…

预防大于治疗!夏季脑血管疾病高发,应该注意什么?

夏日炎炎&#xff0c;虽然气温攀升带来了一抹活力&#xff0c;却也悄悄增加了心脑血管疾病的风险。高温、高湿的环境易使人体血管扩张&#xff0c;心率加快&#xff0c;血液黏稠度上升&#xff0c;对于中老年人及已有心脑血管疾病史的人群而言&#xff0c;更是需要格外警惕。因…

项目实战--C#实现图书馆信息管理系统

本项目是要开发一个图书馆管理系统&#xff0c;通过这个系统处理常见的图书馆业务。这个系统主要功能是&#xff1a;&#xff08;1&#xff09;有客户端&#xff08;借阅者使用&#xff09;和管理端&#xff08;图书馆管理员和系统管理员使用&#xff09;。&#xff08;2&#…

Cxx Primer-chap6

什么是函数&#xff1a;A function is a block of code with a name.&#xff1a;函数调用和返回&#xff1a;&#xff0c;实例&#xff1a;名字有作用域(visible)&#xff0c;对象有生命周期(exist)&#xff1a; &#xff0c;lifetime取决于object在哪定义和如何定义&#xff…

算法题目整合4

文章目录 122. 大数减法123. 滑动窗口最大值117. 软件构建124. 小红的数组构造125. 精华帖子126. 连续子数组最大和 122. 大数减法 题目描述 以字符串的形式读入两个数字&#xff0c;编写一个函数计算它们的差&#xff0c;以字符串形式返回。输入描述 输入两个数字&#xff…

FPGA DNA 获取 DNA_PORT

FPGA DNA DNA 是 FPGA 芯片的唯一标识&#xff0c; FPGA 都有一个独特的 ID &#xff0c;也就是 Device DNA &#xff0c;这个 ID 相当于我们的身份证&#xff0c;在 FPGA 芯片生产的时候就已经固定在芯片的 eFuse 寄存器中&#xff0c;具有不可修改的属性。在 xilinx 7series…

Adobe国际认证详解-职业发展规划指南

Adobe国际认证&#xff0c;又称为Adobe Certified Professional&#xff08;简称ACP&#xff09;&#xff0c;是Adobe公司CEO签发的权威国际认证体系。这一认证体系基于Adobe核心技术及岗位实际应用操作能力的测评&#xff0c;旨在为用户提供创意软件的专业认证。 Adobe国际认证…

win11 安装 Gradle以及通过Gradle 编译Spring boot 2.7.x源码

一、win11 安装Gradle(7.5.1)&#xff1a; 1.1、下载二进制包 Gradle下载页面 1.2、配置环境变量 变量名&#xff1a;GRADLE_HOME 变量值&#xff08;二进制包解压路径&#xff09;&#xff1a;D:\develop-tool\gradle-7.5.1 变量名&#xff1a;GRADLE_USER_HOME 变量值&a…

知识表示 | 利用 Protégé 软件构建小型本体

Hi&#xff0c;大家好&#xff0c;我是半亩花海。本项目旨在利用 Protg 软件构建小型本体&#xff0c;探索本体建模的实际应用&#xff0c;特别是应用本体与上层本体之间的关系继承与映射。我们将重点理解应用本体如何继承上层本体的关系&#xff0c;以及如何通过推理机制揭示实…

线性dp.

线性dp&#xff0c;在进行动态规划中&#xff0c;常以线性的形式表现出来。 我们仍用闫氏dp法来进行求解即可 一、状态表示&#xff1a;当前的状态所代表的含义以及能用几维的形式表现出来。包括①集合&#xff0c;②属性 二、状态计算&#xff1a;如何一步一步的将状态计算出…