提交高通量测序处理数据到 GEO --- 操作流程

news2024/11/18 10:34:10

写在前面

由于最近在提交课题数据到 NCBI 数据库,整理了相关笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。推荐先按顺序阅读往期内容:
1. 提交高通量测序数据到 GEO --- 说明书
2. 提交高通量测序原始数据到 SRA --- 操作流程


目录

  • 1 注册 NCBI 账号
  • 2 准备要上传的数据
    • 2.1 Raw data files
    • 2.2 Processed data files
    • 2.3 Metadata spreadsheet
  • 3 上传数据

在发表文章之前往往需要将高通量测序的数据上传到 NCBI 数据库。上传的数据可以分为两类:① Raw data(fastq文件)通常上传到 SRA、② Processed data(counts matrix、RDS 等)通常上传到 GEO。本文详细介绍提交高通量测序 Processed data 到 GEO 的操作流程。

在进行操作之前,强烈建议先阅读我之前的推文:《提交高通量测序数据到 GEO --- 说明书》。里面详细介绍了要准备的文件和格式要求。

1 注册 NCBI 账号

首先需要登陆https://www.ncbi.nlm.nih.gov/account/注册一个 NCBI 账号,NCBI 支持用各种第三方账户进行注册:

alt

2 准备要上传的数据

进入 NCBI 首页(https://www.ncbi.nlm.nih.gov/),按如下操作:① 选择 GEO DataSets、② 点击 Search、③ 点击 Submit to GEO、④ Submit high-throughput sequencing

alt
alt
alt

可以看到需要准备以下数据:1. Metadata spreadsheet、2. Processed data files、3. Raw data files

alt
2.1 Raw data files

Raw data 是测序数据的 fastq 文件,可以将 raw data 提交给 GEO,也可以直接提交给 SRA。但是 raw data 往往非常大,按照 GEO 推荐的 FileZilla 软件上传非常的慢,因此推荐用 Aspera 命令行直接将 raw data 上传到 SRAAspera 提供跨越洲际距离的快速上传连接,上传速度可达 100Mb/s

关于如何将 raw data 上传到 SRA,可以查看我之前的推文:《提交高通量测序原始数据到 SRA --- 操作流程》

alt
2.2 Processed data files

Processed data 一般为比对后生成的 count matrix 文件。比如我这里为单细胞测序数据比对后的 cell-gene 矩阵的 csv 文件:

alt
2.3 Metadata spreadsheet

Metadata 是指有关研究、样本、方法以及对 processed data 和 raw data 文件名的引用的描述性信息。GEO 中提供了两种模板,由于我这里选择将 raw data 提交到 SRA,因此选择 "Download metadata spreadsheet with SRA accessions"。

alt
2.3.1 STUDY

STUDY 部分介绍研究的整体概况。STUDY 部分提供的信息将在公共网页上的 GEO Series(GSE record)中显示。

alt
  • title:标题,可以是发表文章的标题。
  • summary(abstract):摘要,可以是发表文章的摘要。
  • experimental design:实验设计,描述 submission 中包括的样本类型,已经实验条件和变量。包括分析什么类型样本、是否包括复制、是否有对照和/或参考样本等。不包括 protocols/methods。可以参照 EXAMPLE sheets 填写。
  • contributor:作者,例如 Yixin, Wang,每个作者都在单独的一行上。
  • supplementary file:补充文件,如果您提交的 processed data 文件对应于多个样本。例如:fpkms_allsamples.txt。该文件应该具有与 metadata SAMPLES 中的唯一描述符匹配的唯一列名(例如,"library name")。single-cell submissions 除外。
  • BioProject:BioProject accession,例如:PRJNA123456
2.3.2 SAMPLES

SAMPLES 部分是对样本的描述。SAMPLES 部分提供的信息将在公共网页上的 GEO Samples(GSM records)中显示。

注意:*为必填项,**为至少选择一项填写

alt
alt
  • library name:文库名称,必须唯一,如 Sample1、Sample2...
  • title:样本名称,必须唯一,建议使用以下约定: [biomaterial][condition(s)][replicate number],例如: Muscle, exercised,60min, rep2
  • organism:物种,如 Mus musculus
  • BioSample:BioSample accessions,如 SAMN123456
  • SRA Experiment or Run:SRX/SRR accessions,如 SRR123456
  • tissue:组织,如 Distal colon
  • cell line:细胞系,如 C3H 10T1/2
  • cell type:细胞类型,如 mesenchymal stem cells
  • genotype:基因型,如 WT、KDM4D knockdown
  • treatment:处理,如 adipogenic differentiation
  • molecule:分子类型,选择以下之一:total RNA、polyA RNA、cytoplasmic RNA、nuclear RNA、genomic DNA、protein、other
  • single or paired-end:测序类型,选择 single 或 paired-end
  • instrument model:仪器型号,如 Illumina NovaSeq 6000。
  • description:描述信息,可选的,其他选项中没有提供的额外信息。或者,如果您提交的矩阵包含多个样品的 processed data (例如,所有 RNA-Seq 样品的 Counts.txt),请在此处列出矩阵列名称。
  • processed data file:包含 processed data 的文件的确切名称。例如:HeLa_H3K4me3.bw。可以为多个样本列出相同的处理文件。如果一个样本存在多个处理文件,则可以包括多个 'processed data file' 列。
2.3.3 PROTOCOLS

PROTOCOLS 部分是对实验方法的描述。PROTOCOLS 部分提供的信息将出现在每个 GEO Sample(GSM record)中。

alt
  • growth protocol:可选项,描述在提取前用于培养或维持生物体或细胞的条件。
  • treatment protocol:可选项,描述在提取制备之前对生物材料进行的处理。
  • extract protocol:必填项,描述用于提取和准备待测序材料的方法。
  • library construction protocol:必填项,描述文库构建方法。
  • library strategy:必填项,描述每个文库的测序技术,如 RNA-Seq。
  • data processing step:必填项,提供有关如何生成 processed data 文件的详细信息。步骤可能包括:基本调用软件、版本、参数;数据过滤步骤;Read 比对软件版本、参数;额外的处理软件(例如,peak-calling, abundancemeasurement)、版本、参数;等。
  • genome build/assembly:必填项,UCSC或NCBI基因组构建号(例如,hg18、mm9、human NCBI genome build 36 ...),或用于 read 比对的参考序列。
  • processed data files format and content:必填项,对于每种 processed data 文件类型,提供格式和内容的描述。如 Tab-separated values files and matrix files。
2.3.4 MD5 Checksums

在填写完 Metadata 页面后,还需要在 MD5 Checksums 页面填写所有 processed data 文件的 MD5 校验码。checksums 可以使用以下方法计算:

  • Unix: md5sum <file>
  • OS X: md5 <file>
  • Windows: Windows Command Processor (cmd): certutil -hashfile <file> MD5

这里以 Windows 上命令行为例:

打开 cmd,输入以下命令:certutil -hashfile "F:\path\Sample1_expression_matrix.csv" MD5

alt

将文件名和生成的MD5码填入表格:

alt

3 上传数据

点击 Transfer files 开始上传数据。

alt

进入后可以看到上传数据的个人空间地址,以及 FTP 服务器账号和密码。

alt

下载 GEO 推荐的第三方文件传输软件 FileZila Client,下载地址:https://filezilla-project.org/download.php?show_all=1

下载后按下图操作:① 输入主机地址、用户名、密码;② 点击快速连接;③ 输入个人空间地址;④ 找到需上传文件地址;⑤ 将需上传文件拖拽到此处

alt

可以看到上传速度非常慢(0.5Mb/s),需要等待很长时间。这也是为什么不推荐将原始 fastq 文件上传到 GEO。荐用 Aspera 命令行直接将 fastq 文件上传到 SRA,上传速度可达 100Mb/s

数据上传完成之后,上传 metadata 文件:

alt

选择前面填写的 metadata Excel 文件,选择发布日期,然后点 Submit 提交。

alt

一般提交后一天内就会收到邮件,看到 GEO 编号,状态为 resolved,就表示数据提交成功了。邮件中还提供了后续如何更改信息,以及更改发布日期的相关连接。

alt

--------------- 结束 ---------------

注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。

alt

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1949196.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Hello SLAM(在Linux中实现第一个C++程序)

首先需要安装vim编辑器&#xff0c;输入命令 sudo apt install vim 在Ubuntu上安装好vim编辑器后&#xff0c;创建路径&#xff08;/home/slambook/ch2&#xff09;&#xff0c;在该路径下创建一个cpp文档&#xff08;touch hello.c&#xff09;&#xff0c;通过vim编辑器进行…

Docker安装kkFileView实现在线文件预览

kkFileView为文件文档在线预览解决方案,该项目使用流行的spring boot搭建,易上手和部署,基本支持主流办公文档的在线预览,如doc,docx,xls,xlsx,ppt,pptx,pdf,txt,zip,rar,图片,视频,音频等等 官方文档地址:https://kkview.cn/zh-cn/docs/production.html 一、拉取镜像 do…

MYSQL 第四次作业

任务要求&#xff1a; 具体操作&#xff1a; 新建数据库&#xff1a; mysql> CREATE DATABASE mydb15_indexstu; Query OK, 1 row affected (0.01 sec) mysql> USE mydb15_indexstu; Database changed 新建表&#xff1a; mysql> CREATE TABLE student( ->…

【人工智能】AI绘画:科技与艺术交汇的新时代

文章目录 &#x1f34a;AI绘画:开启艺术创作新纪元AI绘画技术发展&#xff1a;算法与艺术的完美交融AI绘画的工作原理与创意生成AI绘画的应用 AI绘画工具介绍 &#x1f34a;AI绘画:开启艺术创作新纪元 人工智能正以前所未有的力量重塑我们的世界&#xff0c;而AI绘画作为这股科…

Unity UGUI 之 事件接口

本文仅作学习笔记与交流&#xff0c;不作任何商业用途 本文包括但不限于unity官方手册&#xff0c;唐老狮&#xff0c;麦扣教程知识&#xff0c;引用会标记&#xff0c;如有不足还请斧正 本文在发布时间选用unity 2022.3.8稳定版本&#xff0c;请注意分别 1.什么是事件接口&…

Docker(十)-Docker运行elasticsearch7.4.2容器实例

1.下载镜像 1.1存储和检索数据 docker pull elasticsearch:7.4.2 1.2可视化检索数据 docker pull kibana:7.4.22.创建elasticsearch实例 创建本地挂载数据卷配置目录 mkdir -p /software/elasticsearch/config 创建本地挂载数据卷数据目录 mkdir -p /software/elasticse…

单元测试--Junit

Junit是Java的单元测试框架提供了一些注解方便我们进行单元测试 1. 常用注解 常用注解&#xff1a; TestBeforeAll&#xff0c;AfterAllBeforeEach&#xff0c;AfterEach 使用这些注解需要先引入依赖&#xff1a; <dependency><groupId>org.junit.jupiter<…

【第二天】计算机网络 HTTP请求报文和响应报文是什么样的 HTTP请求方式有哪些 GET请求和POST请求的区别

HTTP请求报文和响应报文是什么样的&#xff1f; 我去&#xff0c;以前都没怎么研究过这个。 客户端发送一个请求给服务器&#xff0c;服务器根据请求报文中的信息进行处理&#xff0c;并将处理结果放到响应报文中返回给客户端。 URL HTTP使用URL (Uniform Resource Locator&…

leetcode-148. 排序链表

题目描述 给你链表的头结点 head &#xff0c;请将其按 升序 排列并返回 排序后的链表 。 示例 1&#xff1a; 输入&#xff1a;head [4,2,1,3] 输出&#xff1a;[1,2,3,4]示例 2&#xff1a; 输入&#xff1a;head [-1,5,3,4,0] 输出&#xff1a;[-1,0,3,4,5]示例 3&#x…

【Docker】Windows11环境下的安装

前置依赖环境配置 确保虚拟化开启 搜索栏直接搜索如下功能 勾选下面两个选项&#xff0c;确定 重启电脑&#xff0c;以管理员身份打开PowerShell wsl --status wsl --update打开微软应用商店选择一个Ubuntu版本下载并打开 输入一个用户名和密码 然后就可以在Windows下使…

Hyperledger Fabric 网络体验 - 网络启动过程概览

进入fabric-samples/test-network目录&#xff0c;执行指令&#xff1a; ./network.sh up -i 2.5执行完指令能看到fabric已经启动。 作为第一次Fabric网络体验&#xff0c;网络启动主要包含三个操作&#xff0c;分别是生成配置文件、启动网络和操作网络。 配置文件 使用cr…

Spring Boot(八十二):SpringBoot通过rsa实现API加密

项目中使用RSA加密方式对API接口返回的数据加密,让API数据更加安全。别人无法对提供的数据进行破解。Spring Boot接口加密,可以对返回值、参数值通过注解的方式自动加解密 。 下面开始代码演示 1 接口加密 1.1 新建一个springboot项目 1.2 添加依赖 <dependency>&l…

MySql 触发器、存储器练习

一&#xff1a; 触发器 1、建立两个表:goods(商品表)、orders(订单表) 查看数据库&#xff1a;mysql> show databases; 使用数据库&#xff1a;mysql> use mydb16_trigger; 创建goods表&#xff1a; mysql> create table goods(gid char(8) not null primary key, …

煤矿运输卡车4G/5G视频监控管理系统的应用与优势

随着科技的不断进步&#xff0c;煤矿行业的安全管理与效率提升日益受到重视。特别是在运输环节&#xff0c;一款名为“煤矿运输车辆4G/5G视频监控管理系统”的新型应用&#xff0c;正在为广大煤矿企业带来革命性的变革。以下将详细介绍这一系统的应用及其优势。 一、系统应用 煤…

排序系列 之 基数排序

&#xff01;&#xff01;&#xff01;排序仅针对于数组哦本次排序是按照升序来的哦 介绍 基数排序&#xff08;RadixSort&#xff09;又称桶子法&#xff0c;是一种非比较型整数排序算法。其原理是将整数按位数切割成不同的数组&#xff0c;然后按每个位数分别比较&#xff0…

音乐曲谱软件Guitar Pro 8.2 for Mac 中文破解版

Guitar Pro 8.2 for Mac 中文破解版是一款功能强大的音乐曲谱软件&#xff0c;非常适合学习如何玩&#xff0c;改进技巧&#xff0c;重现喜爱的歌曲或陪伴自己。 Guitar Pro for Mac 是一款功能强大的音乐曲谱软件&#xff0c;非常适合学习如何玩&#xff0c;改进技巧&#xf…

DMv8共享存储集群部署

DMv8共享存储集群部署 环境说明 操作系统&#xff1a;centos7.6 服务器&#xff1a;2台虚拟机 达梦数据库版本&#xff1a;达梦V8 安装前准备工作 参考达梦官方文档&#xff1a;https://eco.dameng.com/document/dm/zh-cn/ops/DSC-installation-cluster.html#%E4%B8%80%E3…

0725,进程间传递文件描述符,socketpair + sendmsg/recvmsg

我要碎掉了我要碎掉了我要碎掉了 上课喵&#xff1a; pipe匿名管道的问题 #include <func.h>int main() {int fds[2];pipe(fds);pid_t pidfork();if(pid>0){ //fatherclose(fds[0]);//close readint fdopen("file2.txt",O_RDONLY);printf("father: …

Jsoup爬虫——自学习梳理

——项目已完结&#xff08;源码在文末&#xff09; 一个较大的项目&#xff0c;通过后台进行网站爬虫&#xff0c;选择的是一个招聘类型的网站&#xff0c;爬取数据后会选择一部分放入到我们的数据库中&#xff0c;前台通过后台返回的Json数据进行展示&#xff1b;大概就是这样…

CSS(五)——CSS Fonts(字体)

CSS 字体 CSS字体属性定义字体&#xff0c;加粗&#xff0c;大小&#xff0c;文字样式。 CSS字型 在CSS中&#xff0c;有两种类型的字体系列名称&#xff1a; 通用字体系列 - 拥有相似外观的字体系统组合&#xff08;如 "Serif" 或 "Monospace"&#x…