读取各种来源格式单细胞数据集构建seurat分析对象,代做生信分析

news2024/11/24 17:12:21

参考资料和分析注意事项

全流程的分析指导视频

d615c2afdcf61b41758f9f89863061a4.jpeg

演示数据集网盘文件

b2527a10c081a7ef8c759efe3860869e.jpeg

c36ef568a0a892a7f4ed0121aca258bf.jpeg

783f67e08d65c4fbaca3a8db06cb25e6.jpeg

分析参数文件路径格式的特别提示

大家给要分析用到的文件路径或目录路径的时候,以D:/omics_tools/demo_data/scrnaseq/GSE189125/GSE189125_5prime_scRNAseq_seqbatchA_counts.txt.gz 这个文件为例,具体的标准规范写法如下:

路径首先应该是一个完整的路径,从D盘的盘符D:/根目录一直到最后的文件名用斜杠连接起来的一个完整的文件路径,这些的文件基本上都是可以被识别和读取的,不要只给一个简单的文件名,这样就不知道这个具体是你电脑上哪个磁盘哪个目录的文件

通过拓展虚拟内存来解决在单细胞分析时候运行内存不够的问题200a1aad658bdf6adcfb1414bc0a3405.jpeg

读取数据构建seurat对象

样本名称的特别重要的注意事项:

不管是GEO的单细胞数据,还是自己的单细胞数据或其他来源的数据的时候,大家在对文件名可能也需要做一定的修改,就是文件名开头在第1个下划线_之前的那个文件名的名字就要把它变成是唯一的,一般GEO的数据开头就用GSM编号开头,每个样本的gsm编号就是唯一的。

如果是自己的数据也要让他前面的那个名字变成唯一的,再用一个下划线_跟后面的文件名的部分进行分隔开,然后软件只会提取出第1个下划线前面的这个名字作为样本的 id和创建出这个样本的目录.

大家注意,如果你第1个下划线前面的这个名字跟其他样本不是唯一的,那么就会造成样本的一个重复,所以的话每个样本在第1个下划线之前的名字编号都要把它变成是唯一的跟其他的样本的地名字不重复的,这是在文件名字修改和读取的时候特别重要的注意事项。

读取h5格式的单细胞测序数据文件构建Seurat分析对象

软件运行窗口

d4e2aa195c947521e2f62399828e1fe5.jpeg

51a34b5daf996604b495a4189f377fac.jpeg

要读取的单细胞多个h5文件

39f724a773b7d9f857c09f61db4e3e5f.jpeg

不管是GEO的单细胞数据,还是自己的单细胞数据或其他来源的数据的时候,大家在对文件名可能也需要做一定的修改,就是文件名开头在第1个下划线_之前的那个文件名的名字就要把它变成是唯一的,一般GEO的数据开头就用GSM编号开头,每个样本的gsm编号就是唯一的。

如果是自己的数据也要让他前面的那个名字变成唯一的,再用一个下划线_跟后面的文件名的部分进行分隔开,然后软件只会提取出第1个下划线前面的这个名字作为样本的 id和创建出这个样本的目录.

大家注意,如果你第1个下划线前面的这个名字跟其他样本不是唯一的,那么就会造成样本的一个重复,所以的话每个样本在第1个下划线之前的名字编号都要把它变成是唯一的跟其他的样本的地名字不重复的,这是在文件名字修改和读取的时候特别重要的注意事项。

软件运行结果文件得到构建好的seurat对象的rds文件和metadata文件

48013b761846f7aa22f6d11e4d66614a.jpeg

单个表达矩阵的单细胞测序数据下载读取和构建Seurat分析对象

注意事项

如果是读取的单个表达矩阵文件来构建seurat分析对象的话, 这个表达矩阵文件可以是CSV,TXT, TSV或者csv.gz,txt.gz, tsv.gz 等格式的表格文件

如果这单个表达矩阵文件里面含有多个样本,比如说多个GSM编号的样本,那么就必须要提供一个meta.data文件 ,这个meta data文件里面含有了每个样本的几千个细胞的细胞标签ID,这样的话就能够知道每个样本大概是由哪些单细胞数据。

如果是该项目只有一个样本的话,那么就可以不用提供meta data文件。

软件运行窗口

329d64176fbd2d1c5103028b9e597f3b.jpeg

演示数据

7ca7df46e3e17f532af6f5fef26e420e.jpeg

运行结果

fcfa1258eb3011a3e506d890bfb3895a.jpeg

读取一个目录下多个样本的表达矩阵文件构建seurat分析对象

表达矩阵文件可以是CSV,TXT, TSV或者csv.gz,txt.gz, tsv.gz 等格式的表格文件

教学视频

软件运行窗口

120d693e4281010f99eebe77ef869480.jpeg

演示数据文件

6a24c7b5ea0962f3a4abb7b3458fcd92.jpeg

不管是GEO的单细胞数据,还是自己的单细胞数据或其他来源的数据的时候,大家在对文件名可能也需要做一定的修改,就是文件名开头在第1个下划线_之前的那个文件名的名字就要把它变成是唯一的,一般GEO的数据开头就用GSM编号开头,每个样本的gsm编号就是唯一的。

如果是自己的数据也要让他前面的那个名字变成唯一的,再用一个下划线_跟后面的文件名的部分进行分隔开,然后软件只会提取出第1个下划线前面的这个名字作为样本的 id和创建出这个样本的目录.

大家注意,如果你第1个下划线前面的这个名字跟其他样本不是唯一的,那么就会造成样本的一个重复,所以的话每个样本在第1个下划线之前的名字编号都要把它变成是唯一的跟其他的样本的地名字不重复的,这是在文件名字修改和读取的时候特别重要的注意事项。

软件运行结果文件得到构建好的seurat对象的rds文件

c8fa5eb3b3a4db1c06f60e7f5055444b.jpeg

该模块的特殊情形的处理方式1:

9e13d9de09c694b7918bc8f5c4c9d00c.jpeg

这个数据集中除了有counts.tsv.gz表达矩阵文件,还有一些cellname.list.txt.gz细胞名称文件,处理方法就是把所有非counts.tsv.gz的表达矩阵文件全部删掉,只留下counts.tsv.gz表达矩阵文件再进行读取。

74982b17be170ea7602e5b5cfb4ecd32.jpeg

10X格式来源的单细胞测序数据下载读取和构建Seurat分析对象

读取10X数据的格式要求和注意事项

194e04fae4974cc26800009df12d4030.jpeg

 1. 如上图的演示数据集的格式所示,每个样本有三个文件,这三个文件的后缀分别是: barcodes.tsv.gz , features.tsv.gz, matrix.mtx.gz 来结尾。

2. 需要注意的是这三个文件每个文件都是一个.gz压缩包,大家不要把这些.gz压缩包文件跟他解压了,因为10X的文件读取都是以.gz压缩包的格式来读取的

3. 如果大家是用的从GEO数据库上下载的单细胞的公共数据集,一般的话,每个样本的样本编号应该对应的是一个GSM开头的样本编号,对于GEO上的数据,大家需要把GSM编号放在最前面,GSM编号跟后面的文件名用下划线_分隔开,比如GSM5580154_GCmatrix.mtx.gz,GSM5580154_GC-barcodes.tsv.gz, GSM5580154_GC-features.tsv.gz这个样本的三个10X文件, 就是GSM5580154后面加一个下划线_跟后面的GC-barcodes.tsv.gz,GC-features.tsv.gz,GCmatrix.mtx.gz进行隔开, 软件在提取这样的GSM样本编号的时候是以下划线跟后面的文件名进分隔开并只提取下划线前面的GSM编号来创建每个样本的目录,以这三个10X文件为例,后面软件只会提取出GSM5580154作为样本编号并自动创建出这样一个目录,后面会用这些GSM编号作为样本的id, 所以大家在对于GSM样本要处理的时候,大家都是要让这样的文件名开头是以大写的GSM编号开头, 且GSM编号跟后面的文件名字中间要以一个下划线隔开。

4. 对于不管是GEO的数据,而是自己的单细胞数据或其他来源的数据的时候,大家在对文件名可能也需要做一定的修改,就是文件名开头在第1个下划线之前的那个文件名的名字就要把它变成是唯一的,再用一个下划线跟后面的文件名的部分进行分隔开,然后软件只会提取出第1个下划线前面的这个名字作为样本的 id和创建出这个样本的目录,大家注意,如果你第1个下划线前面的这个名字跟其他样本不是唯一的,那么就会造成样本的一个重复,所以的话每个样本在第1个下划线之前的名字编号都要把它变成是唯一的跟其他的样本的地名字不重复的。

软件运行窗口

260ce145721ad521492e8d862969bac3.jpeg

软件运行结果文件得到构建好的seurat对象的rds文件

1b430b0fde1aee336a922dd8cf565f0a.jpeg

5d42f90a40090a122b3a1c9b369c2a47.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2246775.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SQL-多表操作

前文所介绍的sql操作都是基于单表进行的,接下来我们来学习多表操作。 多表设计 在实际的项目开发中,会根据业务需求和业务模块之间的关系进行数据库表结构设计,由于业务之间相互关联,所以各个表结构之间也存在着各种联系&#xf…

c++ STL线程安全使用

c STL不是线程安全的&#xff0c;因此在多线程中使用的时候&#xff0c;操作同一个容器&#xff0c;会崩溃&#xff0c;因此需要解决线程安全的问题&#xff1a; 使用实例类似于以下&#xff1a; #include <thread> #include <vector> #include "thread_safe…

Swift 实现判断链表是否存在环:快慢指针法

文章目录 前言摘要描述题解答案题解代码题解代码分析示例测试及结果时间复杂度空间复杂度总结关于我们 前言 本题由于没有合适答案为以往遗留问题&#xff0c;最近有时间将以往遗留问题一一完善。 LeetCode - #141 环形链表 不积跬步&#xff0c;无以至千里&#xff1b;不积小流…

SpringCloud实用-OpenFeign 调用三方接口

文章目录 前言正文一、项目环境二、项目结构2.1 包的含义2.2 代理的场景 三、完整代码示例3.1 定义FeignClient3.2 定义拦截器3.3 配置类3.4 okhttp配置3.5 响应体3.5.1 天行基础响应3.5.2 热点新闻响应 3.6 代理类3.6.1 代理工厂3.6.2 代理客户端3.6.3 FeignClient的建造器 四…

C++设计模式行为模式———中介者模式

文章目录 一、引言二、中介者模式三、总结 一、引言 中介者模式是一种行为设计模式&#xff0c; 能让你减少对象之间混乱无序的依赖关系。 该模式会限制对象之间的直接交互&#xff0c; 迫使它们通过一个中介者对象进行合作。 中介者模式可以减少对象之间混乱无序的依赖关系&…

HarmonyOS:使用ArkWeb构建页面

一、简介 页面加载是Web组件的基本功能。根据页面加载数据来源可以分为三种常用场景&#xff0c;包括加载网络页面、加载本地页面、加载HTML格式的富文本数据。 页面加载过程中&#xff0c;若涉及网络资源获取&#xff0c;需要配置ohos.permission.INTERNET网络访问权限。 二、…

矩阵的拼接

矩阵的拼接分为横向拼接和纵向拼接 注意&#xff1a;横向拼接要求两矩阵行数相同&#xff0c;纵向拼接要求两矩阵列数相同 h o r z c a t horzcat horzcat和 v e r t c a t vertcat vertcat函数 h o r z c a t ( a , b ) horzcat(a,b) horzcat(a,b)将 a a a和 b b b横向拼接&a…

SpringCloud框架学习(第五部分:SpringCloud Alibaba入门和 nacos)

目录 十二、SpringCloud Alibaba入门简介 1. 基本介绍 2.作用 3.版本选型 十三、 SpringCloud Alibaba Nacos服务注册和配置中心 1.简介 2.各种注册中心比较 3.下载安装 4.Nacos Discovery服务注册中心 &#xff08;1&#xff09; 基于 Nacos 的服务提供者 &#xf…

Ollama vs VLLM:大模型推理性能全面测评!

最近在用本地大模型跑实验&#xff0c;一开始选择了ollama,分别部署了Qwen2.5-14B和Qwen2.5-32B&#xff0c;发现最后跑出来的实验效果很差&#xff0c;一开始一直以为prompt的问题&#xff0c;尝试了不同的prompt&#xff0c;最后效果还是一直不好。随后尝试了vllm部署Qwen2.5…

.NET9 - 新功能体验(一)

被微软形容为“迄今为止最高效、最现代、最安全、最智能、性能最高的.NET版本”——.NET 9已经发布有一周了&#xff0c;今天想和大家一起体验一下新功能。 此次.NET 9在性能、安全性和功能等方面进行了大量改进&#xff0c;包含了数千项的修改&#xff0c;今天主要和大家一起体…

LeetCode 144.二叉树的前序遍历

题目&#xff1a;给你二叉树的根节点 root &#xff0c;返回它节点值的 前序 遍历。 思路&#xff1a;根 左 右 代码&#xff1a; /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNod…

【论文阅读】WGSR

0. 摘要 0.1. 问题提出 1.超分辨率(SR)是一个不适定逆问题&#xff0c;可行解众多。 2.超分辨率(SR)算法在可行解中寻找一个在保真度和感知质量之间取得平衡的“良好”解。 3.现有的方法重建高频细节时会产生伪影和幻觉&#xff0c;模型区分图像细节与伪影仍是难题。 0.2. …

游戏引擎学习第21天

虽然没有上一节的难但是内容也很多 关于实现和使用脚本语言 以下是详细复述&#xff1a; 许多人经常问一个问题&#xff0c;反复问过好几次&#xff0c;那就是&#xff1a;是否会在项目中实现脚本语言。这个问题的具体形式通常是&#xff1a;你们会使用脚本语言吗&#xff1…

NVR接入录像回放平台EasyCVR视频融合平台加油站监控应用场景与实际功能

在现代社会中&#xff0c;加油站作为重要的能源供应点&#xff0c;面临着安全监管与风险管理的双重挑战。为应对这些问题&#xff0c;安防监控平台EasyCVR推出了一套全面的加油站监控方案。该方案结合了智能分析网关V4的先进识别技术和EasyCVR视频监控平台的强大监控功能&#…

springboot vue工资管理系统源码和答辩PPT论文

人类现已迈入二十一世纪&#xff0c;科学技术日新月异&#xff0c;经济、资讯等各方面都有了非常大的进步&#xff0c;尤其是资讯与网络技术的飞速发展&#xff0c;对政治、经济、军事、文化等各方面都有了极大的影响。 利用电脑网络的这些便利&#xff0c;发展一套工资管理系统…

部署实战(二)--修改jar中的文件并重新打包成jar文件

一.jar文件 JAR 文件就是 Java Archive &#xff08; Java 档案文件&#xff09;&#xff0c;它是 Java 的一种文档格式JAR 文件与 ZIP 文件唯一的区别就是在 JAR 文件的内容中&#xff0c;多出了一个META-INF/MANIFEST.MF 文件META-INF/MANIFEST.MF 文件在生成 JAR 文件的时候…

RabbitMQ4:work模型

欢迎来到“雪碧聊技术”CSDN博客&#xff01; 在这里&#xff0c;您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者&#xff0c;还是具有一定经验的开发者&#xff0c;相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导&#xff0c;我将…

SpringMVC——简介及入门

SpringMVC简介 看到SpringMVC这个名字&#xff0c;我们会发现其中包含Spring&#xff0c;那么SpringMVC和Spring之间有怎样的关系呢&#xff1f; SpringMVC隶属于Spring&#xff0c;是Spring技术中的一部分。 那么SpringMVC是用来做什么的呢&#xff1f; 回想web阶段&#x…

鸿蒙开发-文件与分享

文件分类 按所有者&#xff1a; 应用文件&#xff1a;所有者为应用&#xff0c;包括应用安装文件、应用资源文件、应用缓存文件等。 用户文件&#xff1a;所有者是登录到该终端设备的用户&#xff0c;包括用户私有的图片、视频、音频、文档等。 系统文件&#xff1a;与应用和…

内存级文件原理——Linux

目录 进程与文件 Linux下的文件系统 文件操作&#xff0c;及文件流 C语言函数 文件流 文件描述符 系统调用操作 系统调用参数 重定向与文件描述符 输出重定向 输入重定向 文件内容属性 Linux下一切皆文件 进程与文件 当我们对文件进行操作时&#xff0c;文件必…