GEO的表达矩阵的探针ID转换成基因名称教程

news2024/9/22 1:20:36

GEO的表达矩阵的探针ID转换成基因名称教程

前情回顾

根据GSE id自动下载处理GEO数据(必须要运行的模块)

该模块的运行窗口截图

358d1b3daf0a151a738ac67a3d7b9062.jpeg

该模块的教程

  1. 知乎地址:根据GEO的GSE数据集编号自动下载和处理GEO数据教程: https://zhuanlan.zhihu.com/p/708053447

该根据GSE id自动下载处理GEO数据的GEO下载模块的常见问题答疑详解

GEO的数据集格式多种多样,使用该模块下载GEO数据集最好的情况下得到的结果是什么样的?

最好的结果就是下图这样,直接通过该模块点击下载后,会得到下面这些下载提取整理好的文件:

  1. 一次性得到注释好基因名称的表达矩阵文件,如GSE61763_exp_matrix.csv,GSE61763_exp_matrix.rds
  2. 得到样本的注释信息文件: 如GSE61763_sample_info.csv,
  3. 得到从GPL soft注释文件中提取到的基因探针跟基因名称的对应关系的两列数据文件,如GPL191197.soft.gz.gene_anno_sub.tsv文件
  4. 得到了使用表达矩阵,基因注释信息,样本注释信息等数据构建的ExpressionSet对象格式文件,如GSE61763_eset.rds 文件

8def3ae824a86208b2d3fc63fdff974e.jpeg

结果文件列表

GEO的数据集格式多种多样,使用该模块下载GEO数据集第二好的情况下得到的结果是什么样的?遇到这种情况该怎么处理?

00726ff2a9a7ccf742a9fbe17499a6bf.jpeg

  1. 提取到了GEO数据集的表达矩阵文件,如GSE20842_exp_matrix0.csv,GSE20842_exp_matrix0.rds
  2. 得到样本的注释信息文件: 如GSE20842_sample_info.csv,
  3. 得到了使用表达矩阵,探针信息,样本注释信息等数据构建的ExpressionSet对象格式文件,如GSE20842_eset.rds文件

但是这个表达矩阵有个问题就是,行名不是基因名称,而是探针名称,所以我对这个文件名称做了一些修饰,如果文件名后缀是exp_matrix0.csv,那么这样的表达矩阵里面基本上是没有注释好基因名称,需要在手动下载一下GEO的GPL文件从GPL文件中提取出基因的注释信息再跟表达矩阵合并,这样的处理作为我也有详细的处理教程来教大家怎么做

18dd1011a6968284e4b60acd77e53747.jpeg

如果文件后缀就是exp_matrix.csv,那么就是已经成功把基因名称提取出来并整合到表达矩阵中了。对于没有基因名称只有基因探针的表达矩阵,可以用下面这两个模块进行处理:

d9a3e00e0640ff826afb5e35ef50363b.jpeg

69ea04b08920b92497491813ed0d549f.jpeg

基因探针soft.gz注释文件下载

GPL背景知识介绍

在基因表达数据分析中,了解特定的基因探针平台(GPL)的注释信息是非常重要的。`GEO`,或者称为`Gene Expression Omnibus`,是一个存储高通量基因表达数据(如微阵列和次世代测序数据)的公共数据库,由美国国立生物技术信息中心(NCBI)管理。每个数据集通常与一个或多个探针平台相关联,这些平台在GEO中被指定为GPL(Gene Expression Omnibus Platform)。

GEO的GPL(Gene Expression Omnibus Platform)

在GEO中,每个基因探针平台被赋予一个唯一的GPL编号。GPL描述了用于测量基因表达的技术和方法,包括探针的设计、制造信息以及探针与基因(或转录本)之间的对应关系。这些信息对于正确解释基因表达数据至关重要。

主要内容包括:

1. **平台描述**:

- **制造商**:如Affymetrix, Illumina, Agilent等。

- **技术类型**:如微阵列芯片、次世代测序。

- **探针特征**:探针数量、探针覆盖的生物体(如人类、小鼠等)。

2. **探针注释**:

- **探针ID**:每个探针在平台上的唯一标识。

- **探针位置信息**:探针在基因组或转录组上的具体位置。

- **靶标基因**:每个探针旨在检测的基因或转录本。

- **相关序列**:探针的核苷酸序列。

3. **访问和使用**:

- **GPL访问编号**:如GPL570。

- **数据集示例**:与该平台相关的GEO数据集编号(如GSE号)。

- **下载和查询**:用户可以通过NCBI的GEO查询界面查询特定平台的注释数据。

为什么探针注释重要?

- **精确的生物学解释**:正确的探针到基因的映射确保了实验结果的生物学解释的准确性。

- **数据比较**:统一的探针注释允许不同实验数据间的有效比较。

- **研究复现**:详细的平台注释信息帮助其他研究者复现和验证实验结果。

理解GEO的GPL信息有助于研究人员有效利用公共基因表达数据

基因探针soft.gz注释文件的自动下载

根据GSE id自动下载处理GEO数据(必须要运行的模块)

该模块的运行窗口截图

259bf165e17b2a327a21177183ef1694.jpeg

该模块运行的结果文件

1c0460ac42e6e06f33f51d2d067b5e99.jpeg

GSE61763数据集的GPL平台编号是GPL19197,在运行该模块执行完成后,会自动下载出GPL191197.soft.gz或GSE61763_family.soft.gz这样的探针注释文件。

GPL探针soft.gz注释文件的手动下载

如果有的时候使用上面的自动下载模块没有下载到GPLXXX.soft.gz或GSEXXX_family.soft.gz注释文件,我们也可以使用手动下载模块来下载GPL的注释文件

a68501e008f448a6f18353b065ed4906.jpeg

16b6fda01e5afeceacf0d103d55de594.jpeg

从gpl注释文件中提取出基因注释

教学教程视频

从gpl注释文件中提取出基因注释:https://www.bilibili.com/video/BV15w4m1q7Dw/

运行窗口

da233c23c40fa256a1e8cdc7804517dd.jpeg

运行完成提取到的注释结果

627881615d1d909d60a663ab194c5e43.jpegffa0313cacc0f8469ca2a29dcf67457c.jpeg

将提取的基因注释信息跟表达矩阵合并

该部分的教学视频

将提取的基因注释信息跟表达矩阵合并:https://www.bilibili.com/video/BV12f421Q7nK/

窗口截图展示

e69913f05807c2a7c3beb0adce739ff8.jpeg

参数注释信息解释

func_anno__file: 提取出的基因注释信息文件

func_anno__id__col:基因注释文件中基因id的列名

func_anno__gene__col:基因注释文件中gene_symbol所在的列名

func_exp__id__col:表达文件中的索引列

nested_function:是否嵌套函数

run_file_path:表达数据文件所在的路径

run_read_file:是否要读取文件

run_add_save_file_prefix:是否要添加结果保存文件的前缀

提交

参数给出的默认值

func_anno__file:D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763/GPL19197.soft.gz.total_gene_anno_sub.tsv ;

func_anno__id__col: ID ;

func_anno__gene__col: gene_symbol ;

func_exp__id__col: V1 ;

nested_function: TRUE ;

run_file_path: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763/GSE61763_gsm_tar_after_norm_exp_matrix.csv ;

run_read_file: FALSE ;

run_add_save_file_prefix: FALSE

运行中的信息展示

分析正在执行中,请稍后, 运行结果保存的目录位置为: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763\res_dir; 运行结果日志保存的路径为: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763\res_dir\GSE61763_gsm_tar_after_norm_exp_matrix_last_final_run_res_log.csv

表达数据集的内容展示

D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763/GSE61763_gsm_tar_after_norm_exp_matrix.csv

3b73d26333e255c74c061a51c71c2cc3.jpeg

基因注释文件信息

e658aab13811236c03d4e62ac491ffb1.jpeg

运行完成的信息显示

执行已完成,运行结果保存的目录位置为: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763\res_dir; 分析结果日志保存的路径为: D:/omics_tools/demo_data/res_dir/renal_cancer/GSE61763\res_dir\GSE61763_gsm_tar_after_norm_exp_matrix_last_final_run_res_log.csv

运行完成的结果展示

0c8fde4e0096476f4e336fafe7ebd005.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1921758.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第1章 初识 Express

1.1 什么是 Express Express 是一个简洁而灵活的 Node.js Web 应用框架,提供了一系列强大的特性用于开发 Web 和移动应用。它基于 Node.js 构建,并且与 Node.js 的非阻塞 I/O 模型无缝集成,使其非常适合于构建高性能的 Web 应用。 主要特点…

idea修改全局配置、idea中用aliyun的脚手架,解决配置文件中文乱码

idea修改全局配置 idea中用aliyun的脚手架,创建springBoot项目 解决配置文件中文乱码

【笔记】虚拟机中的主从数据库连接实体数据库成功后的从数据库不同步问题解决方法2

错误: Last_Errno: 1008 Last_Error: Coordinator stopped because there were error(s) in the worker(s). The most recent failure being: Worker 1 failed executing transaction ANONYMOUS at source log mysql-bin.000014, end_log_pos 200275. See error lo…

JavaWeb(四:Ajax与Json)

一、Ajax 1.定义 Ajax(Asynchronous JavaScript And XML):异步的 JavaScript 和 XML AJAX 不是新的编程语言,指的是⼀种交互方式:异步加载。 客户端和服务器的数据交互更新在局部页面的技术,不需要刷新…

剪画小程序:职场上如何提高工作效率?

亲爱的宝子们,不知道你们有没有遇到过这样的情况: 在公司里,老板突然让你整理一份国外产品介绍视频里的关键信息,可那是外语的,听得你一头雾水。 这时候,有什么方法或办法!能快速准确地将视频中…

02对话系统---图片的导入

样式 例&#xff1a; 1.<styleH1> Hellow <styleH1>world 效果&#xff1a; 样式表 路径&#xff1a; 插入图片 插入默认图片 2.<sprite0> text<sprite0> 效果&#xff1a; 图集路径&#xff1a; 导入单个图片 给…

飞腾平台虚拟机组播性能调优指南

【写在前面】 飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力&#xff0c;聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域&#xff0c;包含了应用使能套件、软件仓库、软件支持、软件适…

网优学习干货:xx5G速率优化现场实战版

速率概述 无线网络仍然是5G网络能力最容易受限的环节&#xff0c;无线网络技术的应用将最终决定5G网络能力的木桶深度。移动通信中传统关键技术在5G将会继续使用。5G NR在继承了LTE原有部分技术基础上&#xff0c;采用了一些技术演进和新技术创新。比如NR继承了LTE的OFDM和SC-…

内网安全:权限维持的各种姿势

1.Linux权限维持 2.Windows权限维持 目录&#xff1a; 一.Linux权限维持&#xff1a; 1.webshell&#xff1a; 2.定时任务&#xff1a; 3.SUID后门&#xff1a; 4.SSH Key免密登录后门&#xff1a; 5.添加用户后门&#xff1a; 二.Windows权限维持 1.计划任务后门&…

活用 localStorage

我维护的这款工具 https://editor.yunwow.cn/ 已经帮我写了 7 篇文章了&#xff0c; 用起来很顺手&#xff0c;因此我打算再给它升级下让它更方便&#xff0c;我决定要给它加个本地缓存功能。我给它提的要求是&#xff1a; 1. 至少能缓存 5 篇文章 2. 能有选择的加载模板 3…

C语言:指针详解(4)

作者本人由于大一下学期事情繁多&#xff0c;大部分时间都在备赛&#xff0c;没有时间进行博客撰写&#xff0c;如今已经到了暑假时间&#xff0c;作者将抓紧每一天的时间进行编程语言的学习&#xff0c;由于目前作者已经进行到了C的学习&#xff0c;C语言阶段的学习与初阶数据…

QT之嵌入外部第三方软件到本窗体中

一、前言 使用QT开发&#xff0c;有时需要调用一些外部程序&#xff0c;但是单独打开一个外部窗口有的场合很不合适&#xff0c;最好是嵌入到开发的QT程序界面中。还有就是自己开发的n个程序&#xff0c;一个主程序托n个子程序&#xff0c;为了方便管理将各个程序独立&#xf…

JMeter CSV 参数文件的使用教程

在 JMeter 测试过程中&#xff0c;合理地使用参数化技术是提高测试逼真度的关键步骤。本文将介绍如何通过 CSV 文件实现 JMeter 中的参数化。 设定 CSV 文件 首先&#xff0c;构建一个包含需要参数化数据的 CSV 文件。打开任何文本编辑器&#xff0c;输入希望模拟的用户数据&…

烟雾识别技术在火灾预防中的应用:思通数科大模型的力量

引言 火灾是导致生命财产损失的重大灾害之一。早期检测和快速响应是预防火灾和减少损失的关键。结合思通数科大模型的烟雾识别技术&#xff0c;为实时检测和精确定位烟雾来源提供了一种高效的解决方案。本文将探讨这一技术如何有效预防火灾并保障人员安全。 烟雾识别技术概述 …

Transformer——多头注意力机制(Pytorch)

1. 原理图 2. 代码 import torch import torch.nn as nnclass Multi_Head_Self_Attention(nn.Module):def __init__(self, embed_size, heads):super(Multi_Head_Self_Attention, self).__init__()self.embed_size embed_sizeself.heads headsself.head_dim embed_size //…

Shiro550反序列化漏洞分析

shiro搭建教程可以在网上自行搜索 漏洞发现 进入shiro界面后&#xff0c;burp抓包&#xff0c;选择remember me并进行登录。观察burp抓到的包 登录之后服务器返回一个Cookie Remember me 之后用户的访问都带着这个Cookie 这个Cookie很长&#xff0c;可能会在里面存在一定的信…

springboot增加过滤器后中文乱码

记录一下小问题 public class RepeatableHttpServletWrapper extends HttpServletRequestWrapper {private byte[] body;public RepeatableHttpServletWrapper(HttpServletRequest request) throws IOException {super(request);request.setCharacterEncoding("UTF-8&q…

数据建设实践之大数据平台(一)准备环境

大数据组件版本信息 zookeeper-3.5.7hadoop-3.3.5mysql-5.7.28apache-hive-3.1.3spark-3.3.1dataxapache-dolphinscheduler-3.1.9大数据技术架构 大数据组件部署规划 node101node102node103node104node105datax datax datax ZK ZK ZK RM RM NM

Git的命令使用与IDEA内置git图形化的使用

Git 简介 Git 是分布式版本控制系统&#xff0c;它可以帮助开发人员跟踪和管理代码的更改。Git 可以记录代码的历史记录&#xff0c;并允许您在不同版本之间切换。 通过历史记录可以查看&#xff1a; 进行了哪些更改&#xff1f;谁进行了更改&#xff1f;何时进行了更改&#…

nodejs模板引擎(二)

虽然Jade现在已经被更名为Pug&#xff0c;但它的使用方式并没有太大的改变。下面是如何在Node.js中使用Pug&#xff08;原Jade&#xff09;模板引擎的基本步骤&#xff1a; 1. 安装 Pug 首先&#xff0c;你需要安装Pug模块。在你的项目目录中&#xff0c;使用npm来安装&#…