GEO数据挖掘从数据下载处理质控到差异分析全流程分析步骤指南

news2024/11/15 10:52:55

综合的教学视频介绍

GEO数据库挖掘分析作图全流程每晚11点在线教学直播录屏回放视频: https://www.bilibili.com/video/BV1rm42157CT/

GEO数据从下载到各种挖掘分析全流程详解: https://www.bilibili.com/video/BV1nm42157ii/

一篇今年近期发表的转录组生信分析论文复现全流程直播: https://www.bilibili.com/video/BV184421Q7pj/

GEO数据下载教程

1.1根据GEO的GSE数据集编号自动下载和处理GEO数据教程(必须要运行的模块,GEO数据下载要首先运行这个模块)

cc2f4a24610efa85b719f3736fafe618.jpeg

详细教程地址: https://zhuanlan.zhihu.com/p/708053447

下载GEO数据一定要先运行下这个模块,部分数据集不一定能下载提取出表达矩阵,但是一般能下载到非常完整的样本的注释信息等数据文件,这在对GEO数据集临床信息分析或分组差异分析是非常重要的。

对于部分没有下载出表达矩阵的数据集,如果该数据集的GEO网页中有GSEXXX_RAW.tar格式的压缩包,可以运行下面的1.2这一步对RAW.tar的压缩包文件进行提取和处理。

1.2 转录组和基因芯片GSE数据集RAW.tar压缩包下载和多样本整合处理教程 (GEO网页中有RAW.tar压缩包可以用这一步下载处理)

0a9e3f146d201e4a1f2e3e6cddf03081.jpeg

教程地址

教程地址:转录组和基因芯片GSE数据集RAW.tar压缩包下载和多样本整合处理教程 - 邢博士谈科教的文章 : https://zhuanlan.zhihu.com/p/708244032

普通RNAseq转录组的GSEXXX_RAW.tar压缩包的多样本整合处理

c219c69b7c722c297dabb8a8b3d5c797.jpeg

各种不同格式的基因表达芯片的GSEXXX_RAW.tar压缩包的多样本整合处理

0a4bb939eb6136f5262c4fb3beee7766.jpeg

1.3 GEO网页中存在可以手动下载的表达矩阵等文件的下载处理教程

如果在1.1步没有自动下载提取出基因表达矩阵,GEO网页中也没有GSEXXX_RAW.tar压缩包文件,但是存在可以手动下载的一些表达矩阵等数据文件,可以用这一步进行下载和处理。

62506b77209ba73dfd139f1d780f13ef.jpeg

132eb0909a7bf2f70e831ce969bb2634.jpeg

教程视频: https://www.bilibili.com/video/BV1Yf421X7Cj/

GEO数据处理清洗教程

GEO的表达矩阵的探针ID转换成基因名称教程 (提取的表达矩阵里只有基因探针ID,没有正式的基因名称时运行这一步)

教程地址

GEO的表达矩阵的探针ID转换成基因名称教程 - 邢博士谈科教的文章 - 知乎

https://zhuanlan.zhihu.com/p/708404618

2.1.1 从gpl注释文件中提取出基因注释 (优先用这种方法进行基因名称注释)

该节教程:https://www.bilibili.com/video/BV15w4m1q7Dw/

d438d39416301d1e1f43911599debb7a.jpeg

2.1.2 对GPLsoft文件中没有基因名称的探针获取基因注释(第二种基因探针注释方法)

该方法对于一些非编码RNA的GSE数据集的注释可能会非常有用

该节教程:https://www.bilibili.com/video/BV12b421e7SX/

edf6818ea380ae017648c7619d2ff260.jpeg

2.1.3 同一物种不同类型基因id转换

该节教程:https://www.bilibili.com/video/BV1YD421M7qR/

该模块对于基因名称SYMBOL跟ENTREZID,ENSEMBL(为ENSG等开头基因ID),REFSEQ(为NM开头:mRNA,NP开头:蛋白,NR开头:非编码RNA),UNIPROT,UCSCKG(为ENST转录本)这六种类型中的一中或多种类型的基因ID或名称间的互相转换是非常有用的。

2f2ed97cd12b574b5c9e27fb88a0fdbe.jpeg

2.1.4 不同物种间同源基因转换

该节教程:https://www.bilibili.com/video/BV1B1421k7K9/

该方法对于小鼠和人之间的基因名称相互转换或者其它物种的基因名称转成人或小鼠的基因名称从而方法进行某些只能用人或小鼠模式生物才能做的生信分析是非常有用的。

b8d6868915b716397b336930b83385ab.jpeg

2.2 将提取的基因注释信息跟表达矩阵合并

该节教程:https://www.bilibili.com/video/BV12f421Q7nK/

37dbb9398ce9bbb3da575b9408737420.jpeg

2.3 GEO的样本分组信息提取和处理教程

2.3.1 从样本注释文件中提取出分组数据 (优先选择使用这种方法)

该节教程: https://www.bilibili.com/video/BV1rT421v77P/

0963cec408141d5241e7a85e50a271d9.jpeg

2.3.2 从表达矩阵中提取出分组信息 (第2种分组信息提取方法)

该节教程:https://www.bilibili.com/video/BV1sz421h7rc/

92562c5082993deea2824ef54d8b3da4.jpeg

质控和标准化

3.1 基因表达芯片的质控和标准化

3.1.1构建ExpressionSet分析对象 (首先先运行这一步)

基因的芯片的质控需要的数据格式是ExpressionSet这种格式,所以先需要构建个ExpressionSet对象

该节教程:https://www.bilibili.com/video/BV1br421c71A/

71689e7f796c023174fb629aa5f6c95c.jpeg

3.1.2 基因表达芯片的质控

该节教程: https://www.bilibili.com/video/BV1vy411b7yQ/

86e910360c0fff461f71d16e92e355a8.jpeg

3.1.3表达芯片进行归一化处理

该节教程: https://www.bilibili.com/video/BV1fJ4m1u7jX/

234d1d9681816873306e56e27fc15554.jpeg

3.2 普通转录组RNAseq定量的表达矩阵质控和标准化的操作和答疑

3.2.0 普通转录组RNAseq定量的表达矩阵是否需要质控和标准化的答疑

RNAseq测序数据在上游处理分析时候已经经过质控处理,是不需要再进行质控的,我们一般从GEO数据库里下载处理的RNAseq测序数据的表达矩阵要么是counts整数值表达矩阵文件,要么可能是FPKM/RPKM或TPM相对定量且标准化后连续性数值表达矩阵。

在差异分析的时候,转录组的差异分析主流的DESeq2和edgeR这两个差异分析工具是需要用不经过任何处理的原始的counts表达矩阵作为输出数据的,所以我们是不需要对从GEO数据库中下载和提取的counts表达矩阵做任何质控标准化操作的。

如果我们没有counts表达矩阵,只下载到了FPKM/RPKM或TPM相对定量且标准化后连续性数值表达矩阵,这样的数据已经经过了标准化处理,在我们做差异分析的时候,只需要对该类表达矩阵数据取个log2对数处理就可以了,同时这样的数据已经不能使用DESeq2和edgeR做差异分析了,只能用limma这个工具做差异分析。而在我的OmicsTools差异分析模块用limma做差异分析时,是会自动对数据分布和量级差别较大的数据进行取对数处理的。所以,大家也不需要手动对这类数据提取进行取对数处理的。

对于FPKM/RPKM或TPM数据,如果大家在做limma差异分析之前,如果想先看下RNAseq的表达矩阵每个样本所有基因的表达数据的分布情况是否一致,可以用下面的这两个模块进行表达矩阵的可视化作图

3.2.1 使用表达矩阵进行密度图绘制

该绘图模块会绘制每个样本的表达数据的密度曲线,好的连续数据的密度曲线应该近似钟形曲线的正态分布。

视频教程:https://www.bilibili.com/video/BV1yx4y1W7Vb/

4b4bee42db6484c9c7a7e32121e70c96.jpeg

3.2.2 利用表达矩阵进行箱式图绘制

利用表达矩阵进行箱式图绘制(用于查看质控标准化结果) ,质量好的数据应该是所有样本的箱式图中的中位数应该位于同一水平线上,箱式图分布性状也比较近似,没有特别严重的高低不齐的现象。

视频教程: https://www.bilibili.com/video/BV1b1421b7Qx/

dd24beef736ff5f6fa0de9e0441c4eb0.jpeg

样本PCA分群聚类分析和剔除异常样本

样本的PCA聚类分群分析

该节教程:https://www.bilibili.com/video/BV1if421X7pM/

92bfc0ad51e891c61373a824234e11f4.jpeg

删除PCA分群聚类的异常离群样本

该节教程:https://www.bilibili.com/video/BV1Um421N7X8/

e0a194a4dd843fc9205b9875bc50eab6.jpeg

剔除异常离群样本后的再次PCA聚类分群分析

该节教程:https://www.bilibili.com/video/BV1if421X7pM/

3783987e3cc233a44ab6e5f9872b2b34.jpeg

多个数据集的整合和去除批次效应

多个数据集合并 (如何需要整合分析多个数据集,就运行这一步)

该节教程:https://www.bilibili.com/video/BV1j4421X7Ls/

515b6c6b64e83298d698f0d646686527.jpeg

5.2 多数据集合并后一起所有样本表达数据一起做归一化处理(RNAseq counts整型数据不需要做这一步)

该节教程: https://www.bilibili.com/video/BV1fJ4m1u7jX/

2f0ca5b87fc21c632d79e98c61b02de9.jpeg

5.3去除批次效应(即使单个数据集中有多个批次信息,也要运行这一步)

一般我们如果合并了多个数据集,都是需要要去除批次效应的,但是,即使单个数据集中如果有多个批次信息,也要运行这一步

该节教程: https://www.bilibili.com/video/BV1Yy411h78f/

3b8d20aec96b35b4b0872a9568f78853.jpeg

5.4 去除批次效应后的样本PCA聚类分群分析

该节教程:https://www.bilibili.com/video/BV1if421X7pM/

edf6e10089bf561c3d285c9a2ac8579a.jpeg

5.4 删除PCA分群聚类的异常离群样本

该节教程:https://www.bilibili.com/video/BV1Um421N7X8/

8c13542a85b06cd6770102424d7cb555.jpeg

5.5 剔除异常离群样本后的再次PCA聚类分群分析

该节教程:https://www.bilibili.com/video/BV1if421X7pM/

d0c6a48ad792a8cdaf8ea54226424e95.jpeg

差异分析

6.0 不同数据的差异分析方法选择

整个转录组所有基因批量差异分析的数据格式和方法选择

数据格式: counts数据>> TPM数据> >FPKM/RPKM数据

差异分析工具: DESeq2 =edgeR > >(log2对数标准化+limma)

1.有counts数据的时候,优先选择使用counts数据+DESeq2/edgeR工具进行整个转录组的批量差异分析

2.没有counts数据,但是有TPM数据的时候,优先选择使用TPM数据+(log2对数标准化+limma工具)进行整个转录组的批量差异分析

3.没有counts数据,也没有TPM数据的时候,可以选择使用FPKM/RPKM+(log2对数标准化+limma工具)进行整个转录组的批量差异分析。

在我的OmicsTools差异分析模块用limma做差异分析时,是会自动对数据分布和量级差别较大的数据进行取对数处理的。所以,大家也不需要手动对这类数据提取进行取对数处理的。

基因芯片或其它组学或连续数值的表达矩阵的差异分析方面选择

基因芯片或其它组学或连续数值的表达矩阵的差异分析时,一律是log2(表达矩阵)+limma工具差异分析这种方法。在我的OmicsTools差异分析模块用limma做差异分析时,是会自动对数据分布和量级差别较大的数据进行取对数处理的。所以,大家也不需要手动对这类数据提取进行取对数处理的。

通用差异分析 (各种类型的组学数据都适用的差异分析模块)

该节教程:https://www.bilibili.com/video/BV1Lw4m1q71T/

9b6604cf845e65d30c7db27fba7156cd.jpeg

这个差异分析模块是可以做任意物种的差异分析,如果是人,func_org参数就填’human’, 如果不是人,就填不是’human’的任意其它物种名称就行。

因为edgeR差异分析建议,如果是人类的RNAseq数据,bcv生物变异度设置为0.4,如果是非人类的模式生物,bcv设置为0.1,在用edgeR做差异分析时,所有当输入的物种是human的时候,会自动把bcv生物变异度设置为0.4, 非human的时候,bcv会设置为0.1

6.2 通用批量差异分析(可同时对多个数据集文件做差异分析)

该节教程: https://www.bilibili.com/video/BV1vD421g7Vj/

04cb3022d726cab777ea468c85eea119.jpeg

6.3 按照某个基因或特征的高低分组的差异分析

6.3.1 按照某些特征的高低阈值对样本进行分组

该节教程:https://www.bilibili.com/video/BV1CZ421M75J/

2b7776da005e0e7e9f7f3c6e4dc36501.jpeg

6.3.2 按照某个基因或特征的高低分组的差异分析

按照某个基因或特征的高低分组的差异分析

该节教程:https://www.bilibili.com/video/BV18E4m1R7Wp/

efa05ae94f82715ff09ae88fd9439b9c.jpeg

这个差异分析模块也是可以做任意物种的差异分析,如果是人,func_org参数就填’human’, 如果不是人,就填不是’human’的任意其它物种名称就行。

因为edgeR差异分析建议,如果是人类的RNAseq数据,bcv生物变异度设置为0.4,如果是非人类的模式生物,bcv设置为0.1,在用edgeR做差异分析时,所有当输入的物种是human的时候,会自动把bcv生物变异度设置为0.4, 非human的时候,bcv会设置为0.1

6.4 根据logFC和p值等条件对差异分析结果进行筛选

提取出符合条件的特定行列的子数据集

该节教程: https://www.bilibili.com/video/BV1BM4m1Q7Qx/

af4708eb36407d7a75121c1be334da40.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1926897.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

技术成神之路:设计模式(六)策略模式

1.介绍 策略模式(Strategy Pattern)是一种行为型设计模式,它定义了一系列算法,封装每一个算法,并使它们可以相互替换。策略模式使得算法的变化独立于使用算法的客户端。 2.主要作用 策略模式的主要作用是将算法或行为…

算法思想总结:字符串

一、最长公共前缀 . - 力扣&#xff08;LeetCode&#xff09; 思路1&#xff1a;两两比较 时间复杂度mn 实现findcomon返回两两比较后的公共前缀 class Solution { public:string longestCommonPrefix(vector<string>& strs) {//两两比较 string retstrs[0];size…

2.生产者核心流程总结

目录 概述 概述 生产者核心流程总结&#xff0c;根据流程总结出生产者的调优流程及生产者修改配置的文档地址&#xff0c;有以上两点&#xff0c;即可完成生产者优化。 注意&#xff1a;下面的都是生产者环节调优的点。 一条消息经过序例化后划分至 broker 上的哪一个分区消息…

Springboot + JWT 的 Token 登录验证

目录 项目结构 一、 引入依赖 二、自定义Auth认证注解 三、 编写登录拦截器 四、定义跨域拦截器 五、 定义全局异常处理器 六、定义工具类 1. 统一错误状态码 2.统一响应类 3.Token工具类 七、 编写实体类 八、 定义控制器 1.定义登录控制器类 2 定义报错处理器 …

vscode编译环境配置-golang

1. 支持跳转 如果单测函数上方不显示run test | debug test&#xff0c;需要安装Code Debugger&#xff08;因为以前的go Test Explorer不再被维护了&#xff09; 2. 单测 指定单个用例测试 go test -v run TestXXXdlv 调试 需要安装匹配的go版本和delve版本&#xff08;如…

6.S081的Lab学习——Lab11: Network

文章目录 前言Network提示&#xff1a;实现e1000_transmit的一些提示&#xff1a;实现e1000_recv的一些提示&#xff1a; 解析 总结 前言 一个本硕双非的小菜鸡&#xff0c;备战24年秋招。打算尝试6.S081&#xff0c;将它的Lab逐一实现&#xff0c;并记录期间心酸历程。 代码下…

Go-知识测试-性能测试分析工具-benchstat

Go-知识测试-性能测试分析工具-benchstat benchmark 结果benchstat确认 benchstat 已安装确认 GOPATH 和 GOBIN将 $GOPATH/bin 添加到 PATH验证安装检查安装路径 使用 传送门&#xff1a;Go-知识测试-性能测试 benchmark 结果 benchmark 测试是实际项目中经常使用的测试方法&a…

飞凌全志T527开发板U-Boot添加自定义菜单

昨日&#xff0c;终于收到了心心念念的飞凌OK-T527开发板&#xff0c;板子很漂亮&#xff0c;外设丰富&#xff0c;性能强悍&#xff0c;T527创新性地使用了RISC-V架构的协处理器&#xff0c;后期值得研究一下异核的使用&#xff1a; 有趣的是&#xff0c;板子上电&#xff0c;…

智能制造 v3.13.16 发布,ERP、MES 更新

智能制造一体化管理系统 [SpringBoot2 - 快速开发平台]&#xff0c;适用于制造业、建筑业、汽车行业、互联网、教育、政府机关等机构的管理。包含文件在线操作、工作日志、多班次考勤、CRM、ERP 进销存、项目管理、EHR、拖拽式生成问卷、日程、笔记、工作计划、行政办公、薪资模…

0.单片机工作原理

文章目录 最小系统 单片机芯片 时钟电路 复位电路 电源 最小系统 单片机芯片 本次51单片机的芯片为&#xff1a;STC89C52 Flash(闪存)程序存储器&#xff1a;存储程序的空间 SRAM&#xff1a;数据存储器&#xff0c;可用于存放程序执行的中间结果和过程数据 DPTR&#xff1a;…

某客户报表系统Oracle数据库挂起问题分析处理

某客户报表系统Oracle数据库挂起问题分析处理 一、概要 某客户报表系统Oracle数据库在3月5号、6号均出现一节点实例短暂挂起现象&#xff0c;挂起现象有两种&#xff0c;第一是普通用户不能登录数据库&#xff0c;第二是sys用户可以登录数据库&#xff0c;但是做简单的select查…

C判断一个点在三角形上

背景 鼠标操作时&#xff0c;经常要判断是否命中显示控件&#xff0c;特开发此算法快速判断。 原理 三角形三等分点定理是指在任意三角形ABC中&#xff0c;可以找到三个点D、E和F&#xff0c;使得线段AD、BE和CF均等分三角形ABC。 这意味着三个等分点分别位于三个边界上&…

数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)

当前&#xff0c;业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake&#xff0c;和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试&#xff0c;那么本篇文章我们将回归到大数据最基础的场景&#xff0c;对海量数据的批处理查询。本文…

具身大模型研究综述

源自&#xff1a;哈工大SCIR 作者&#xff1a;陈一帆&#xff0c;张宇驰&#xff0c;孙楚芮&#xff0c;冯怀绪&#xff0c;宋浩&#xff0c;王寄哲 指导老师&#xff1a;张伟男 注&#xff1a;若出现无法显示完全的情况&#xff0c;可 V 搜索“人工智能技术与咨询”查看完整…

什么叫图像的双边滤波,并附利用OpenCV和MATLB实现双边滤波的代码

双边滤波&#xff08;Bilateral Filtering&#xff09;是一种在图像处理中常用的非线性滤波技术&#xff0c;主要用于去噪和保边。它在空间域和像素值域上同时进行加权&#xff0c;既考虑了像素之间的空间距离&#xff0c;也考虑了像素值之间的相似度&#xff0c;从而能够有效地…

赛氪网荣获2024年中国高校计算机教育大会合作伙伴荣誉

2024年7月13日&#xff0c;在黑龙江哈尔滨召开的“2024年中国高校计算机教育大会&#xff08;CCEC2024&#xff09;”&#xff0c;环球赛乐&#xff08;北京&#xff09;科技有限公司(以下简称”赛氪网“)凭借其在高等教育与科技创新领域的卓越贡献&#xff0c;荣幸地获得了本次…

SpringBoot详细解析

1.什么是springboot springboot也是spring公司开发的一款框架。为了简化spring项目的初始化搭建的。那么spring对应springboot有什么缺点呢&#xff1f; spring项目搭建的缺点: 配置麻烦依赖tomcat启动慢 2.springboot的特点 自动配置 Spring Boot的自动配置是一个运行时&…

Docker之在外执行docker内部命令(十一)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 优质视频课程:AAOS车载系统+AOSP…

react + redux 状态管理操作

目录 1 概念2 Redux 安装3 创建子模块并导入4 中间件为 react 注入 store5 在组件中使用 store 数据6 修改 store 数据7 提交 action 传参8 异步状态操作9 redux 调试工具 1 概念 Redux 是一个全局状态管理的 JS 库 2 Redux 安装 在react中使用redux&#xff0c;官方要求安…

「网络通信」HTTP 协议

HTTP &#x1f349;简介&#x1f349;抓包工具&#x1f349;报文结构&#x1f34c;请求&#x1f34c;响应&#x1f34c;URL&#x1f95d;URL encode &#x1f34c;方法&#x1f34c;报文字段&#x1f95d;Host&#x1f95d;Content-Length & Content-Type&#x1f95d;User…