零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(一)

news2025/1/18 13:55:42

经过一段时间的积累,搭建的分析平台已经日渐进入稳定的状态,很多粉丝也在和我们反馈,让我们出一下零代码生信套路课。

小编找了很久,发现某某机构出的TCGA联合GEO 免疫基因+代谢基因的生信套路,该套路应用常见相对来说比较广,又属于双热点套路。但是代码运行真的是太麻烦了,还有各种各样的报错,实在是不好弄,为此,我们推出了复现课程,该课程内容较长, 分成几篇进行讲解,如带来不便,请大家谅解!

一、TCGA数据的下载和预处理

这里通过生信豆芽菜官网可以直接下载TCGA的数据,比如这里我们以LUAD数据为例,

http://www.sxdyc.com/tcgaDataSet
在这里插入图片描述
下载后放在文件夹1.TCGA.pre下面
在这里插入图片描述
用excel打开TCGA.merge.cli.txthe tcga.merge.mRNA.TPM.txt的文件

1、整理表达谱数据
在这里插入图片描述
A列的数据为基因ENSG号,可以直接删掉,C列的数据需要注意,代表了基因的类型,比如说这里选择蛋白编码的基因,将其他类型的全部删掉
在这里插入图片描述
选择数据-筛选-将protein_coding的 基因保留下来,如果这里需要分析lncRNA,就单独只保留lncRNA
在这里插入图片描述
这时候,删掉A和C列的数据

将数据保存后,这里出来后的数据很容易出现重复的基因,所以可以使用我们的去重工具

http://www.sxdyc.com/singleCollectionTool?href-preprocess
在这里插入图片描述
选择去重工具,上传刚刚处理好的TCGA的表达谱数据,并选择去重的方法,等待运行结束即可。
在这里插入图片描述
当然如果文件过大,可以选择7-zip进行压缩,将文件压缩为.gz的格式

在这里插入图片描述
在这里插入图片描述
2、整理生存数据

打开文件后,先删掉后面无用的列名信息,去重
在这里插入图片描述
替换字符
在这里插入图片描述
去掉缺少生存时间和生存状态的样本
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
最后保存数据即可

二、GEO数据的下载和预处理

1、从NCBI的GEO dataset官网查找合适的GEO的数据集,可以通过关键词进行查找,也可以通过已经发表的文章进行筛选。

(https://www.ncbi.nlm.nih.gov/)
在这里插入图片描述
通过一些关键词进行搜索。

比如这里选择GSE31210,怎么下载呢
在这里插入图片描述
往下滑动,选择platforms(平台注释文件)和矩阵文件
在这里插入图片描述
在这里插入图片描述
2、表达谱数据和临床数据的处理

对GSE31210_series_matrix.txt.gz文件进行解压,然后excel打开
在这里插入图片描述
这一部分为样本的表型数据,有时候,表型的临床是存在原文的附件中。

表达谱的数据,这些信息都要删掉,同时拉到最后,将最后一行删掉。
在这里插入图片描述
然后保存一下数据
在这里插入图片描述
3、注释信息的准备

删掉多余的行和列,去掉一个探针对应多个基因名
在这里插入图片描述
选择筛选-包含-///,将这些行全部删掉。
在这里插入图片描述
在这里插入图片描述
合并数据
在这里插入图片描述
运行完成后
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在最后一列,有基因的名字,直接剪切粘贴到A列
在这里插入图片描述
这时候保存一下,再用去重工具,去一下重复的基因,在前面处理的时候,我们将一个探针对应多个基因的去掉了,那么这里的基因重复就是多个探针对应一个基因名,可以选择去重方法进行去重,这里就省略了
在这里插入图片描述
到这里数据的准备阶段基本就做完了,需要注意的是,在分析的过程中药注意基因的表达,相差大的,可以取一个log进行后续的分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1171950.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【音视频 | opus】opus编码的Ogg封装文件详解

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

【SpringCloud Alibaba -- Nacos】Linux 搭建 Nacos 集群

搭建 Nacos 集群 架构 centos安装docker https://docs.docker.com/engine/install/centos/ 详细配置过程 MySql8 mysql数据库配置 数据库脚本 nacos/conf/nacos-mysql.sql Nacos2 application.properties 修改为mysql spring.datasource.platformmysqldb.num1 db.url…

【算法挑战】字符的最短距离(含解析、源码)

821.字符的最短距离 https://leetcode-cn.com/problems/shortest-distance-to-a-character/ 821.字符的最短距离 题目描述解法 1:中心扩展法 思路复杂度分析代码 (JS/C) 解法 2:空间换时间 思路复杂度分析代码 (JS/C) 解法 3:贪心 思路复杂…

阿里大佬:DDD 领域层,该如何设计?

说在前面 在40岁老架构师 尼恩的读者交流群(50)中,最近有小伙伴拿到了一线互联网企业如阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试资格,遇到很多很重要的面试题: 谈谈你的DDD落地经验? 谈谈你对DDD的理解&#xff1f…

C语言 程序环境 编译和链接

目录 1.程序的翻译环境和执行环境 2.详解C语言程序的编译和链接 2.1翻译环镜 2.2翻译的几个阶段 2.2.1预编译 2.2.2编译 词法分析 符号汇总 2.2.3汇编 生成符号表 2.3链接 1.合并段表 2.合并符号表和重定位 2.4运行环境 1.程序的翻译环境和执行环境 在ANSI C的任…

【网络协议】聊聊DNS协议如何域名解析和负载均衡

DNS 服务器 我们知道如果使用IP地址进行访问网站,很难进行记忆,所以DNS的作用是将域名转换成对应的IP地址。如果全世界都使用同一台DNS服务器,那么DNS服务器本身需要保证服务的高可用、高性能,以及分布式等。最好的方式就是分层。…

日语动词三分类

所有的动词原形都是由う段结尾 50音图 一类动词 一类动词又称五段动词(う段动词) 1.结尾是う段非る的动词 ます形规律:う段 > 同行的い段ます 日文平假名ます形中文書くかく書きます写探すさがす探します寻找勝つかつ勝ちます胜利遊ぶ…

电脑报错找不到msvcp120dll,无法继续执行代码,怎么修复?

在运行电脑软件时,出现msvcp120.dll丢失,我深知大家在遇到这种电脑问题时所感受到的无助和焦虑。今天,我就来为大家分享一下关于msvcp120.dll文件缺失的4个一键解决方法,希望能帮助到大家。 首先,我们要明确什么是msv…

SecoClient连接报错:接收返回码超时

话接上回,SecoClient能打开了,但是出现了连接时的错误 这次针对接收返回码超时进行解决。 参考连接: https://www.cnblogs.com/Crazy-Liu/p/14700121.html https://blog.csdn.net/lnigluan511513/article/details/1280683581、正常我们进入…

【JVM】双亲委派机制、打破双亲委派机制

🐌个人主页: 🐌 叶落闲庭 💨我的专栏:💨 c语言 数据结构 javaEE 操作系统 Redis 石可破也,而不可夺坚;丹可磨也,而不可夺赤。 JVM 一、双亲委派机制1.1 双亲委派的作用1.…

Jetpack:028-Jetpack中的Card

文章目录 1. 概念介绍2. 使用方法2.1 主要类型2.2 其它类型 3. 示例代码4. 内容总结 我们在上一章回中介绍了Jetpack中Switch相关的内容,本章回中 主要介绍Card。闲话休提,让我们一起Talk Android Jetpack吧! 1. 概念介绍 我们在本章回中介…

linux的shell script判断用户输入的字符串,判断主机端口开通情况

判断输入的字符串是否是hello 图一运行报错 检查发下,elif 判断里面少个引号,哎,现在小白到了,一看就会,一写就错的时候了,好像现在案例比较简单,行数较少。 案例二 if 结合test 判断主机端…

企业电脑屏幕监控有哪些?如何实现电脑屏幕监控

企业电脑屏幕监控有哪些?如何实现电脑屏幕监控 下载使用安企神电脑屏幕监控软件 企业电脑屏幕监控是一种监测和记录员工在工作时间内在他们的计算机上执行的活动的技术。这种监控可以有多种目的,包括确保员工的生产力、确保数据安全性,或满…

CCLINK IEFB总线转ETHERNET/IP网络的协议网关使欧姆龙和三菱的数据互通的简单配置方法

想要实现CCLINK IEFB总线和ETHERNET/IP网络的数据互通。 捷米JM-EIP-CCLKIE是一款ETHERNET/IP从站功能的通讯网关,该产品主要功能是实现CCLINK IEFB总线和ETHERNET/IP网络的数据互通。本网关连接到ETHERNET/IP总线和CCLINK IEFB总线上都可以做为从站使用。网关分别…

静态链表的定义与实现(数据结构与算法)

1. 静态链表 用数组的方式实现的链表 单链表: 各个结点在内存中星罗棋布、散落天涯 静态链表:分配一整片连续的内存空间, 各个结点集中安置。 1.1 静态链表的优点 不需要像动态链表那样频繁地进行内存分配和释放,可以节省内存…

产品手册应该如何组织内容,以便用户能够快速找到所需信息?

产品手册应该如何组织内容,以便用户能够快速找到所需信息?这是一个关乎用户体验和产品文档效力的重要问题。当用户需要了解产品的功能、操作指南或故障排除时,他们希望能够轻松地找到准确、清晰的信息,而不是在冗长的手册中迷失方…

C语言——选择排序

完整代码: //选择排序 // 选择排序是一种简单直观的排序算法。它的工作原理如下:首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大&am…

Rocky 安装jdk17

1)检测jdk是否安装: #运行 java -version如果提示安装,则输入N,跳过 2)检测cpu 类型 若未安装查看linux处理器架构: #运行 hostnamectl #或运行 arch 3)去官网下载相应的编译版本的Jdk Or…

[SSD综述1.7] SSD接口形态: SATA、M.2、U.2、PCIe、BGA

依公知及经验整理,原创保护,禁止转载。 专栏 《SSD入门到精通系列》 <<<< 返回总目录 <<<< 前言 犹记得当年Windows 7系统体验指数中,那5.9分磁盘分数,在其余四项的7.9分面前,似乎已经告诉我们机械硬盘注定被时代淘汰。势如破竹的SSD固态硬盘,彻…

万岳讲堂:抖音小程序开发入门指南

抖音小程序可以将开发者的创意带入这个热门的应用中。本文将带您深入了解抖音小程序的开发入门指南&#xff0c;帮助您开始在这一平台上构建自己的应用。 一、什么是抖音小程序&#xff1f; 抖音小程序是一种轻量级的应用程序&#xff0c;它可以在抖音中直接运行&#xff0c;无…