研究论文 2022-Oncoimmunology:AI+癌RNA-seq数据 识别细胞景观

news2025/1/15 6:43:07

Wang, Xin, et al. "Deep learning using bulk RNA-seq data expands cell landscape identification in tumor microenvironment." Oncoimmunology 11.1 (2022): 2043662. https://www.tandfonline.com/doi/full/10.1080/2162402X.2022.2043662

被引次数:5

2022年分区:大类医学2区;小类免疫学2区,肿瘤学 3区

IF 7.723 JCR Q1

一、数据集

从GDC数据库(https://portal.gdc.cancer.gov/projects)下载32种“癌症样本和正常样本”,共有10906患者的表达谱和临床数据。

非小细胞肺癌数据的两种亚型:肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)

从GEO数据集(https://www.ncbi.nlm.nih.gov/geo/)下载5个数据集:

  • GSE81861(CRC):11例结直肠癌患者的样本,包含7种细胞类型。引用文献32

  • GSE75688(BC):11个乳腺癌细胞和淋巴结转移的单细胞测序数据。引用文献33。包括515个单细胞RNA测序数据,使用Illumina HiSeq 2500进行测序。基因表达水平以TPM(每百万转录本)表示,已经进行了标准化,可以在下一步的分析中进行比较。

  • GSE86146(FGC):2167个个体生殖细胞及其生殖腔细胞,涵盖了从怀孕后4周到26周的女性和男性人类胚胎的发育阶段。引用文献21。

  • GSE72056(Melanoma):31个黑色素瘤样本及其6种细胞类型。引用文献34。

  • GSE78220(PD1):38个黑色素瘤活检样本在抗PD-1治疗之前的转录组样本和相应的临床数据。引用文献35。

  • 细胞类型及其对应的标记基因来自CellMarker数据库(http://bio-bigdata.hrbmu.edu.cn/CellMarker/)。

CellMarker数据预处理

从CellMarker数据库中下载了来自158个人类组织中的467种细胞类型的13,605个标记基因。

数据处理如下:由于一些细胞及其标记基因在不同人类组织中重复出现,我们删除了组织特异性的重复,仅保留一个细胞及其标记基因作为重复组的代表。为了DCNet模型的训练目的,删除了在TCGA基因集中未检测到的标记基因[详见TCGA数据预处理],然后排除了33个细胞类型,因为未检测到任何标记基因。最终,保留了434个细胞类型,包括免疫细胞、癌细胞、基质细胞等,以及它们对应的9078个标记基因,用于进一步的分析。通过整合CellMarker数据库(http://biocc.hrbmu.edu.cn/CellMarker/)和Cell Ontology数据库(OBO:http://www.obofoundry.org/ontology/cl.html)中的类别信息,计算了主要细胞类型的细胞丰度。在DCNet识别的434个细胞类型中,有77个细胞类型没有Cell Ontology ID,137个细胞类型没有自己的Cell Ontology ID,但被分配到其父类的术语ID,220个细胞类型在OBO数据库中有自己的Cell Ontology ID。对于没有Cell Ontology ID或仅有其父类Cell Ontology ID的细胞类型,从CellMarker数据库中获取了细胞类型之间的层次关系信息。对于具有自己Cell Ontology ID的细胞类型,从Cell OBO数据库中下载了细胞类型之间的本体结构信息。整合这些信息,创建了附表1,其中包含了父细胞类型和子细胞类型的名称、细胞本体ID的父细胞类型和子细胞类型、数据源数据库(CellMarker或OBO)。

对于CellMarker数据库,父细胞类型的细胞丰度是通过累加其子细胞类型的细胞丰度计算的;而对于OBO数据库,父细胞类型的细胞丰度是通过累加其在细胞本体结构中的叶节点的细胞丰度计算的。

TCGA的表达谱数据预处理

对于TCGA的表达谱数据,删除了在超过1/3的样本中表达水平为0的基因,保留了21,136个基因,并进行了对数归一化。我们将每个样本的基因表达分为输入数据(9078个标记基因的表达水平)和输出数据(21,136个基因的表达水平)。由于癌症样本分布不均匀,我们采用了过采样方法来扩大样本数量,同时平衡样本类别。此外,在实验测量过程中,由于某些基因的低表达强度或实验误差,可能无法检测到一些基因,这将导致模型的输入维度与标记基因维度不匹配。为解决这个问题,输入数据以0.1、0.3、0.5的概率被随机删除(0填充),这不仅可以增加训练样本,还可以降低过拟合的风险。最后,所有样本按80%和20%的比例划分为训练集和测试集。

我们还使用TCGA biolink 软件包从TCGA队列中获取了1487名肿瘤转移患者的临床数据和药物治疗信息。如果接受某种药物治疗的患者数量小于48,则该药物的信息将被截断。

二、DCNet神经网络构建与训练

DCNet model trains a deep neural network, which embeds the relationships between cells and their marker genes, to predict more than 400 cell types proportion within bulk seq dataset. 

DCNet 模型训练深度神经网络,该网络嵌入细胞及其标记基因之间的关系,以预测批量 seq 数据集中 400 多种细胞类型的比例。

图1. DCNet架构和设计流程。 (a) 组织中不同的细胞类型,如基质细胞、红细胞、巨噬细胞、T细胞、B细胞、神经元细胞等。这些细胞又可进一步分割不同的细胞(b) DCNet模型的基本结构。输入是bulk RNA-seq中标记基因的表达水平,输出是所有基因的表达水平。中间层人工神经网络。(c) 神经灰色DCNet模型的第一级关系是细胞与标记基因的对应关系。DCNet模型的中间层代表细胞的相对内容。 显示全尺寸

三、比较

不同参数量下的NN比较(类似敏感性分析)

与其他方法比较:CIBERSORTx、EPIC、MCP-Counter、quanTIseq、xCell(默认参数,代码链接见正文,同时R包immunoconv包含了这些方法可用来预测细胞丰度)

四、模型训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1331909.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

哈希拓展攻击CTF题做法

目录 基础: 盐(Salt): 哈希长度拓展攻击: kali下载相关工具hash-ext-attack: hash拓展题目特征: 哈希拓展ctf题: 2023楚慧杯upload_shell 实验吧之让我进去: 前言…

关于“Python”的核心知识点整理大全38

14.1.1 创建 Button 类 由于Pygame没有内置创建按钮的方法,我们创建一个Button类,用于创建带标签的实心矩形。 你可以在游戏中使用这些代码来创建任何按钮。下面是Button类的第一部分,请将这个类保存为 文件button.py: button.py …

渗透实验 XSS和SQL注入(Lab3.0)

windows server2003IIS搭建 配置2003的虚拟机 1、利用AWVS扫描留言簿网站(安装见参考文档0.AWVS安装与使用.docx),发现其存在XSS漏洞,截图。 2、 Kali使用beef生成恶意代码 cd /usr/share/beef-xss./beef执行上面两条命令 …

Maven核心概念

1 Maven工程的GAVP Maven 中的 GAVP 是指 GroupId、ArtifactId、Version、Packaging 等四个属性的缩写,其中前三个是必要的,而 Packaging 属性为可选项。 这四个属性主要为每个项目在maven仓库中做一个标识,方便项目之间相互引用。 GAV G 即…

模式识别与机器学习(八):决策树

1.原理 决策树(Decision Tree),它是一种以树形数据结构来展示决策规则和分类结果的模型,作为一种归纳学习算法,其重点是将看似无序、杂乱的已知数据,通过某种技术手段将它们转化成可以预测未知数据的树状模…

使用vue-qr,报错in ./node_modules/vue-qr/dist/vue-qr.js

找到node_modules—>vue-qr/dist/vue-qr.js文件,搜…e,将…去掉,然后重新运行项目。

【RabbitMQ】RabbitMQ详解(二)

RabbitMQ详解 死信队列死信来源消息TTL过期队列达到最大长度消息被拒绝 RabbitMQ延迟队列TTL的两种设置队列设置TTL消息设置TTL 整合SrpingBoot队列TTL延时队列TTL优化Rabbtimq插件实现延迟队列 死信队列 先从概念解释上搞清楚这个定义,死信,顾名思义就…

使用keytool查看Android APK签名

文章目录 一、找到JDK位置二、使用方法2.1 打开windows命令行工具2.2 查看签名 三、如何给APK做系统签名呢? 一、找到JDK位置 安卓AS之后,可选择继续安装JDK,如本文使用amazon版本默认位置:C:\Users\66176.jdks\corretto-1.8.0_342可通过自…

数据预处理:多重共线性_检测和解决办法

文章目录 1.多重共线性简介(Collinearity and Multicollinearity)1.1 多重共线性的后果1.2 处理多重共线性问题的方法 2. 设置2.1 导入库2.2 数据集特征波士顿房价BMI 数据集 2.3 导入数据 3. 相关矩阵3.1 聚类图 4. 方差膨胀因子4.1 两种多重共线性4.2 …

HackTheBox - Medium - Linux - Format

Format Format 是一种中等难度的 Linux 机器,它突出显示了由解决方案的结构方式引起的安全问题。立足点涉及PHP源代码审查,发现和利用本地文件读/写漏洞,并利用Nginx中的错误配置在Redis Unix套接字上执行命令。横向移动包括浏览 Redis 数据…

指针的含义

我们还取前面图片解释的道理: pa表示的意思就是这个地址,并不会显示出10这个数字 *pa就是指针,最后指向了a10,所以他最后程序输出是10 &pa这个含义就是取pa的地址,那么pa是一个虚拟的地址,只是简单的…

7种常见的网络安全设备及其功能

网络安全设备在现代网络环境中起着至关重要的作用,帮助保护个人和组织免受恶意攻击。本文将介绍7种常见的网络安全设备,包括防火墙、入侵检测系统、反病毒软件、数据加密设备、虚拟私人网络、安全信息和事件管理系统以及网络访问控制设备,并详…

Apache RocketMQ,构建云原生统一消息引擎

本文整理于 2023 年云栖大会林清山带来的主题演讲《Apache RocketMQ 云原生统一消息引擎》 演讲嘉宾: 林清山(花名:隆基),Apache RocketMQ 联合创始人,阿里云资深技术专家,阿里云消息产品线负…

postgresql vacuum流程分析

概述 VACUUM是postgresql MVCC机制不可分割的组成部分。 postgresql在管理同一个元组的多个版本时,采取在堆表页面上从老版本到新版本放置元组的方法,每个元组都记录了xmax和xmin用于判断其可见性。这样的好处是(1)在索引键没有…

RasaGPT对话系统的工作原理

RasaGPT 结合了 Rasa 和 Langchain 这 2 个开源项目,当超出 Rasa 现有意图(out_of_scope)的时候,就会执行 ActionGPTFallback,本质上就是利用 Langchain 做了一个 RAG,调用 LLM API。RasaGPT 涉及的技术栈比较多而复杂&#xff0c…

OpenCV | 霍夫变换:以车道线检测为例

霍夫变换 霍夫变换只能灰度图,彩色图会报错 lines cv2.HoughLinesP(edge_img,1,np.pi/180,15,minLineLength40,maxLineGap20) 参数1:要检测的图片矩阵参数2:距离r的精度,值越大,考虑越多的线参数3:距离…

[python]用python实现对arxml文件的操作

目录 关键词平台说明一、背景二、方法2.1 库2.2 code 关键词 python、excel、DBC、openpyxl 平台说明 项目Valuepython版本3.6 一、背景 有时候需要批量处理arxml文件(ARXML 文件符合 AUTOSAR 4.0 标准),但是工作量太大,阔以考虑用python。 二、方…

2023尚硅谷大数据项目之数据治理考评平台

教程下载:https://download.csdn.net/download/m0_66047725/88655186 【资源目录】: ├──1.笔记 | ├──课堂随笔.pptx 288.70kb | ├──尚硅谷大数据技术之数据治理考评平台完整V1.2.0.docx 1.87M | ├──数据治理总结.mmap 133.77kb | ├──自测题1.txt …

科研学习|论文解读——面向电商内容安全风险管控的协同过滤推荐算法研究

【论文完整内容详见知网链接】: 面向电商内容安全风险管控的协同过滤推荐算法研究 - 中国知网 (cnki.net) 面向电商内容安全风险管控的协同过滤推荐算法研究* 摘 要:[目的/意义]随着电商平台商家入驻要求降低以及商品上线审核流程简化,内容安…

冒泡排序之C++实现

描述 冒泡排序算法是一种简单的排序算法,它通过将相邻的元素进行比较并交换位置来实现排序。冒泡排序的基本思想是,每一轮将未排序部分的最大元素逐个向右移动到已排序部分的最右边,直到所有元素都按照从小到大的顺序排列。 冒泡排序的算法…