Transformer在生成细胞数据上的应用

news2024/9/21 14:38:23

来自:scTranslator: A pre-trained large generative model for translating single-cell transcriptome to proteome

工程地址:https://github.com/TencentAILabHealthcare/scTranslator

在scTranslator中,有3个阶段:paired bulk上监督学习,paired sc上监督学习,sc RNA上推理。前两阶段的监督信号来自配对数据,从一个模态翻译到另一个模态。在第三阶段,预训练的scTranslator可以被用于预测sc分辨率的protein丰度,而且如果存在部分配对的RNA和protein的sc数据,scTranslator还能在这个subset上进行微调。

scTranslator 论文写的十分清晰,提供的工具也非常容易使用

目录

  • 数据集
  • 模型架构
  • 注意力用于调控推断
  • 敲除模拟

数据集

用于预训练的bulk数据集
TCGA(The Cancer Genome Atlas)包含63个数据集,有30种cancer type,CPTAC(Clinical Proteomic Tumor Analysis Consortium)包含7个数据集,7种cancer。最终,scTranslator的统一bulk数据集:
fig1

用于预训练的sc数据集
包含了10个独立的数据集,这些数据集包含来自各个组织的2,405,115个细胞,组织包括blood,bone marrow,liver。这些样本代表了一系列不同的情况,包括健康捐赠者和被诊断患有COVID-19、结核病、多系统炎症综合征、癫痫和肥胖的捐赠者。

用于benchmarking的sc数据集
Seurat v4 PBMC:cell-161,764,gene-23,385,protein-224
REAP-seq PBMC:cell-4,330,gene-21,005,protein-44
CITE-seq CBMC:cell-8,005,gene-16,508,protein-13
sc Pan-caner:patient-43,cancer-8,cell-65,698,gene-15,844,没有protein数据

预处理
考虑到scTranslator有2万个基因作为输入,为了保留完整的基因级信息和可解释性,scTranslator没有采用特征选择和特征提取的降维方法。对于RNA或蛋白质的计数矩阵,对每个细胞的数据进行缩放的Max-Min归一化形式化为:
eq1
其中,cell index i = 1 , 2 , . . . , n u m c e l l i=1,2,...,num_{cell} i=1,2,...,numcell,scale factor H = 1 , L o w = 1 0 − 8 H=1,Low=10^{-8} H=1,Low=108 L o w Low Low的目的是区分真正的0计数(0计数被缩放到 1 0 − 8 10^{−8} 108)和用于模型输入的 0 padding。

模型架构

scTranslator建立在Transformer架构上,可以有效利用RNA和protein组学提供的所有信息。尽管scTranslator遵循类似于Transformer的编码器到解码器框架,但它没有在解码器中使用掩码多头注意力,该注意力用于以自回归的方式聚焦输出嵌入中的信息,以防止未来位置的信息泄露。这种舍弃是基于生物学原理,即NLP中token之间的绝对位置关系对于蛋白质丰度数据是没有意义的。为了使模型能够区分不同基因,受Transformer的位置编码的启发,设计了一个 re-indexed GPE模型。为了应对超长RNA序列的挑战,使用了Transformer的线性复杂度版本Performer来代替具有二次空间和时间复杂度的常规full-rank注意力。scTranslator使用端到端训练策略构建,其中模型由预测蛋白质和ground truth之间的MSE损失监督。

Re-indexed gene position encoding (GPE)和表达值embedding
以往的研究局限于固定RNA和蛋白质的位置,只考虑相应基因的表达值。然而,这种方法忽略了从基因名称及其相互作用中获得的有价值信息。为了解决这一不足,scTranslator提出了一个re-indexed的GPE模块。具体来说,将所有基因(总计75,500个,来自最新的NCBI数据库)重新索引为离散的ID值。这里避免使用NCBI提供的原始基因ID号,因为最大ID (1,255,000) 很大,这可能导致内存冗余。GPE模块采用embedding layer,通过可学习的查找表实现,将re-indexed的Gene ID转换为连续的向量空间。该模块支持的最大词汇量为85,500,其中有10,000个保留位置用于当前研究中未涵盖的新基因。与scTranslator的其余部分一起,GPE模块被同时训练以获取所有基因的信息表示。

除了基因ID之外,如何利用RNA的表达价值也是一个挑战。NLP中的标准Transformer模型接受token的1D序列,并通过嵌入层将token映射到嵌入向量。在scTranslator编码器中,每个基因的表达被视为一个“token”,来自一个细胞或患者的所有表达值构成一个“sentence”。原始值通过线性嵌入层投影到预先设置维数的向量上。

如扩展图A7所示,GPE和表达值嵌入的结合为全面理解基因表达及其相互作用提供了可能。此外,GPE模块使scTranslator在非对齐模式下有效,增强了扩展性。

exp_fig10

  • 扩展图A7:GPE与value embedding的工作流程。

模型backbone
scTranslator采用Transformer编码器-解码器架构,并采用多头FAVOR+机制作为backbone。编码器由 N = 2 N = 2 N=2个相同的层组成,每层包括一个多头FAVOR+机制的sub-layer和一个位置全连接前馈网络的sub-layer。在每个sub-layer周围使用残差连接和层归一化。解码器也由 N = 2 N = 2 N=2个相同的层组成,具有与编码器相同的sub-layer设计,以及用于表示蛋白质ID而不是RNA ID的额外GPE模块。sub-layers、embedding layers和GPE module产生的输出维度为 d m o d e l = 128 d_{model} = 128 dmodel=128。考虑到目前RNA和蛋白质的覆盖范围,编码器和解码器的最大序列长度分别设置为20,000和1,000。在编码器和解码器之间使用多层感知器(MLP)进行sentence长度转换。此外,在每个子层中都加入了一个8头注意机制。整个模型由1.17亿个参数组成。

Performer中提出的FAVOR+机制在理论和实验上都被证明可以将常规注意力机制所需的二次计算复杂度降低到线性复杂度。假设 X ∈ R L × d m o d e l X\in\R^{L\times d_{model}} XRL×dmodel是包含位置嵌入和表达嵌入的序列长度为 L L L的输入嵌入。query,key,value是输入的中间表示: Q = W Q X , K = W K X , V = W V X Q=W_{Q}X,K=W_{K}X,V=W_{V}X Q=WQX,K=WKX,V=WVX标准的双向dot-product注意力为(其中 A ∈ R L × L A\in\R^{L\times L} ARL×L为注意力矩阵):
eq2
FAVOR+机制尝试找到一个通用kernel来映射 Q Q Q K K K Q ′ Q' Q K ′ K' K,以使得 A A A有以下近似:
eq3
映射函数的通用形式为:
eq4
其中,函数 f j : R → R f_{j}:\R\rightarrow\R fj:RR,函数 h : R d → R h:\R^{d}\rightarrow\R h:RdR,随机从分布 D ∈ P ( R d ) D\in P(\R^{d}) DP(Rd)中进行独立同分布采样 w i ∼ D w_{i}\sim D wiD。近似注意力为:
eq5

第一阶段:在配对bulk上训练
在第一阶段,scTranslator对配对的bulk RNA和protein数据进行训练。该阶段的每个数据点对应于一个tissue样本,并从同一样本中获得RNA和蛋白质的测量值。本阶段的目的是在不同组织类型中建立RNA表达水平和蛋白质丰度之间的牢固关系。这一阶段使用的数据集包括从31种不同组织类型中收集的18,227对RNA和蛋白质样本。训练参数包括学习率为 2 × 1 0 − 4 2 × 10^{−4} 2×104,batch size为8,epoch为200。

第二阶段:配对sc上持续学习
在第二阶段,通过对配对的sc RNA和protein数据的持续学习,进一步训练第一阶段预训练的scTranslator。此阶段中的每个数据点表示单个细胞,这允许模型在单个细胞级别捕获更细粒度的关系。这一阶段增强了模型从scRNA-seq数据预测蛋白质丰度的能力。这一阶段的数据集包括2,405,115对单细胞RNA和蛋白质样本。除了epoch的数量外,训练参数与阶段1保持一致。考虑到数据的庞大和异构性质,通过观察预测和真实蛋白质水平之间的余弦相似度来监测模型在预训练期间的性能。当余弦相似度超过0.85,即停止预训练。

损失函数与优化
在scTranslator的所有训练阶段,观察到的和预测的蛋白质水平之间的均方误差(MSE)被用作损失函数。这种损失函数的选择确保模型最小化预测和实际蛋白质丰度之间的差异,从而生成更准确和可靠的预测。Adam优化器用于训练。

训练时间
两阶段的预训练均在32台V100 gpu上进行,总训练时间约为1个月。

注意力用于调控推断

注意机制可以识别数据点之间的重要特征和相互作用,使其非常适合于基因表达分析中的调控推断。scTranslator实施了一个全面的可解释性分析,以确定重要的基因,以及RNA-蛋白质之间的相互作用。

编码器中的注意力得分反映了每个RNA的贡献和RNA pair的相互作用。同样,可以通过解码器的注意力矩阵来识别关键蛋白质和蛋白质之间的相互作用。此外,从编码器到解码器的注意力矩阵揭示了RNA在推断蛋白质时的重要性。计算所有样本的注意力矩阵,并将它们的和作为最终的注意力矩阵。以编码器到解码器的注意力矩阵为例,在这个矩阵中,每个值 A ( i , j ) A(i, j) A(i,j)表示蛋白质 i i i对基因 j j j的注意力程度。注意矩阵可以通过热图可视化。此外,在g:Profiler网站https://biit.cs.ut.ee/gprofiler上可以对排名靠前的基因进行富集分析。

敲除模拟

基因敲除实验是了解基因功能及其对生物过程贡献的重要工具。通过敲除特定基因,研究人员可以研究特定基因对细胞表型的影响,从而深入了解基因在发育、疾病和其他生物学途径中的作用。基因敲除实验还可以验证潜在的治疗靶点和开发新的遗传疾病治疗方法。然而,传统的湿实验室基因敲除既耗时又昂贵,难以探索各种可能性。

使用预训练的scTranslator可以研究模拟敲除基因对蛋白质生成的影响,包括表面和细胞内蛋白质。这种伪敲除是通过去除RNA中的特定基因,并比较敲除该基因前后蛋白质丰度的变化来进行的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1984662.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【xilinx】XCZU1CG-1SBVA484I FPGA 的 VCC_PSBATT 引脚的正确电压范围是多少?

我正在做一个涉及 XCZU1Cg-1SBVA484I FPGA IC 的项目。对于 PSBATT 部分,根据 DS925 文档,提到 VCC_PSBATT 电压范围为 1.2V ~ 1.5V。但在同一文档中,注释部分规定:Vcc_psbatt 最高可接受 1.89V。 根据 UG1085 文档,使…

HarmonyOS 习题(二)

1、在类Web开发范式自定义组件创建后,加入到Page组件树时,会触发以下哪一项回调。 A)Onlnit B)OnAttached C)OnLayoutReady D)OnDetached 答案:B 分析: onlnit:自定义组件初始化生命周期回调&a…

HTML常用标签和CSS的运用

目录 1.HTML标签 1.1 文档结构标签 1.2 文本格式标签 1.3 列表标签 1.4 链接和媒体标签 1.5 表格标签 1.6 表单标签 1.7 分区和布局标签 1.8 元数据标签 2.css样式 2.1 字体样式 2.2 文本样式 2.3 背景样式 2.4 边框样式 2.5 间距样式 2.6 宽度和高度 2.7 显示…

NLP——Transfromer 架构详解

Transformer总体架构图 输入部分:源文本嵌入层及其位置编码器、目标文本嵌入层及其位置编码器 编码器部分 由N个编码器层堆叠而成 每个编码器层由两个子层连接结构组成 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 第二个子层连接结构包…

音质提升秘籍:专业音频剪辑软件汇总

现在欣赏传输音频文件比以前简单多了,这些音频的质量也影响了听众的体验与感受。所以使用一些靠谱的音频剪辑工具处理音频能让你的音频文件呈现更好的效果。 1.福昕音频剪辑 链接直达>>https://www.foxitsoftware.cn/audio-clip/ 这是一款电脑端软件。别看…

MySQL查询最近7天的分组数据,无则补零

需求是:有个查询最近7天的折线图,这个就要求没有数据就要补0 现在表名为:wo_work_order 时间字段为:create_time SQL如下: SELECTDATE_FORMAT( a.timeDay, %Y-%m-%d ) AS day,IFNULL( b.count, 0 ) AS count FROM(S…

5.怎么使用Element ui来做一个前端登录页面

找到Layout 布局 他通过基础的 24 分栏,迅速简便地创建布局。 找一个对齐方式 这个就不错,找到对应的代码 这个 复制进入idea 引入我们的图片和文字 我这里图片有点问题 然后我再添加一条分割线 加入表单校验 把里面的代码同上加入idea 结果 对表单内容进行调整 …

半导体设备SAP实施的主要特点有哪些?

在半导体这一高度技术密集且竞争激烈的行业中,企业的高效运营和精准管理成为了决胜市场的关键。SAP作为全球领先的企业管理软件提供商,其半导体设备解决方案以其独特的功能和特点,为半导体企业带来了显著的运营优化和竞争力提升。本文将跟大家…

C# 类型转换

隐式(implicit)类型转换 1.不丢失精度的转换 2.显示(explicit)类型的转换 有可能丢失精度的转换 使用convert转换 ToString方法:将数值类型转换成字符串型

【Deep-ML系列】Linear Regression Using Normal Equation(正规方程求解线性回归)

题目链接:Deep-ML import numpy as np def linear_regression_normal_equation(X: list[list[float]], y: list[float]) -> list[float]:X np.array(X)y np.array(y).reshape(-1, 1)x_transpose X.Ttheta np.linalg.inv(x_transpose.dot(X)).dot(x_transpose…

K8s部署篇之手动部署二进制高可用集群架构

一、系统环境初始化 一)架构设计 所有节点都操作:3个master(etcd集群三个节点)和2个node 1、K8s服务调用如图 2、各组件说明 1、API Server 供Kubernetes API接口,主要处理 REST操作以及更新ETCD中的对象所有资源增删…

virtualbox7安装centos7.9配置静态ip避坑方案

1.背景 我大概在一年之前安装virtualbox7centos7.9的环境,但看视频说用vagrant启动的窗口可以不用第三方工具(比如xshell、secure等)连接centos7.9,于是尝鲜试了下还可以,导致系统文件格式是vmdk了(网上有vmdk转vdi的方法&#xf…

LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

发表时间:2 Feb 2024 论文链接:https://arxiv.org/pdf/2306.17107 作者单位:Georgia Tech Motivation:指令调整增强了大型语言模型 (LLM) 与人类交互的能力。此外,最近的指令跟踪数据集包括图像作为视觉输入&#xf…

从古代驿站体系看软件安全管控@安全历史04

在古代,车、马都很慢,信息传递很不顺畅,中央的政令又是如何传达至地方的呢?实际上,很多朝代都有专门的驿站制度,可以保障全国各地的信息传递,对于维护统治和稳定有着关键作用。 若将国家比作一个…

jvm方法返回相关指令ireturn,areturn,return等分析

正文 看图: 做的事情如下: 1:弹出当前的方法栈帧 2:获取上一个方法 3:从当前方法的操作数栈中获取执行结果,并推送到上一个方法的操作数栈中对应的伪代码: Override public void execute(Frame frame) {Thread thread frame.thread();Frame curren…

使用Go语言实现基于泛型的Jaccard相似度算法

基本原理 跳表: jaccard相似度: jaccard相似度的代码实现: 时间复杂度分析: 快速jaccard算法: 代码实现,这个要求两个集合都是有序的: Jaccard相似度算法的基本实现 算法&#xf…

【Rabbitmq的消息模型】

消息队列的特性 durable:队列持久化。如果设置持久化,那么无论RabbitMQ在关闭时,就会将队列存储到本地磁盘,无论宕机还是重启,队列也不会删除;如果设置不持久化,那么在RabbitMQ关闭时&#xff…

发送邮箱API的性能指标有哪些,如何评估?

发送邮箱API的安全性措施?使用邮箱API的注意事项? 无论是用于事务性邮件、营销邮件还是通知邮件,发送邮箱API的性能直接影响用户体验和业务效果。AokSend将详细探讨这些问题,帮助您更好地理解和优化发送邮箱API。 发送邮箱API&a…

Shodan:互联网连接设备与漏洞分析的搜索引擎

前言 在当今数字化时代,互联网连接设备的数量急剧增长,从个人设备到企业服务器再到物联网(IoT)设备,这些设备构成了我们日常生活和工作的基础。然而,这些设备的连接也带来了潜在的安全风险,因为…

【算法 02】一题学习BFS和DFS算法

一题学习BFS和DFS算法 洛谷题目解析:【深基18.例3】查找文献 题目背景 小K热衷于在洛谷博客上阅读文章并探索其中的知识。每篇文章都可能包含指向其他博客文章的参考文献链接。小K的求知欲非常强,如果他阅读了某篇文章,他一定会去查看这篇文…