利用HGT聚类单细胞多组学数据并推理生物网络

news2025/1/27 12:45:03

单细胞多组学数据允许同时对多种组学数据进行定量分析,以捕捉复杂的分子机制和细胞异质性。然而现有的工具不能有效地推断不同细胞类型的活性生物网络以及这些网络对外部刺激的反应。

来自:Single-cell biological network inference using a heterogeneous graph transformer

目录

  • 前置内容:HGT简述
  • HGT用于生物网络建模

前置内容:HGT简述

HGT来自:Heterogeneous Graph Transformer,WWW2020。在处理web-scale的大图时,HGT引入mini-batch采样算法(HGSampling),降低了对显存的要求。

fig1

  • 给定一个web规模的异构图,例如,一个学术网络,HGT只把它的one-hop edge作为输入。使用meta relationship参数化权重矩阵,不同类型的节点和边可以维护其特定的表示空间。

普遍的GNN总是先提取信息,再聚合信息,例如GCN,GAT。目前的一些异质图GNN方法没有充分利用异质图的属性信息,都是为边类型和节点类型单独分配权重矩阵。不同类型的节点数目和不同类型的边数目差别很大,对于那些出现次数不多的关系类型,就很难为它们学习到准确的权重。

fig2

  • 一个异质图的采样子图上的消息传递, t , s 1 , s 2 t,s_{1},s_{2} t,s1,s2分别为目标节点和两个不同的源节点,HGT采用 e 1 , e 2 e_{1},e_{2} e1,e2以及对应的元关系 < τ ( s 1 ) , ϕ ( e 1 ) , τ ( t ) > , < τ ( s 2 ) , ϕ ( e 2 ) , τ ( t ) > <\tau(s_{1}),\phi(e_{1}),\tau(t)>,<\tau(s_{2}),\phi(e_{2}),\tau(t)> <τ(s1),ϕ(e1),τ(t)>,<τ(s2),ϕ(e2),τ(t)>作为输入,为节点学习一个更符合实际的表征 H ( L ) H^{(L)} H(L),该表征可以用于下游任务。HGT包括三个组成部分:1.元关系感知的异构相互注意力,2.源节点传递的异构消息,3.特定于目标节点的异构消息聚合。

HGT用于生物网络建模

作者提出了利用单细胞多组学数据进行生物网络推理的算法架构DeepMAPS。它在一个异构图中对单细胞多组学数据建模,并使用一个 multi-head graph transformer(HGT)在局部和全局上下文中以一种鲁棒的方式学习细胞和基因之间的关系。
fig3

  • a.DeepMAPS 的总体框架。从输入的单细胞多组学数据进行细胞聚类和生物基因网络推断,主要包括五个步骤。b.图自编码器结合 HGT(异构图 transformer) 模型。利用整合后的细胞-基因矩阵构建了包含所有细胞(绿色)和基因(紫色)的异质图。HGT 模型在多个子图(以50个子图为例)上进行训练,尽可能多地覆盖整个图中的节点。每个子图被训练100轮;因此,整个训练过程迭代5000次。然后将训练好的模型应用到整个图中,学习和更新每个节点的嵌入。c.在一个 HGT 层中嵌入目标节点的更新过程。面板中的红色圆圈表示目标节点,黑色圆圈表示源节点。箭头表示目标节点和源节点之间的连接。彩色矩形表示不同节点的嵌入。在底部图的放大详细过程显示信息传递过程和注意力机制。一个 HGT层的最终输出是所有节点的节点嵌入更新。

在DeepMAPS框架中有五个主要步骤:

  • 通过去除低质量细胞和低表达基因对数据进行预处理,然后根据不同的处理时间采用不同的归一化方法。生成一个矩阵来表示每个基因在每个细胞中的活性。不同的scMulti-omics数据类型采用不同的数据整合方法。
  • 从整合后的矩阵构建异构图,以细胞和基因为node,以细胞中是否存在基因为edge。
  • 建立HGT模型,共同学习细胞和基因的低维embedding,并生成注意力分数,表示基因对细胞的重要性。
  • 基于HGT学习嵌入和注意力分数预测细胞聚类和功能基因模块。
  • 在每种细胞类型中推断出不同的生物网络,例如基因调节网络(GRN)和基因关联网络。

作为一个重要的训练结果,注意力分数代表基因对细胞的重要性。一个基因对一个细胞的注意力得分高,意味着该基因在定义细胞特性和表征细胞异质性方面相对重要。这种区分允许在每个细胞簇中构建可靠的基因关联网络,并作为DeepMAPS的最终输出。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/393928.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作系统_Linux_问答_2023_自用

GeeksforGeeks&#xff08;https://www.geeksforgeeks.org/&#xff09;&#xff1a;GeeksforGeeks是一个技术学习平台&#xff0c;它提供了广泛的操作系统知识&#xff0c;包括操作系统概念、进程管理、内存管理、文件系统等内容。IBM Developer&#xff08;https://developer…

代理模式-大话设计模式

一、定义 代理模式的定义&#xff1a;为其他对象提供一种代理以控制对这个对象的访问。在某些情况下&#xff0c;一个对象不适合或者不能直接引用另一个对象&#xff0c;而代理对象可以在客户端和目标对象之间起到中介的作用。 著名的代理模式例子为引用计数&#xff08;英语…

如何基于AI智能视频技术实现公园景区的人流量实时统计?

一、方案背景春暖花开的季节来临&#xff0c;外出旅游的人群也越来越多。无论是景区、公园、博物馆、步行街等场所&#xff0c;客流超载非常大&#xff0c;给游客带来的体验较差&#xff0c;同时也存在安全隐患。当前景区面临的管理痛点包括&#xff1a;客流信息查询难&#xf…

Hadoop3.1.3单机(伪分布式配置)

参考&#xff1a;林子雨老师网站博客 Hadoop安装搭建伪分布式教程&#xff08;全面&#xff09;吐血整理 环境 Vmare12 Ubuntu16.04 创建Hadoop用户 若安装Ubuntu不是用的“hadoop”用户&#xff0c;则需要增加一个名为"hadoop"的用户 直接快捷键ctrlaltt或者点…

【C语言督学训练营 第二天】C语言中的数据类型及标准输入输出

文章目录一、前言二、数据类型1.基本数据类型①.整形②.浮点型③.字符型2.高级数据类型3.数据分类①.常量②.变量三、标准输入输出1.scanf2.printf四、进制转换1.进制转换简介2.十进制转其他进制3.其他进制转换五、OJ网站的使用一、前言 王道2024考研408C语言督学营第二天&…

公安室内射击场设计

公安室内射击场是为了训练和提高警察、特警、部队等职业人士的射击技能而设计的。其设计需要考虑的因素包括安全性、实用性、灵活性、耐久性等多个方面。下面将详细介绍公安室内射击场的设计要点。 首先&#xff0c;安全性是设计公安室内射击场的最重要因素之一。射击场应该具备…

杂记——19.git上传时出现the remote end hung up unexpectedly错误

git是大家常用的项目版本控制工具&#xff0c;熟练地使用git可以提高开发效率&#xff0c;但是有时在使用git推送代码时&#xff0c;会提示“the remote end hung up unexpectedly”的问题&#xff0c;那么git推送代码提示“the remote end hung up unexpectedly”怎么解决呢&a…

Java多线程还不会的进来吧,为你量身打造

&#x1f497;推荐阅读文章&#x1f497; &#x1f338;JavaSE系列&#x1f338;&#x1f449;1️⃣《JavaSE系列教程》&#x1f33a;MySQL系列&#x1f33a;&#x1f449;2️⃣《MySQL系列教程》&#x1f340;JavaWeb系列&#x1f340;&#x1f449;3️⃣《JavaWeb系列教程》…

Anaconda的安装及使用

Anaconda集成了常用的扩展包&#xff0c;能够方便地对这些扩展包进行管理&#xff0c;比如安装和卸载包&#xff0c;这些操作都需要依赖conda。conda是一个在Windows、Mac OS和Linux上运行的开源软件包管理系统和环境管理系统&#xff0c;可以快速地安装、运行和更新软件包及其…

升压模块直流隔离低压转高压稳压电源5v12v24v转50V100V110V150V200V250V400V500V600V800V1000V

特点效率高达80%以上1*2英寸标准封装单电压输出价格低稳压输出工作温度: -40℃~85℃阻燃封装&#xff0c;满足UL94-V0 要求温度特性好可直接焊在PCB 上应用HRB W2~40W 系列模块电源是一种DC-DC升压变换器。该模块电源的输入电压分为&#xff1a;4.5~9V、9~18V、及18~36VDC标准&…

计算机网络--网络基础

目录 一.互联网的组成 ​编辑 1.互联网的边缘部分 1.1客户-服务器方式 1.2对等连接方式 ​编辑 2.互联网的核心部分 2.1电路交换 2.2分组交换 2.3报文交换 二.计算机网络的类别 1.按网络的作用范围进行分类 2.按网络的使用者进行分类 3.用来把用户接入互联…

I.MX6ULL_Linux_系统篇(23) busybox文件系统构建

Linux“三巨头”已经完成了 2 个了&#xff0c;就剩最后一个 rootfs(根文件系统)了&#xff0c;本章我们就来学习一下根文件系统的组成以及如何构建根文件系统。这是 Linux 移植的最后一步&#xff0c;根文件系统构建好以后就意味着我们已经拥有了一个完整的、可以运行的最小系…

零代码工具我推荐Oracle APEX

云原生时代零代码工具我推荐Oracle APEX 国内的低码开发平台我也看了很多&#xff0c;感觉还是不太适合我这个被WEB抛弃的老炮。自从看了Oracle APEX就不打算看其它的了。太强大了&#xff0c;WEB服务器都省了&#xff0c;直接数据库到WEB页面。功能很强大&#xff0c;震撼到我…

快速将小程序生成APP八步走!

在开始之前&#xff0c;让我们一起来了解一下Finclip吧&#xff01; Finclip是凡泰极客公司研发的一款在开发体验、学习门槛、应用场景、生态能力等方面都体现巨大优势的小程序容器。不论是移动APP&#xff0c;还是电脑、电视、车载主机等设备&#xff0c;在集成Finclip小程序…

代码随想录算法训练营day52 | 动态规划之子序列 300.最长递增子序列 674. 最长连续递增序列 718. 最长重复子数组

day52300.最长递增子序列1.dp[i]的定义2.状态转移方程3.dp[i]的初始化4.确定遍历顺序5.举例推导dp数组674. 最长连续递增序列1.确定dp数组&#xff08;dp table&#xff09;以及下标的含义2.确定递推公式3.dp数组如何初始化4.确定遍历顺序5.举例推导dp数组718. 最长重复子数组1…

Linux驱动交叉编译把驱动文件放入开发板,以及printk函数打印级别

上一篇介绍了一个最简单的驱动程序和驱动程序大体结构&#xff0c;但那还是用本地编译只能在Ubuntu上运行&#xff0c;我们该怎么编译一个能加载到开发板上呢&#xff0c;就需要交叉编译&#xff0c;交叉编译通常都是在嵌入式开发中使用到的。 交叉编译 理解交叉编译前先了解…

TypeScirpt 入门与实战 学习笔记

文章目录求一键三连前言了解TS的前世今生基本实现数据类型枚举类型 enum&#xff08;用的少&#xff09;顶端类型&#xff08;通用类型&#xff09;anyunknown对比never数组只读 &#xff1a;readonly元组 类型objectObject和Object&#xff08;&#xff09;区分命名空间&#…

论文阅读 :Masked Autoencoders As Spatiotemporal Learners

NeurIPS2022——Masked Autoencoders As Spatiotemporal Learners Keywords&#xff1a; Videos&#xff1b;object detection&#xff1b; 文章目录NeurIPS2022——Masked Autoencoders As Spatiotemporal Learners研究动机本文贡献Introduction & Related work整体架构&…

redis进阶:mysql,redis双写一致性,数据库更新后再删除缓存就够了吗?

0. 引言 最近线上的一个状态修改功能出现了问题&#xff0c;一开始是运营找了过来&#xff0c;运营告知某条数据的状态已经开启了的&#xff0c;但是实际使用起来还是没有生效&#xff0c;于是拿到这个问题后&#xff0c;首先就去数据库查了这条数据&#xff0c;发现确实如他所…

深入了解字典树

字典树&#xff08;Trie&#xff09; 目录字典树&#xff08;Trie&#xff09;一、问题引入二、字典树介绍3、字典树的实现4、存储与查询一、问题引入 现有长度为n的字符串数组&#xff0c;[“go”&#xff0c;“goog”&#xff0c;“google”&#xff0c;“golang”&#xff0…