精准医疗、空间组学、细胞图谱,腾讯AI Lab用深度学习助力生命科学研究

news2024/9/25 15:27:36

近日,腾讯 AI Lab 三项研究分别入选国际顶级学术期刊 Nature Methods 和 Nature Communications,再次展示了在生命科学前沿领域上国际领先的技术实力。

这三项研究成果都属于生物细胞研究中的空间组学技术,对于推动精准医疗、细胞图谱绘制、人类生命健康等领域的研究具有重要意义。

细胞是生命的基本单位,但当前人类对细胞的认知有限。空间组学技术的出现和发展,让我们可以获取细胞在时间和空间维度上的基因表达模式以及细胞之间交互的情况,从高精度的分子层面去理解器官和组织的功能,这对于理解细胞生物学,发育生物学,神经生物学,肿瘤生物学等的关键信息至关重要,可以填补组织和器官水平上位置与功能关系研究的空白。

空间组学技术高通量转录组测序单细胞测序等技术的升级,它通过在细胞分析中,增加「空间」这一重要的信息维度,使得研究员可以从更全局、立体、精细地认识生物系统的运行规律。

近年来,通过深度学习等人工智能技术的引入,空间组学技术领域不断迎来新的突破,本次腾讯 AI lab 的三项成果,分别从细胞类型注释微环境建模以及数据库三个方面重点突破,并在准确率数据规模以及方法创新性上均展示了超出业界标准的水平,推动国际学术社区和相关研究的发展。

它们分别是:

  • 一种基于迁移学习和空间嵌入的空间转录组细胞类型注释方法 Spatial-ID

  • 一种利用空间组学数据进行微环境建模的通用方法 SOTIP 

  • 一个目前业界最大规模(超过5000万个细胞)、最多种类(26种)的空间组学数据库

在空间组学相关技术上,腾讯 AI Lab 的核心攻坚方向和优势在于 AI 算法研究,长期以来,腾讯 AI Lab 与业内知名研究所和医院广泛合作,实现在生命科学的研究和临床场景中落地,具体应用包括建立细胞图谱,尤其是灵长类大脑图谱,促进脑科学的研究。

临床方面,腾讯 AI Lab 将通过空间组学研究肿瘤的微环境和发展轨迹,助力推进有针对性的精准医疗。

腾讯在医疗及生命科学领域已有多项探索。2022年, 腾讯 AI Lab 联合北京协和医院,共同发布了便携式智能化手术导航系统,临床初步应用取得成功。此外,实验室创新性地提出关于单细胞注释的 scBERT 算法,成果发表于国际顶级学术期刊《Nature Machine Intelligence》杂志。

Nature Methods 是 Nature(《自然》)系列期刊中的关注前沿科学研究的期刊,每年评选生命科学领域的年度方法,2022 年期刊影响因子 47.99,在生物研究方法领域排名第一。Nature Communications 是 Nature(《自然》)系列期刊中的综合类子刊,专门收录来自于自然科学各个领域的高质量研究成果,2022 年期刊影响因子 17.69,在综合类期刊中位列第三

三项研究详解

研究1:一种基于迁移学习和空间嵌入的空间转录组细胞类型注释方法 Spatial-ID

英文标题:Spatial-ID: a cell typing method for spatially resolved transcriptomics via transfer learning and spatial embedding.

论文链接:https://www.nature.com/articles/s41467-022-35288-0)

该研究利用了单细胞转录组中细胞类型的细胞表达谱信息作为参考知识,并采用图神经网络的算法描绘空间转录组中细胞的空间位置关系,提供了一种快速的空间转录组细胞类型注释方法。

图1:Spatial-ID 算法流程

迁移学习可从已有的单细胞转录组数据集迁移单细胞表达谱知识。空间信息嵌入则利用细胞在空间背景下与相邻细胞之间的可能存在的交互关系或共表达模式,提升细胞类型识别的准确性。

从结果上看,在四个不同的空间转录组公开数据集(两个鼠脑数据集,一个鼠脑生殖细胞数据集,一个人类非小细胞肿瘤数据集)上开展基准测试,与现有 8 种 SOTA 方法(Seurat, SingleR, Scmap, Cell-ID, ScNym, SciBet, Tangram, Cell2location)进行性能对比。

Spatial-ID 在 4 个数据集上分别取得了 92.75%,87.74%,60.45%和 69.76% 的准确性,均显著地优于 SOTA 方法;尤其是在小鼠下丘脑视前区的三维空间转录组数据集上,与最佳的 SOTA 方法对比,Spatial-ID 的细胞类型注释平均准确性提升了约 6.5%。

图2:小鼠下丘脑视前区的三维空间转录组数据集基准测试结果

另外,Spatial-ID 还提供了新细胞类别发现的流程,发现参考数据集中没有的细胞类型。

据论文作者介绍,基于空间转录组的细胞类型注释对单个细胞中基因的特异性表达和细胞所处空间微环境展开研究,系统性地分类组织中的细胞类型,并统一描绘每一种细胞类型的分子特征以及它们在组织内的位置,这将改变我们对生物学和疾病的理解,并可能带来疾病诊断和治疗方式的重大突破。

未来,Spatial-ID 空间转录组细胞注释算法,可以为大规模空间转录组测序数据进行细胞类型注释,致力于构建大规模的组织细胞图谱,例如全鼠脑/猴脑的空间转录组细胞图谱。

研究2:一种利用空间组学数据进行微环境建模的通用方法 SOTIP

英文标题:SOTIP is a versatile method for microenvironment modeling with spatial omics data

论文链接:https://www.nature.com/articles/s41467-022-34867-5

该研究利用人工智能领域的最优传输理论,同时结合细胞在物理空间和状态空间的连续性,对微环境进行建模。

其亮点在于,通过构建微环境之间的相互关系网络,将细胞分子表达谱的低维流形与空间局部拓扑特征联系起来,达到多个重要计算任务的同时分析,包括微环境异质性定量、空间域识别及差异微环境分析。

SOTIP 在多种空间转录组、蛋白组和代谢组数据的测试中展现出较好的准确性、稳定性和鲁棒性。

在空间异质性定量方面,SOTIP 在亚细胞层面上精准勾画了肿瘤细胞核膜和内质网膜的轮廓 (AUC=0.85);在组织层面上识别了肿瘤和正常肌肉组织的边界(Spearman系数=0.847)。

在空间域识别方面,SOTIP 在多种空间蛋白组和转录组数据中呈现出较高的准确性,精确识别不同脑区及肿瘤结构,在人类脑区识别中达到了 0.58 的 ARI,效果优于 BayesSpace、SpaGCN、STAGATE 等经典算法,并能适用于三维空间数据。

在差异微环境分析方面,SOTIP 利用识别出的微环境发现了三阴性乳腺癌的两种亚型,在 34 个病人队列中有着显著不同的预后(显著性p value=9.2*10^-6)。

SOTIP 的两大应用场景是脑科学研究和肿瘤。

脑科学研究中的一大挑战是研究不同神经细胞类型之间、脑功能区之间、及神经细胞与功能区之间的相互作用关系。SOTIP 可以无需任何人工干预地、准确识别大脑中不同功能性空间域,为大规模脑图谱的构建建立基础。

肿瘤最重要的细胞类型是免疫细胞和肿瘤细胞,它们之间的空间临近关系和相互作用构筑了复杂的肿瘤微环境。在临床诊断方面,许多疾病的分型无法通过免疫细胞和肿瘤细胞的各亚类的数量比例完成,SOTIP 前景是可以从微环境层面而不单单是细胞层面,识别不同肿瘤亚类的标志性微环境,从而对病人进行针对性治疗。

研究3:目前业界最大规模(超过5000万个细胞)、最多种类(26种)的空间组学数据库

英文标题:SODB facilitates comprehensive exploration of spatial omics data

论文链接:https://www.nature.com/articles/s41592-023-01773-7

对于生物学家来说,新的生物学和病理学发现理应用不同的技术和分子组学来验证,减少科学发现中的假阳性。将各种空间组学数据集中在一起并进行逻辑管理,使研究员可以根据需要快速搜索、定位和获取多模态数据,从而充分利用已发布的数据,避免一些不必要的生物实验。

从生物信息学家的角度来看,SODB 可以支持许多计算方法的 benchmark数据需求,让方法开发人员只需专注于计算模型本身。 

该数据库提供了目前业界最大规模(超过 5000 万个细胞)、最多种类(26 种空间组学技术)的空间组学数据,所有数据均由标准流程处理为 Anndata 形式(空间组学业界标准格式)。并提供了多种数据分析和新型可视化模块,快速地对整个组织进行可视化并识别组织区域。

此外,还提供了配套 Python 工具包 pysodb,仅用一行代码可以方便的读取数据,时间效率比传统方式提升 160 倍(以 Slide-seq 数据为例,传统方法读取需要 19.04 分钟,pysodb 仅需 7.16 秒)。

目前,该数据库的数据开放给所有人:

数据集:https://gene.ai.tencent.com/SpatialOmics/

Python包:https://github.com/TencentAILabHealthcare/pysodb

参考链接:

1. Shen, R., Liu, L., Wu, Z. et al. Spatial-ID: a cell typing method for spatially resolved transcriptomics via transfer learning and spatial embedding. Nat Commun 13, 7640 (2022). https://doi.org/10.1038/s41467-022-35288-0

2. Yuan, Z., Li, Y., Shi, M. et al. SOTIP is a versatile method for microenvironment modeling with spatial omics data. Nat Commun 13, 7330 (2022). https://doi.org/10.1038/s41467-022-34867-5

3. Yuan, Z., Pan, W., Zhao, X., et al. SODB facilitates comprehensive exploration of spatial omics data. Nat Methods (2023). https://doi.org/10.1038/s41592-023-01773-7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/657554.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

lua自动回收机制gc的理解

gc主要回收哪些垃圾? 在 Lua 中,垃圾回收(garbage collection,简称 GC)机制主要用于回收动态分配的内存和关闭未关闭的文件句柄。具体来说,Lua 的 GC 机制主要用于回收以下类型的垃圾: 对象&am…

力扣日记剑指 Offer II 003

1. 题目 LeetCode 剑指 Offer II 003. 前 n 个数字二进制中 1 的个数 1.1 题意 计算 0 到 n 之间的每个数的二进制表示中 1 的个数 1.2 分析 看时间复杂度,O(32n)应该能过(也就是每个数一位一位去数1的个数),知道low-bit这个运…

插入排序代码

时间复杂度O(n)

开源中文医疗大模型

中文医疗大模型 中文医疗大模型是指通过利用自然语言处理技术和机器学习算法,在大量的医疗文本数据中预训练出来的模型。它可以实现对医疗信息的分类、摘要、问答系统、机器翻译等功能,是医疗行业中的重要工具。在医疗领域中,大规模语言模型&…

答应我,不会回答这五个问题,不要去面试好吗?

1、创建坐席组的功能模块,如何进行测试用例设计? 解答: 功能测试,使用等价类划分法去分析创建坐席的每个输入项的有效及无效类,同步考虑边界值去设计对应的测试用例: 先进行冒烟测试,正常创建…

CSS基础学习--17 布局 - 水平 垂直对齐

一、元素居中对齐 要水平居中对齐一个元素(如 <div>), 可以使用 margin: auto;。设置到元素的宽度将防止它溢出到容器的边缘。元素通过指定宽度&#xff0c;并将两边的空外边距平均分配&#xff1a; <!DOCTYPE html> <html> <head> <meta charset&q…

关于sub-gaussian 和 sub-exponential随机变量的集中不等式

Concentration inequalities under sub-Gaussian and sub-exponential conditions sub-guassian范数和sub-exponential范数&#xff1a; 如果 f k ( X ) f_{k}(X) fk​(X)为sub-gaussian随机变量&#xff0c;则有如下的定理&#xff1a; 应用&#xff1a; 1.向量值集中 2.…

Apache Doris 冷热分层技术如何实现存储成本降低 70%?|新版本特性

在数据分析的实际场景中&#xff0c;冷热数据往往面临着不同的查询频次及响应速度要求。例如在电商订单场景中&#xff0c;用户经常访问近 6 个月的订单&#xff0c;时间较久远的订单访问次数非常少&#xff1b;在行为分析场景中&#xff0c;需支持近期流量数据的高频查询且时效…

mysql索引优化系列(一)

一、不常见的索引失效场景 1、举例 还是之前的member会员记录表&#xff0c;往里面插入十万条数据 drop procedure if exists insert_emp; CREATE PROCEDURE insert_emp () BEGINDECLAREi INT;SET i 1;WHILE( i < 100000 ) DOINSERT INTO member ( NAME, age, address, …

【LeetCode热题100】打卡第24天:单词搜索

文章目录 单词搜索⛅前言&#x1f512;题目&#x1f511;题解 单词搜索 ⛅前言 大家好&#xff0c;我是知识汲取者&#xff0c;欢迎来到我的LeetCode热题100刷题专栏&#xff01; 精选 100 道力扣&#xff08;LeetCode&#xff09;上最热门的题目&#xff0c;适合初识算法与数…

使用花生壳进行内网穿透实验SQLServer

使用的是体验版&#xff0c;进行实验足够了 &#xff08;1&#xff09;输入花生壳帐号密码登录花生壳管理平台&#xff0c;在【内网穿透】界面点击添加映射&#xff1b; &#xff08;2&#xff09;接着需要填写映射ERP服务器的相关内容&#xff1a;①应用类型&#xff1a;ERP系…

【论文系列解读】StableDiff总结

1. diffusion (0) 总结 可以参考此处&#xff1a;https://blog.csdn.net/weixin_40920183/article/details/130652651 https://zhuanlan.zhihu.com/p/599887666 总的来说&#xff0c;diffusion就是分为训练和采样两个阶段。 &#xff08;A&#xff09;训练阶段&#xff1a…

spring boot security快速使用示例

创建spring boot项目 生成脚手架 登录 https://start.spring.io/ 快速创建一个spring boot脚手架的demo&#xff1a; 配置依赖 因为本地依赖的原因&#xff0c;所以更换了spring boot版本为&#xff1a;2.6.11 <parent><groupId>org.springframework.boot<…

GC垃圾回收

GC垃圾回收 了解什么是垃圾回收掌握垃圾会回收的常见算法学习串行、并行、并发、G1垃圾收集器学习GC日志的可视化查看 1.什么是垃圾回收&#xff1f; 程序的运行必然需要申请内存资源&#xff0c;无效的对象资源如果不及时处理就会一直占有内存资源&#xff0c;最终将导致内…

设计模式(二十一):行为型之访问者模式

设计模式系列文章 设计模式(一)&#xff1a;创建型之单例模式 设计模式(二、三)&#xff1a;创建型之工厂方法和抽象工厂模式 设计模式(四)&#xff1a;创建型之原型模式 设计模式(五)&#xff1a;创建型之建造者模式 设计模式(六)&#xff1a;结构型之代理模式 设计模式…

Debian openssh-server 的安装

在之前安装系统的时候有一个安装 SSH 服务的&#xff0c;结果没点上&#xff0c;导致系统完成后&#xff0c;ssh无法连接上啊&#xff0c;于是要安装sshd 服务。使用命令&#xff1a;apt-get install openssh-server 结果就出现问题了&#xff1a; 网上搜索说是要更新源&#x…

004 maven 插件默认的

Maven – Guide to Configuring Plug-inshttps://maven.apache.org/guides/mini/guide-configuring-plugins.html 默认插件 参数 Apache Maven Compiler Plugin – compiler:compilehttps://maven.apache.org/plugins/maven-compiler-plugin/compile-mojo.html#forceJavacCom…

MATLAB读取OpenFOAM的二进制文件

OpenFOAM的文件格式 上面是OpenFOAM二进制文件的格式&#xff0c;我们可以看出&#xff0c;前面21行都是无关的说明文件&#xff0c;22开始时除了一个括号之外&#xff0c;其它的都是数据。 读取数据 读取数据的思路非常简单&#xff0c;忽略不需要的&#xff0c;读取需要的。…

第七十七天学习记录:高等数学:定积分应用(宋浩板书)

定积分是微积分的一种应用&#xff0c;通过定积分可以求出曲线下面的面积、弧长、质心、转动惯量等一系列物理量。以下是定积分的一些常见应用&#xff1a; 曲线下面的面积&#xff1a;定积分可以用于求曲线下面的面积。举个例子&#xff0c;如果想要求函数f(x) x^2在区间[0,1…

VFC芯片结构及其工作原理

&#xff08;二&#xff09; VFC芯片结构及其工作原理 1&#xff0e;VFC芯片 AD654的结构 AD654芯片是一个单片VFC变换芯片&#xff0c;中心频率为250kHZ。它是由阻抗变换器A、压控振荡器和一个驱动输出级回路构成&#xff0c;其内部结构见图1&#xff0d;15&#xff08;a入压…