人工智能辅助药物发现(1)肿瘤靶点识别

news2024/11/25 18:29:54

目录

  • 基于AI的靶点识别概述
  • 肿瘤建模
    • 肿瘤转录组
      • 转录组异质性
      • 单细胞转录组数据分析
    • 单细胞表观肿瘤模型
      • 肿瘤中的表观遗传模型
      • 基于甲基化测序技术的肿瘤表观遗传模型
      • 基于染色质可及性的肿瘤表观遗传模型
    • 多模态肿瘤建模
  • 靶点识别
    • 基于单细胞RNA的靶点发现
    • 基于表观的靶点发现
    • 基于多组学的靶点发现
  • 总结

基于AI的靶点识别概述

肿瘤药物研发是AIDD的应用场景,前提是靶点识别,早期靶点识别以肿瘤细胞的高变基因的致癌蛋白为主,筛选药物靶向这些蛋白。经过长时间的临床测试,发现这种方案覆盖的患者群体很有限。飞速发展的组学测量技术为发现新靶点带来希望。

  • 组学通常指生物学中对各类研究对象(一般为生物分子)的集合所进行的系统性研究,比如基因组,蛋白质组,转录组等。
  • 传统的批量组学技术(bulk)是以个体为研究对象,将待测生物样本中所有细胞混合在一起进行分子测定,只能反映两个肿瘤样本个体间的差异。
  • 现在的单细胞组学技术是对肿瘤样本中每个细胞进行分子的含量测量,全面刻画肿瘤细胞间以及肿瘤免疫微环境的异质性,为发现新的肿瘤靶点提供了更详细的方案。

随着测量技术的普及,肿瘤细胞的批量组学和单细胞组学数据都在快速积累。但是这些组学数据都有一个共同挑战:维度高,噪声大,数据类型多样等特点。

肿瘤建模

肿瘤转录组

转录组异质性

癌症的普遍特点是转录失调。在细胞内部,调节网络由一组连接的途径组成,其中途径是细胞中发生的化学反应链,通路是基因的集合,这些基因相互作用可以实现特定的细胞功能。为了使细胞正常运作,通路基因的表达水平需要得到控制。

  • 正常细胞和癌细胞存在很多差异表达的基因,癌细胞中的异常表达能通过抑制或刺激途径使途径失调,这可能会影响细胞的增殖能力,这种转录组上的差异即为癌症中的转录组异质性

转录组指的是细胞内所有转录产物的集合,包括信使RNA,核糖体RNA,转运RNA,非编码RNA。

转录组异质性在癌细胞中非常明显,这源于DNA拷贝的异常,细胞所处环境的刺激,基因相互作用混乱等(对于基因组相同的细胞,由于上述原因导致表现出不同的转录状态)。从转录层面看,癌症是一种细胞调节网络混乱的疾病,因此转录组的研究可以更好探索癌细胞。单细胞RNA测序可以绘制细胞的转录图谱,清晰展现细胞的转录特点

近年来,单细胞RNA测序(scRNA-seq)得到广泛应用,使得我们在单细胞水平研究转录组。2009年首次出现scRNA-seq方法,随后出现测量技术的改进,比如Drop-seq,Seq-Well,DroNC-seq,SPLiT-seq等。其中,基于液滴的技术(Drop-seq,InDrop,Chromium)可以提供更大的细胞通量,而且与全转录scRNA-seq相比,测量成本更低,因此更被推荐。另外,商业化技术以10xGenomics为主。

单细胞转录组数据分析

质量控制:scRNA-seq数据技术噪声水平高,破损,死亡或与多个细胞混合的细胞中会生成低质量数据,这些低质量数据阻碍下游分析,因此,需要质量控制。

批次校正:测序过程中的操作差异,平台差异,测序方法差异等会引入系统误差,导致一个批次的基因表达谱与另一个批次的基因表达谱存在系统误差,这种批次差异可能会掩盖真实的生物学差异,导致分析错误,因此需要批次校正。现在广泛使用的批次校正方法为Harmony,LIGER,Seurat v3。

插补去噪:scRNA-seq数据包含许多由于原始RNA扩增失败导致的dropouts,因此需要插补算法进行去噪:SAVER,MAGIC,ScImpute,DrImpute,AutoImpute。其中,SAVER利用基于UMI的scRNA-seq恢复所有基因的表达,MAGIC构建基于马尔可夫亲和度的基因表达图来计算基因表达,ScImpute利用类似细胞中dropout影响较小的相同基因信息,恢复dropout值。

降维:由于数据是高维的,我们需要降维和特征提取算法进一步分析数据。主流降维算法分为:基于矩阵分解,基于图,基于神经网络。分别对应常用的三类方法:PCA,t-SNE,UMAP。PCA是最常用的线性降维方法。t-SNE根据在邻域图上随机游走的概率分布在数据中找到结构关系。UMAP是基于k-近邻使用随机梯度下降优化的结果。

单细胞表观肿瘤模型

肿瘤中的表观遗传模型

染色质结构定义了DNA形式的遗传信息在细胞内的状态,基因组的结构影响着基因被激活或沉默的能力。表观遗传学被定义为:基因及其产物之间的因果相互作用,从而导致表型的形成,涉及到理解染色质结构及其对基因功能的影响。现代表观遗传学研究独立于原始DNA序列变化而发生的基因表达的可遗传变化。

这些可遗传的变化大部分在分化过程中建立,并在细胞分裂的多个周期中维持,使细胞在包含相同遗传信息的同时具有不同的身份。这是由表观遗传修饰决定的,包括DNA中胞嘧啶碱基的甲基化,组蛋白的翻译后修饰,核小体沿DNA的定位。这些修饰的补充,统称为表观基因组。如果不能正确维护可遗传的表观遗传标记,可能导致各种信号通路的不适当激活或抑制,导致癌症等疾病。

与基因突变不同,表观遗传畸变具有潜在可逆性,因此可以通过找到表观遗传层面肿瘤的靶点信息,治疗患者,使癌细胞恢复正常。第二代测序技术的进步,推动了表观遗传学的发展。例如:

  • ChIP-seq技术可以绘制组蛋白修饰和转录因子结合的全基因组图谱。
  • 利用ATAC-seq可以测定染色质可及性。
  • Hi-C可以确定高阶染色质结构。
  • DNA甲基化可以通过RRBS,WGBS或基于阵列的技术来确定。

生物表观遗传辅助诊前景广阔,但当前生物表观遗传辅助诊断面临许多挑战,比如数据分布广泛,模态多。我们希望借助机器学习技术集成大型数据,推动诊断的发展,帮助医生进一步解析数据。

基于甲基化测序技术的肿瘤表观遗传模型

基因甲基化使表观遗传的主要形式,同癌症的发生与发展有重要联系。DNA甲基化代表基因组的直接修饰,并调控基因表达。相比正常细胞,癌细胞的基因甲基化水平显著下降,这是癌细胞基因调控失衡的重要原因。

对于正常组织,细胞通过基因甲基化实现表达调控,当相关基因调控区的CpG岛大量发生甲基化时,会阻止该基因表达(即沉默)。DNA甲基化导致基因沉默的机制大致分三种:

  • DNA甲基化干扰转录因子对DNA元件的识别与结合;
  • 序列特异性的甲基化DNA结合蛋白与启动子区甲基化CpG岛结合,形成转录抑制复合物,阻止转录因子与启动子区的结合;
  • DNA甲基化改变染色质结构,使染色质更加紧密,影响转录因子与DNA结合。

mSEPT9基因甲基化是结直肠癌的生物标记物,mSEPT9基因编码的SEPT9蛋白在细胞代谢中发挥作用。SEPT9蛋白可阻止细胞过快分裂,具有抑癌作用。当SEPT9启动子区域甲基化时,SEPT9蛋白停止表达,导致上皮细胞癌变,发展为结直肠癌。


基因甲基化靶点的发现依赖算法,关键在于从噪声数据中识别出同癌症发生相关度高的基因甲基化信号,存在下面挑战:

  • 基因甲基化数据混合了各癌症克隆亚型以及正常细胞型的甲基化信号;
  • 单一基因的表达静默或开启存在多种甲基化模式;
  • 数据维度高,样本量有限;

机器学习在表观遗传领域通常是建立一个模型,准确预测给定样本的类别信息,例如从矩阵数据中区分正常与癌症样本。

针对高维数据挑战,现有工作从特征排序+特征选择特征融合三种思路进行降维。特征排序通过假设检验检测特征与标签的关联,并对特征的重要度进行排名。例如T检验计算P值来衡量零假设,即潜在假设是患者样本和对照组样本都符合正态分布。Wilcoxon检验评估两个分布之间的差异,其作为T检验的替代。特征选择建立在特征排序基础上,并考虑筛选特征。特征融合将多特征融合为单特征,以降低特征数量。

基于染色质可及性的肿瘤表观遗传模型

单细胞染色质可及性是在单细胞水平检测基因所在染色体是否处于开放状态:处于染色质开放状态的基因可被转录并表达,处于染色质闭合状态的基因会沉默。ATAC通常与DNA甲基化相关。相比甲基化测序,ATAC提供了更直接和确定的观测。

相比scRNA-seq,scATAC-seq分析更困难:

  • scATAC-seq高度稀疏,当前scATAC-seq测序技术仅能覆盖1%的基因组,此外,测量信号微弱,仅能测量极少数染色质的打开基因。
  • 研究浅薄,数据库极度缺乏。
  • 数据维度更高,scRNA-seq侧重于测量蛋白编码基因的RNA表达量,大约3万。scATAC-seq不局限于测量蛋白编码基因区间的染色质开合状态,测量范围包括全基因组。

多模态肿瘤建模

多组学分析,是指同时在多种不同的生物分子层面对研究对象进行分析,通过将基因组,表观组,转录组,蛋白组,代谢组等不同模态的分子数据整合,揭示更丰富的生物规律。单细胞多模态技术将肿瘤多组学分析的分辨率提高到细胞水平。

癌症多组学模型从信息整合方式上来看分为早期整合,中期整合,后期整合。见下图。最常用的是中期整合,它避免了早期整合的维度不匹配或样本不匹配问题,以及避免了后期整合的整合前分析信息不完备问题。
fig1
AI在单细胞多组学领域的应用场景分两种:

  • 第一种场景是不同组学的测量对象(细胞)不匹配。通常,假设每种组学测量的细胞来自同一个分布。
  • 第二种场景是不同组学的测量对象是同一批细胞。

靶点识别

基于单细胞RNA的靶点发现

以RNA失调作为肿瘤治疗的入口,寻找新的免疫治疗靶点成为肿瘤研究的热点,对不同RNA亚型以及参与RNA加工的蛋白质促成癌症的机制发现,为治疗癌症带来机遇。比如circRNA在癌症中过度表达展示了其作为疾病生物标志物的潜力。

转录组可用于肿瘤及免疫细胞的亚群分析,为肿瘤发展,免疫逃逸和耐药性研究提供全面信息。转录组层面的亚群分析可以提供亚群独特的蛋白等标志物,进而针对特定肿瘤亚群,免疫抑制性细胞亚群指定靶点药物。

从转录组出发的肿瘤细胞之间的相互作用研究也有望提供靶点。当前细胞间通信的识别方法有两种:

  • 依赖于一种细胞类型中受体基因与另一种细胞类型中相应配体基因的表达水平比较。CellPhoneDB方法首先计算一种细胞类型中受体基因的平均表达和另一种细胞类型中配体基因的平均表达,然后通过基于图的方法生成零分布,以评估统计显著性。
  • 计算一种细胞类型的受体基因表达与另一种细胞类型中相应配体基因表达在所有scRNA-seq数据集中的相关性识别特定的通信。

基于表观的靶点发现

表观调控异常是肿瘤细胞恶化的原因。从表观调控异常信号中搜索癌症的生物标记物具有广阔的临床应用前景,可用于开发能逆转肿瘤表观遗传异常的药物,抑制癌细胞增殖。

基于表观组学分析的人工智能方法可用于癌症亚型分类,协助指定个性化临床治疗方案。另一种用途是肿瘤-健康细胞差异分析和靶点识别。

基于多组学的靶点发现

肿瘤的发生是自身异常基因突变积累(内因)与免疫系统失衡(外因)共同导致的。因此,肿瘤治疗有两种思路:

  • 针对肿瘤细胞的异常特征识别出可以直接作用于肿瘤细胞的靶点。
  • 根据肿瘤免疫微环境的特点,识别作用于免疫细胞的靶点,从而提升免疫细胞对肿瘤的抑制效果。

其中,第二种方法即2018年获得诺贝尔奖的免疫疗法:利用患者自身免疫系统来预防,控制和消除癌症。免疫系统本身具备识别并消灭肿瘤细胞的功能,然而在肿瘤不断演化的过程中,肿瘤细胞学会了避开免疫系统的杀伤,从而产生免疫逃逸。

充分解析肿瘤免疫微环境,是发现免疫靶点的重要基础和前提。研究表明,肿瘤微环境会将T细胞长期暴露于抗原的持续慢性刺激下,使得T细胞丧失效应功能。T细胞失活导致细胞状态改变,在表观组,转录组和代谢组等方面均会体现异常。

目前,人们对肿瘤免疫微环境的了解有限,充分了解微环境的细胞构成,认识每种细胞类型在肿瘤发生过程中的作用,有望提升现有的免疫疗法水平。

AI在解构微环境上具有潜力。北京大学对肺癌免疫微环境中的T细胞群体进行了多模态分析,发现除肿瘤相关的CD8 T细胞呈现耗竭状态外,还有两种细胞呈现耗竭状态,并识别出对应的基因标志。

总结

AI结合单细胞数据,可以辅助靶点识别,从而进行药物筛选。此外,单细胞组学可细致刻画药物临床实验中的实验组和对照组在不同分子层面的差异,辅助判定药物的有效性,揭示药物作用机制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/169165.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

点击化学交联剂N3-SS-N3,叠氮-二硫键-叠氮简介,CAS:352305-38-5

英文名称:Azidoethyl-SS-ethylazide N3-SS-N3 N3-S-S-N3 化学式:C4H8N6S2 分子量:204.3 CAS:352305-38-5 存储条件:-20C,避光,避湿 用 途:仅供科研实验使用,不用于…

《Buildozer打包实战指南》第四节 正式打包一个apk文件

目录 4.1 了解buildozer.spec配置文件中的常用参数 4.2 修改配置文件打包apk 在上一节内容中,我们配置好了打包环境,还顺带成功打包出了一个apk文件(读者可以把这个apk安装到手机上运行)。不过在打包这个apk前,我们没…

Unity学习笔记--如何在Unity运行cmd?并且在Unity中利用cmd操作svn(例如生成svn--diff文件)

目录前言需求拆分解决方案实操前言 最近工作有一个需求,简单来说是在 Unity 里面动态获取 SVN diff 的数据,并且针对这些 diff 文件做对应操作 需求拆分 我们首先拆分下需求 Unity里面获取 SVN 的 diff 文件针对生成的 diff 文件做解析,找…

Qt 视频播放

一、简介Qt对音视频的播放和控制,相机拍照,收音机等多媒体应用提供了强大的支持。Qt5使用了全新的Qt Multimedia模块来实现多媒体应用,而原来Qt4中用于实现多媒体功能的Phonon模块已经被移除。新的Qt Multimedia模块提供了丰富的接口&#xf…

【从零开始学习深度学习】50.Pytorch_NLP项目实战:卷积神经网络textCNN在文本情感分类的运用

在之前介绍的“卷积神经网络”中我们探究了如何使用二维卷积神经网络来处理二维图像数据。在语言模型和文本分类任务中,我们将文本数据看作是只有一个维度的时间序列,并很自然地使用循环神经网络来表征这样的数据。其实,我们也可以将文本当作…

安装 MySQL

1.下载安装文件 访问MySQL官网下载安装文件。 如下图所示,点击页面中的“DOWNLOAD”按钮。 点击下载之后自动进行下载。下载到本地的文件名称为:mysql-8.0.31-winx64.zip 2.解压安装文件 将压缩文件解压到你安装的目录,比如:F:…

数据结构与算法笔记

0 核心框架汇总 框架思维 数据结构的存储方式只有两种:数组(顺序存储)和链表(链式存储) 算法 数学中的算法重在推导,计算机中的算法重在穷举 计算机算法的本质特点: 穷举 穷举有两个关键难点…

Linux环境 java应用问题排查

0)查看CPU占用高的进程PID top -d 1 或 top -H 注: top -d 1 中的 1 是数字:1,不是字母 :l 。 1)查看内存使用情况(memory-info.log为具体文件路径) jmap -heap PID > memory-i…

某程序员跳槽涨薪50%!网友:不合理~

在IT届,有个传闻,跳槽就是程序猿涨工资最好的方式。大家认为程序员跳槽要求涨薪50%合理吗?有人说:凭本事涨的为啥不合理!01程序员跳槽要求涨薪50%过分吗?在知乎上看到这样一个帖子,有人提问“程…

CANoe 15版本中CAPL代码自动补全功能的小Bug

最近在使用CANoe 15版本的软件编写CAPL脚本时,遇到了一些小的困扰,记录下来分享给大家! 当我在capl函数中要传入两个参数时,除了逗号隔开两个参数外,还希望有一个空格能进一步拉开两个参数的距离,增加代码的可读性 但是,传入第一个参数后,输入逗号,此时capl的自动补…

IP 网络主动监测系统 Renix Active

一、IT网络运维面临的挑战​ 1.网络性能可视化​ • 与公有云和SaaS平台连接的可靠性​ • 广域网线路性能​ • 互联网专线性能​ 2.诊断工具​ • 现场无IT工程师覆盖​ • 诊断的人力费用​ • 网络与应用系统的纠结​ 3.用户体验​ • Web应用的访问质量​ • 语…

C++设计模式(2)——工厂方法模式

亦称: 虚拟构造函数、Virtual Constructor、Factory Method 意图 工厂方法模式是一种创建型设计模式, 其在父类中提供一个创建对象的方法, 允许子类决定实例化对象的类型。 问题 假设你正在开发一款物流管理应用。 最初版本只能处理卡车…

单目标应用:蜣螂优化算法DBO与麻雀搜索算法SSA求解无人机三维航迹规划(提供Matlab代码)

一、无人机三维航迹规划 三维航迹规划是无人机在执行任务过程中的非常关键的环节,三维航迹规划的主要目的是在满足任务需求和自主飞行约束的基础上,计算出发点和目标点之间的最佳航路。 1.1路径最短约束 无人机航迹规划的首要目标是寻找起飞点和目标点…

一文搞定visual studio code远程服务器的配置和文件上传

在跑大型程序的时候需要用到服务器,因此如何远程操作服务器就至关重要了。 很多教程教如何使用putty来操作,但是我的安装时候就出现错误了。再加上我用的visual studio code提供远程服务器控制以及文件传输功能。 因此我就使用vscode来配置相应的环境并…

Unity学习笔记--FixedUpdate真的是固定时间调用一次吗?

前言 我相信大家在学习Unity的时候,Update是每一帧调用,而FixedUpdate是固定时间调用一次。 一开始我们对这个知识深信不疑(楼主也是 .| ) 不过当我们学的更深入时,发现Unity其实是单线程的,所以它的生命…

解决d2l包下载不了的问题

目录 关于d2l包 1、在pypi网站的找到d2l包 2、cmd下载文件 3、检测d2l包的下载是否成功 4、在虚拟环境中完成安装 关于d2l包 d2l包是李沐老师等人开发的《动手深度学习》配套的包,最初的时候,我并没有安装的想法,可在代码实现方面&…

如何使用 max_fanout

在 逻辑层级不多,但是延时较高的 net 中,可以使用 max_fanout 来设置扇出, 但是要注意,还要如果驱动与负载不在同一层,一定要约束到负载的input,否则不生效 并且还要在 例化负载模块时加上 (* keep_hiera…

nacos安装及配置

本文介绍nacos的安装、配置,使用mysql存储数据。 1.下载 在github上下载对应的压缩包。地址:https://github.com/alibaba/nacos/releases 本文下载的是2.0.2版本: 2.解压 进入下载文件所在的目录,并执行以下语句: t…

GEE10:Earth Engine Reducers的图像矢栅转换及区域统计

目录1. Raster to Vector Conversion:image.reduceToVectors()2. Vector to Raster Conversion:featureCollection.reduceToImage()3. Grouped reductions3.1 Grouped reduceRegions (aka Zonal Statistics)4. Weighted Reductions1. Raster to Vector C…

SSM整合案例[企业权限管理系统]-学习笔记01【SVN的基本介绍】

Java后端-学习路线-笔记汇总表【黑马程序员】SSM整合案例[企业权限管理系统]-学习笔记01【SVN的基本介绍】【day01】SSM整合案例[企业权限管理系统]-学习笔记02【TortoiseSVN的基本操作】SSM整合案例[企业权限管理系统]-学习笔记03【TortoiseSVN及IDEA下SVN的使用】SSM整合案例…