【Regulatory Genomics】Part2 BPNet、DeepLIFT

news2025/1/23 13:11:44

文章目录

  • Deep learning at base-resolution reveals cis-regulatory motif syntax
    • problem
    • BPNet: predicting base-resolution profiles from DNA sequence
    • Interpreting the predictions of BPNet
      • 1 DeepLIFT
      • 2 TF-MoDISCO
      • 3 motif syntax derived TF cooperativity
    • Experimental validation of BPNet predictions
    • summary

来自Manolis Kellis教授(MIT计算生物学主任)的课
油管链接:Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
本节课分为三个部分,本篇笔记是第二部分。
本节主要是请了一个阿三哥来介绍来一下他们的一些将神经网络应用在调控基因组学上的工作,模型的原理、意义和拓展。模型叫BPNet、DeepLIFT以及TF-MoDISCO。并且在实验上验证了他。整体思路递进的还不错,但是讲的有点快和凌乱,我感觉不如下一部分英伟达的讲座

Deep learning at base-resolution reveals cis-regulatory motif syntax

26:07

Motif syntax 是描述转录因子或其他DNA结合蛋白质如何识别和结合它们的目标DNA motif的“规则”。

  1. Arrangement(排列):motif中的特定核苷酸序列的顺序。
  2. Preferred Spacing(优选间距):当多个转录因子结合到相近的位置时,它们之间的距离可以影响它们的结合和功能。这里的间距指的是两个motif或两个结合位点之间的核苷酸数。
  3. Orientation(方向性):转录因子可以以不同的方向结合到DNA上。某些转录因子可能优先在某个特定的方向上结合,而其他的可能不在乎。
  4. Cooperativity(协同性):这是指当一个转录因子结合到其目标motif时,它可能会影响其他转录因子与附近的DNA结合的能力。例如,一个转录因子的结合可能会使另一个转录因子更容易(或更困难)结合到附近的位置。
  • 调控性DNA的预测模型

  • Transcription factor ChIP-seq data OR chromatin accessibility (DNase-seq / ATAC-seq data): 这一部分展示了两种主要的高通量测序数据——转录因子的ChIP-seq数据和染色质的可及性数据(如DNase-seq和ATAC-seq)。

    • 绿色的峰值表示转录因子在基因组上的结合位置或染色质在特定位置的可及性。
  • 中部的DNA序列

    • 基因组的特定片段。每一个片段都有一个对应的标签,这个标签可能代表该片段是否活跃(例如,是否有转录因子结合)及其活跃程度。
    • 例如,“Inactive (0) (0.3)”表示这个片段是不活跃的,而“Active (+1) (20.2)”则表示它是活跃的,并且活跃度为20.2。
  • Classification or Regression model F(Si)

    • 核心部分。这个模型接受DNA序列片段作为输入,并预测它们的活跃状态或其他某种测量值。这可以是一个分类问题(例如,预测一个给定的DNA片段是否活跃)或一个回归问题(例如,预测其活跃程度或转录因子结合的强度)。
  • Measured Labels (Yi)

    • 这些是真实的、通过实验得到的数据标签。

通过DNA序列信息来预测基因表达的调控模式,特别是转录因子如何与基因组互动。这种模型有助于我们理解基因如何被调控,以及哪些因素可能影响基因的活跃状态。

这些用来训练的片段好像是固定长度的?

我有一些疑惑:

  • 这里训练的数据的x就是dna序列信息,预测出来的就是1或者0,好像没用到motif的信息啊

  • 从图中所示的模型结构来看,确实直接使用了DNA序列作为输入,并预测出一个分类结果(例如1或0,表示转录因子是否结合)。但是,即使模型直接使用DNA序列作为输入,Motif信息仍然在以下方式中隐式地起到作用:

    1. 特征提取: 即使模型的直接输入是DNA序列,它内部的机制可能会学习到与Motif相似的特征或模式。例如,如果使用深度学习模型,如卷积神经网络(CNN),网络的卷积层可能会识别出与Motif相关的序列模式。

    2. 标签来源: 虽然模型预测的输出是1或0,但这些标签可能基于实验数据,如ChIP-seq数据。ChIP-seq实验可以确定转录因子在基因组上的确切结合位置,这些位置往往与特定的Motif相关。

    3. 后处理与解释: 一旦模型进行了训练并进行预测,研究者可能会进一步分析模型识别的特征或模式,以理解哪些DNA Motif与预测的结合事件相关。

problem

这种预测方式实际上丢失了很多信息

使用高分辨率技术来捕捉蛋白质与DNA接触的详细信息

简单介绍一下四种技术:

  1. ChIP-seq:
    • 首先,目标蛋白质(例如转录因子,简称TF)与DNA结合。接下来,通过交联、超声波处理和ChIP(染色体免疫沉淀)将这些结合的区域隔离出来。
    • 结合的DNA被逆交联并加入适配子,然后进行测序。测序结果显示为在结合事件周围的分布。
  2. ChIP-exo/ChIP-nexus:
    • 这与ChIP-seq相似,但在测序前有额外的步骤。特定的适配子被加入,然后进行外切酶消化。
    • 结果提供了更高的空间分辨率,能够更精确地确定蛋白质与DNA的接触点。
  3. DNase-seq
  4. ATAC-seq:
  • 这里就产生问题了,当我们使用如ChIP-seq、ATAC-seq等技术时,我们能够获得大量关于DNA和蛋白质之间相互作用的信息。
  • 但前面的模型将这些数据简单的转化为单一的标量值(例如某个特定区域的总读数),可能会损失大量的细节信息。这些细节可能包括DNA上特定的结构特征、绑定模式(motif)的语法等,这些都是非常有价值的信息。

类比一下:

假设DNA像一本书的长篇章节,而蛋白质则像是标记章节中某些关键词或句子的高光笔。通过技术如ChIP-seq和ATAC-seq,我们可以确定蛋白质“标记”了哪些部分的DNA。这就好比看到哪些句子或关键词被高光笔标记了。

现在,**如果我们只关心每页被标记的次数,而不关心具体标记了哪些句子或关键词,我们就会丢失很多信息。**在DNA的情境中,这意味着我们只关心某个区域有多少蛋白质绑定,而不关心具体是哪些位置上的DNA与蛋白质绑定。

但DNA上的每一个位置都很重要,因为它们可以告诉我们哪些部分的DNA更可能控制某些功能。这就好像知道哪些句子或关键词被高光笔标记可以告诉我们这本书的主题和内容。

另外,DNA上的motif会以特定的方式与蛋白质互动。这些序列的语法和结构就好比语言中的语法规则。如果我们忽略了这些信息,我们可能会错过理解DNA如何工作的关键部分。

BPNet: predicting base-resolution profiles from DNA sequence

从DNA序列预测基对分辨率的数据。

该模型的目标是能够准确地预测蛋白质与DNA之间的具体交互位置,而不仅仅是整体的交互强度。

profile就是一组相关序列的共同特征,我认为这里就是指转录因子(蛋白质)在一条DNA上位置的结合强度

  • 模型能够为DNA的正链和负链预测与蛋白质交互的概率

    • base-pair,每一个碱基对位置与蛋白质交互的概率
    • 说明训练的label数据有更多的细节,更高的分辨率,而不是简单的凑合成一个标量
  • Multi-task

    • 模型能够同时预测多种输出
    • 对于chip-seq实验来说,相同的序列可能对应四五种不同蛋白质有不同的概率轮廓结果
  • loss function

    • MSE for log(total counts):使用均方误差预测整体读数的对数值。

    • Multinomial NLL for profile distribution:使用多项式负对数似然预测与蛋白质交互的具体位置。

  • 自动纠正偏差

    • 某些实验方法可能会引入偏差,导致某些区域的交互数据被放大或减小
  • Dilated convolutions and Residual connections:这些是深度学习模型中的高级技术,可以帮助模型捕获数据中的长距离依赖性并提高训练速度。

模型比较简单,阿三哥认为模型最创新的地方不是网络结构,而是损失函数的设计。不要二元预测就逻辑回归,不要数值预测就均方误差。要学会根据数据中的噪声的性质来设计损失函数。

他认为Multinomial NLL这种分布更加适合几千个碱基对的序列中每个读数的精确分布情况

  • (这里我也不是太明白,我需要去理解一下整体的生物实验与其结果是啥),期待未来补充

  • ChIP-exo/nexus是一种技术,可以用来检测转录因子(TF)结合到DNA的精确位置

  • 四个小鼠胚胎干细胞中关键的转录因子:Oct4, Sox2, Nanog, 和 Klf4

  • 预测结果

可以看出预测的很好,最右边是因为这个数据本身就有些缺失值

图中三个区域是不同的三个DNA区域

  • 第一行是指越低预测越好

  • 第二行是Jensen-Shannon散度,衡量两个概率分布之间相似性的一个方法。值也是越低越好

  • 这里不同的resolution,分辨率,应该是对结果计算时进行了一定的平滑处理,比如5bp的分辨率就是在评估预测性能的时候,将每5bp的预测值取均值后再进行比较

    • 可以减少噪声并更清楚地展示趋势
  • 红线和蓝线越接近,模型的预测能力越接近实验数据,效果越好

Interpreting the predictions of BPNet

Deciphering predictive motifs and motif instances

终于来到重点了,我还寻思这预测什么用,实验数据都能做出来了。这确实没有什么用,重要的是根据碱基序列中的motifs如何能影响不同位置上蛋白质结合强度的预测,其背后到底发生了什么

1 DeepLIFT

Deep Learning Important FeaTures,目标是确定输入特征对于模型预测的贡献

从预测的结果反向去分析每一层神经网络的贡献的大小,进行归因分析,直到输入的每一个核苷酸

如图

可以分析出每个核苷酸是如何影响的,如何根据context进行预测

  • 四种不同转录因子在特定DNA序列区域的结合亲和性
    • 可以对基因组中的每个增强子都进行这样的操作
    • 这些转录因子喜欢结合到增强子区域

可以看出,对于某个转录因子来说,其有对应的motifs。

而其中的基因调控是十分复杂的,比如:

  • 转录因子的协同作用: Oct4和Sox2结合后会形成一个Oct4-Sox2复合体,该复合体有自己独特的DNA结合模式。
  • 结合位点的相互作用: 在某些情况下,一个转录因子的结合可能会增加或减少另一个转录因子结合到相邻位点的可能性。这种相互作用可能与DNA的三维结构和染色质的状态有关。
  • 染色质的开放性: 当一个转录因子结合到某个区域时,它可能会引起染色质的开放,从而为其他转录因子提供结合的机会。
  • 转录因子的多样性

第二张图我还是有一点疑惑的,为什么一个转录因子的线上会有不属于这个因子的小长方形:

我的理解(很有可能错):我们先通过模型的反推得到了哪些motifs是对于这个蛋白来说是贡献大的。我们就将这一小段区域的这个序列跟这个蛋白相关联。然后我们再针对某一个蛋白去看他的chip-seq的结果。我们就可以发现,如果在这个蛋白的这一段区域表达量高。那就说明。他跟这个区域的motifs是相关的

反正意思应该是在某一个转录因子的线上的某个位置有另一个转录因子的结合模式,对当前的转录因子结合有重要贡献,但我不知道怎么测出来的。


以上的这些也许对于研究单个序列的特性还好,但是对于全基因组范围内的还是不够看,所以又开发了一个

2 TF-MoDISCO

通过DeepLIFT模型,识别和聚类那些对模型预测起到关键作用的motifs

整个多个测得的序列上面的motif

该转录因子最有可能结合的DNA区域

  • CWM & PFM: 这些是模体的不同表示方法。CWM表示模体中每个位置的贡献,而PFM表示每个位置的核苷酸频率。

  • Average contribution score: 表示了每个motif对模型预测的平均贡献。

  • ChIP-nexus footprint: 在实际实验中观察到的转录因子结合模式

  • motifs per region: 这个直方图展示了每个调控区域中模体的数量。

3 motif syntax derived TF cooperativity

10.5 bp是DNA双螺旋每转大约的碱基对数。所以,当我们看到10.5 bp的周期性,这通常意味着转录因子或其他蛋白质与DNA的某个特定部位结合,并导致这种周期性模式。

  • Nanog的结合模式在DNA上呈现出10.5 bp的螺旋周期性。这意味着与Nanog结合的DNA区域会有一种重复的、周期性的模式。

  • 那个二维图,展示了大量基因组区域中Nanog motif的存在情况。深色的线表示Nanog motif在该区域的结合强度较高。

    • 可以看出比较深的蓝色线之间,每个的间隔是10.5bp

    • 一个特定的motif(如Nanog motif)在多个位置的出现。所以,基本上每个深色的蓝线代表的是相似或相同的motif。但是,因为每个位点的周围环境可能略有不同,所以每个位点上的motif可能会有些许的变化。

  • 右下角的实验论文证明了10.5bp周期性

  • 左下角的图:power spectrum图,用于表示数据中周期性模式的强度。它可以帮助我们检测并量化某种周期性模式在数据中的存在

    • 这里的y轴表示周期性的强度,而x轴代表了不同的转录因子。如果一个转录因子的结合模式在DNA上有10.5 bp的周期性,那么该转录因子在图上的点会有较高的y值。简而言之,这个图是用来显示哪些转录因子的结合具有10.5 bp的周期性。

  • 通过“motif syntax”来推断不同蛋白质之间的"causal" directional cooperative influence

使用BPNet作为一个虚拟的“预言家”来执行扰动实验

两种扰动方法:

  1. On synthetic sequences:在合成序列上进行。
    1. 合成序列指的是在实验室中人为制造的DNA或RNA序列,而不是自然界中存在的序列。
    2. 通过在这些合成序列上运行BPNet模型,并观察蛋白质如何与这些序列相互作用,研究者可以了解这些motifs如何影响蛋白质的行为。
  2. By mutating motifs in genomic regions:通过在基因组区域内突变 motifs 进行。
    1. 选择特定的基因组区域,然后人为地突变其中的motifs
    2. 通过比较突变前后的序列在BPNet模型中的表现,研究者可以推断这些motifs在蛋白质相互作用中的角色。

在这里插入图片描述

动图:视频52:38处

Oct4和Nanog在合成序列上的合作交互

  • 研究者们可以在精确的位置和距离上放置特定的蛋白质结合位点,从而观察蛋白质的结合模式和交互。
  • X轴 - 距离 (Distance):X轴表示Oct4-Sox2和Nanog之间结合位点的距离。
  • **Y轴 - footprint的改变倍数 **:Y轴显示了蛋白质结合的强度或稳定性的变化。当蛋白质紧密结合到DNA上时,通常会产生一个“footprint”,这是因为结合的蛋白质会阻止其他分子接触该区域。Y轴的值越高,表示结合的稳定性或强度越大。
  • Oct4-Sox2 -> Nanog:金色显示了Oct4-Sox2先结合,Nanog后结合时的情况。
  • Nanog -> Oct4-Sox2:红线相反

当Oct4-Sox2首先与DNA结合时,它可能更容易促进或稳定Nanog的结合,比之于Nanog先于Oct4-Sox2结合的情况。

  1. 结构或空间考虑:蛋白质-DNA结合并非只是化学作用,它也受到蛋白质和DNA空间结构的影响。当Oct4-Sox2先结合时,它可能导致DNA的某种空间构象变化,使得Nanog的结合变得更为容易或稳定。
  2. 可能的生物学意义:在生物学上,这种协同作用可能对某些特定的细胞功能或基因调控过程至关重要。例如,它可能影响基因的启动子活性、基因的表达模式或细胞命运的决策。

  • 不同的转录因子之间的直接互作和核小体范围的互作
  • 热力图表示互作强度,Oct4与Oct4-Sox2之间的互作在小于35bp的距离内是非常强的

Experimental validation of BPNet predictions

在这里插入图片描述

实验验证:通过CRISPR技术对基因组序列进行的突变如何影响Nanog和Sox2的结合

  • “Wt Sox2 motif”和“Mutant Sox2 motif”分别表示Sox2原始的结合模体和突变后的结合模体。
  • 当序列发生突变时,蛋白质的结合模式(即观察到的曲线)也发生了改变

summary

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1211130.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Visual Studio Code安装和设置中文

文章目录 Visual Studio Code安装Visual Studio Code设置中文 步骤如下: Visual Studio Code安装 1.下载安装包 VS Code的官网 下载链接中的“az764295.vo.msecnd.net” 替换为国内镜像地址“vscode.cdn.azure.cn”,下载速度直接飙升至几十 Mb/s。(在官网下载速度…

Elasticsearch 之聚合分析

本文主要介绍 Elasticsearch 的聚合功能,介绍什么是 Bucket 和 Metric 聚合,以及如何实现嵌套的聚合。 首先来看下聚合(Aggregation): 1 什么是 Aggregation? 首先举一个生活中的例子,这个是京…

【Python】一文带你掌握数据容器之集合,字典

目录: 一、集合 思考:我们目前接触到了列表、元组、字符串三个数据容器了。基本满足大多数的使用场景为何又需要学习新的集合类型呢? 通过特性来分析: (1)列表可修改、支持重复元素且有序 (2)元组、字符…

解决k8s通过traefik暴露域名失败并报错:Connection Refused的问题

我敢说本篇文章是网上为数不多的解决traefik暴露域名失败问题的正确文章。 我看了网上太多讲述traefik夸夸其谈的文章了,包含一大堆复制粘贴的水文和还有什么所谓“阿里技术专家”的文章,讲的全都是错的!基本没有一个能说到点子上去&#xf…

用LLM生成反驳:首先洞察审稿人的心理,再巧妙回应!

深度学习自然语言处理 原创作者:Winnie 在科研领域,同行评审(review-rebuttal)是保证学术质量的关键环节。这一过程中的辩论和反驳非常具有挑战性。传统的同行评审生成任务通常集中在表面层面的推理。 研究人员发现,考虑论点背后的态度根源和…

aliyun Rest ful api V3版本身份验证构造

aliyun Rest ful api V3版本身份验证构造 参考官网:https://help.aliyun.com/zh/sdk/product-overview/v3-request-structure-and-signature?spma2c4g.11186623.0.0.787951e7lHcjZb 构造代码 :使用GET请求进行构造,算法使用sha256 使用postm…

多维时序 | MATLAB实现PSO-BiLSTM-Attention粒子群优化双向长短期记忆神经网络融合注意力机制的多变量时间序列预测

多维时序 | MATLAB实现PSO-BiLSTM-Attention粒子群优化双向长短期记忆神经网络融合注意力机制的多变量时间序列预测 目录 多维时序 | MATLAB实现PSO-BiLSTM-Attention粒子群优化双向长短期记忆神经网络融合注意力机制的多变量时间序列预测预测效果基本介绍模型描述程序设计参考…

Python安装第三方库出错完美解决方法

错误 Could not find a version that satisfies the requirement PIL (from versions: none) ERROR: No matching distribution found for PILTry to run this command from the system terminal. Make sure that you use the correct version of pip installed for your Pyth…

Linux:给openlab搭建web网站

httpd服务器建立综合练习 建立网站需求: 1.基于域名 www.openlab.com 可以访问网站内容为 welcome to openlab!!! 2.给该公司创建三个子界面分别显示学生信息,教学资料和缴费网站, (1)、基于 www.openlab.com/stud…

使用Pandas进行数据读写的简易教程

Pandas是一个功能强大且广泛使用的Python库。它提供了一种简单而灵活的方式来读取和写入各种数据格式,包括CSV、Excel、SQL数据库等。本文将介绍如何使用Pandas进行数据的读取和写入操作,帮助你快速上手并高效地处理数据。 一、安装和导入pandas 首先&…

Linux软硬链接

文章目录 🐋1. 建立软硬链接现象🐠2. 软硬链接🪸2.1 软链接🪸2.2 硬链接 🐦3. 应用场景🪹3.1 软链接应用场景🪹3.2 硬链接应用场景 🐋1. 建立软硬链接现象 我们这里给file.txt建立软…

CH12_处理继承关系

函数上移(Pull Up Method) 反向重构:函数下移(Push Down Method) class Employee {/*...*/} class Salesman extends Employee {get name() {/*...*/} } class Engineer extends Employee {get name() {/*...*/} }cla…

AI数字员工创新工作模式丨市女协走进实在智能,沉浸体验RPA Agent智能魅力

11月10日,杭州市女企业家协会组织走进副会长张军燕企业——杭州实在智能科技有限公司,开展“领跑AI时代,做先进企业”人工智能沙龙活动。 本次沙龙是一场真正关注最前沿AI大模型与RPA自动化技术、寻找企业确定性增长的科技盛宴,也…

《深入浅出.NET框架设计与实现》阅读笔记(四)

静态文件系统 通过ASP.NET Core 提供的静态文件模块和静态文件中间件,可以轻松的让应用程序拥有访问静态文件的功能,同时可以基于IFileProvider对象来自定义文件系统,如基于Redis做扩展文件系统 启动静态文件服务 在Program.cs 类中&#x…

Fedora Linux 39 正式版官宣 11 月 发布

导读Fedora Linux 39 正式版此前宣布将于 10 月底发布,不过这款 Linux 发行版面临了一些延期,今天开发团队声称,Fedora Linux 39 正式版将于 11 月 7 日发布。 过查询得知,在近日的 "Go / No-Go" 会议上,开…

国产企业级低代码开发哪个最好?这一款超好用

低代码开发平台(Low-code Development Platform)正在迅速崛起,成为未来软件技术发展的主导趋势。通过使用低代码开发平台,企业能够显著提高开发效率,降低对专业开发人员的依赖,并实现更快速的软件交付和使用…

【从删库到跑路】MySQL数据库 | 全局锁 | 表级锁 | 行级锁

文章目录 🌹简述🎄全局锁⭐数据备份🎈设置全局锁🎈对表进行备份🎈释放锁 🎄表级锁🛸表锁⭐读锁⭐写锁 🛸元数据锁🛸意向锁⭐意向共享锁⭐意向排他锁 🎄行级锁…

某头部通信企业:SDLC+模糊测试,保障数实融合安全发展

某头部通信企业是全球领先的综合通信信息解决方案提供商,为全球电信运营商、政企客户和消费者提供创新的技术与产品解决方案。该企业持续关注核心技术攻关,深入打造系列化标杆项目和价值场景,加强数字化平台的推广应用,加快共建开…

蓝桥杯每日一题2023.11.15

题目描述 此处的快速排序有一个思想:以一个数x来判定这l至r区间的数的大小,如果a[l]小于x就与右侧的a[r]交换,最后x可以将这个区间的数进行一分为二。填空出就是已经将x移动到左部分和右部分之间,来确定二分的一个界点 答案&…