【Regulatory Genomics】Part3 GENOMICS AT NVIDIA、ATACWORKS

news2025/1/23 13:08:46

文章目录

  • Enchancing epigenomic data with deep learning
    • AtacWorks: Improving the quality of ATAC-seq signals
      • 1 model structure
      • 2 training strategy
    • Performance of AtacWorks

来自Manolis Kellis教授(MIT计算生物学主任)的课
油管链接:Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
本节课分为三个部分,本篇笔记是第三部分。
本节主要是介绍了英伟达在基因组学方面的一些工作,主要介绍了ATACWORKS这个模型。用于在有噪声的、有数据质量问题、分辨率低的数据,还原成清晰的测序数据。

Enchancing epigenomic data with deep learning

主要介绍了英伟达基因组学研究设计的一些领域,基于他们的硬件将机器学习、深度学习、加速计算应用在生物信息里

  • 接下来主要是介绍这篇工作

  • 首先介绍一下 ATAC-seq测序,

将reads贴上基因组上

用于测量染色质的可及性,通过DNA测序技术。

高测序读取覆盖率的“峰值”对应于基因组中开放的染色质区域。

有助于识别活跃的调控元件,构建调控网络,并研究非编码变异的影响。

在单个细胞上进行测量,生物组织由不同类型的细胞混合组成,单细胞测序可以展示这种异质性,但每个细胞只提供有限的信号

  • Bulk ATAC:展示了大量细胞(不同种类细胞)的整体染色质可及性,平均数据。

  • Aggregate scATAC:这是多个单细胞ATAC-seq数据的聚合。尽管每个单独的细胞可能只提供有限的信息,但将它们聚合在一起可以提供与 Bulk ATAC 类似的信号。

    • 下面的每行是一个细胞,如果不叠加在一起的话,是看不出什么东西的
  • 所以我们使用如右侧所示的聚类,将细胞分类成一个个簇,需要哪个就提取一个簇出来,将其中的每个细胞信号叠加

UMAP - 是一种降维技术,用于将高维数据(如单细胞ATAC-seq数据)可视化到二维空间。

  • 然后我们就可以比较为什么不同簇的细胞类型不同,为什么某些序列变异,影响的是这种细胞而非那种细胞

还是有些问题会导致ATAC-seq的数据质量问题

  1. Low sequencing depth(测序深度低):
    • 这里展示了两种测序深度:50 million reads 和 1 million reads。
    • 更高的测序深度可以提供更加精确且清晰的数据。
  2. Sample/experimental factors(样本/实验因素):
    • “Fresh tissue”(新鲜组织)和“Flash-frozen”(快速冷冻)的样本。
    • 不同的样本处理方式可能导致数据的差异。
  3. Low aggregate cell count(细胞计数低):
    • 下面的柱状图展示了对应的ATAC-seq数据,突出显示了开放染色质区域的位置。
    • 某一簇的细胞计数太低,那么结合起来后得到的数据可能不够代表性或精确。

AtacWorks: Improving the quality of ATAC-seq signals

1 model structure

基于以上的问题,提出了AtacWorks来增强ATAC-seq准确性,去除噪声

AtacWorks的功能:

  • 它以 ATAC-seq 实验的coverage track为输入,并增强其准确性。
  • 它还可以识别峰值,或称为开放染色质区域。

AtacWorks使用的特点(主架构是ResNet):

  • 完全卷积模型
  • 使用1-D卷积层:更适合于序列数据。对于基因组的每一个位置,有一个数值(读取数量)
  • 扩张卷积: 这种卷积可以在保持参数数量不变的情况下增加感受野。
  • 残差连接: 这有助于网络学习恒等函数,并防止深度网络中的梯度消失。ResNet特色
    • 残差块(Residual Block)
    • Skip Connection(跳跃连接)
    • 输入数据首先经过一个1-D卷积层,然后通过ReLU激活函数。
    • 同时,输入数据也通过跳跃连接直接传递到输出端。
    • 在块的末尾,卷积和激活的输出与原始输入相加(残差连接),然后产生输出。
  • 损失函数:回归和分类损失
    • 回归:测量去噪覆盖轨迹的准确度
    • 分类:对峰值位置进行分类的准确度。比如二分类,是否为峰值位置
    • 这有助于模型同时学习连续的信号和峰值位置。

Why not!

有一个问题就是,为什么没有用基因组DNA的序列数据,而是使用coverage track数据。

是因为方便迁移,在一个细胞类型上训练的可以用在另一个细胞类型上。

因为如果输入dna序列的话,往往会学习到一些motifs跟染色体可及性相关的东西。而在一个细胞类型中的motif跟染色体可及性相关的性质,在另一种细胞类型中不一定也是这样。所以模型不一定能预测不同细胞类型的可及性。

当然这只是他们的选择而已,并不代表用dna序列就错

2 training strategy

AtacWorks利用深度学习方法从低质量或低覆盖度的ATAC-seq数据中预测出高质量的结果。这种方法能够在没有高覆盖度数据的情况下提取出有意义的生物信息。

在基因组测序中,覆盖率或深度是指某个基因组区域被测序读取覆盖的平均次数

  • AtacWorks的学习方法是通过采取高覆盖度数据(例如全基因组测序数据),然后随机地对其进行下采样以获得噪声数据。
    • 图中是从50million中选取1million
  • 用这种方法,可以得到清晰的信号和噪声数据。之后,模型就可以在这两者之间进行训练,目的是从噪声数据中预测出清晰的结果。
  1. Training and Inference

    • 在Training部分(上半部分),噪声信号被用来训练AtacWorks模型,目的是使其能够从这种噪声信号中预测出清晰的结果。
    • 在Inference部分(下半部分),模型被用来预测和增强其它来源的噪声数据。
      • 例如,图中的“Sample B”展示了模型如何从噪声数据中恢复出去噪的信号和峰值预测。
  2. 输出 (Output)

    • AtacWorks的输出是去噪后的信号和峰值调用。这可以应用于实际的生物信息学研究,使研究人员能够从低覆盖度的测序数据中获得有用的信息。

Performance of AtacWorks

降低覆盖度后,数据会变得模糊,macs2无法识别。调用这个模型处理之后,去除背景噪声,就可以识别了。

  • 训练集

    • 使用了更低的采样率
    • B, CD4, CD8, NK:这些是训练集中的不同细胞类型。每个细胞类型的行显示了一个特定染色体区域(chr4:145,021,501 - 145,098,191)的ATAC-seq信号。这些信号图代表基因组某个区域的开放度或可及性。
  • 对训练集中不存在的细胞类型也有作用

  • 计算整个基因组范围内,子采样与原本数据的皮尔逊系数,发现经过模型处理过后的系数明显高
  • Chr10,十号染色体是不存在在训练集中的。
    • 效果也还不错

  • 一个有趣的案例
    • 用于细胞共济失调数据
    • 如何在细胞类型混合中识别和分析那些数量较少的细胞

如何能够在处理少量细胞样本时提高分析的质量

  • 图中的聚类表明,不同的细胞类型在基因组可及性方面具有不同的特征。
  • 右侧 (b):显示了不同细胞样本量下,MACS2和ATAcWORKS在峰值调用性能上的比较。条形图显示了在不同数量的细胞和读取量(以百万为单位)下,ATAcWORKS比传统的MACS2工具在峰值调用上具有更高的准确性,特别是在样本数量较少时。
  • ATAcWORKS可以使用比传统方法少10倍的细胞数量获得相同质量的结果,大幅提高了单细胞染色质可及性分析的分辨率。此外,这个模型可以跨不同的细胞类型和物种转移,这意味着一旦训练好,它可以应用于不同的生物学研究场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1303745.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis:缓存

MyBatis 缓存一级缓存二级缓存注 缓存 缓存,是数据交换的缓冲区(临时保存数据的地方)。即将数据(数据一般为频繁查询且不易改变)保存在计算机内存中,下次读取数据时直接从内存中获取,以避免频繁…

YOLOv8独家原创改进:轻量化自研设计双卷积,重新设计backbone和neck结构,完成涨点且计算量和参数量显著下降

💡💡💡本文自研创新改进:双卷积由组卷积和异构卷积组成,执行 33 和 11 卷积运算代替其他卷积核仅执行 11 卷积,YOLOv8 Conv,从而轻量化YOLOv8,性能如下表,GFLOPs 8.1降低至7.6,参数量6.3MB降低至5.8MB layers parametersGFLOPsMBYOLOv8n16830068188.16.3MByolov8_…

销售技巧培训之如何提升房地产销售技巧

在房地产销售这个竞争激烈的行业中,要想获得成功,不仅需要熟练掌握销售技巧,还需要不断地提升自己的能力。下面,我们将从以下几个方面探讨如何提升房地产销售技巧。 一、了解客户需求 倾听客户:在与客户沟通时&#x…

据房间Id是否存在,判断当前房间是否到期且实时更改颜色

重点代码展示&#xff1a; <template><el-col style"width: 100%;height: 100%;"><el-col :span"20"><el-card class"room_info"><avue-data-icons :option"option"></avue-data-icons></el-…

【截图版本】Linux常用指令详解

———————————————— 版权声明&#xff1a;本文为CSDN博主「小呆瓜历险记」的原创文章&#xff0c;遵循CC 4.0 BY-SA版权协议&#xff0c;转载请附上原文出处链接及本声明。 原文链接&#xff1a;https://blog.csdn.net/m0_58963318/article/details/134713282

亚信科技AntDB携手蓝凌软件,助推企业数字化办公转型升级

随着企业数字化转型的深入&#xff0c;企业对于协同办公、移动门户、数字运营、智能客服等方面的需求越来越高&#xff0c;数智化正成为催生新动能和新优势的关键力量。数字化的办公平台可以帮助企业实现各类信息、流程的集中化、数字化和智能化管理&#xff0c;为企业管理者提…

【代码随想录】算法训练计划48

dp 1、198. 打家劫舍 题目&#xff1a; 输入&#xff1a;[2,7,9,3,1] 输出&#xff1a;12 偷窃到的最高金额 2 9 1 12 。 思路&#xff1a; 只有两种情况&#xff0c;递推公式就好说了,dp[i]永远都是题意&#xff0c;就是当前偷到的最大金额 func rob(nums []int) int…

HarmonyOS自定义抽奖转盘开发(ArkTS)

介绍 本篇 Codelab 是基于画布组件、显式动画&#xff0c;实现的一个自定义抽奖圆形转盘。包含如下功能&#xff1a; 1. 通过画布组件 Canvas&#xff0c;画出抽奖圆形转盘。 2. 通过显式动画启动抽奖功能。 3. 通过自定义弹窗弹出抽中的奖品。 相关概念 ● Stack组件…

制作一个RISC-V的操作系统五-RISC-V汇编语言编程一

文章目录 RISC-V汇编语言入门汇编语言概念简介 汇编语言语法介绍&#xff08;GNU版本&#xff09; RISC-V汇编语言入门 汇编语言概念简介 高级&#xff1a;可以理解就是更贴近人的理解 低级&#xff1a;可以理解就是更贴近机器的 难移植&#xff1a;汇编指令基本上和机器指令…

线程安全的哈希表ConcurrentHashMap

1. HashTable 不推荐使用&#xff0c;无脑给各种方法加锁 2.ConcurrentHashMap 多线程下推荐使用 锁粒度控制 HashTable直接在方法上加synchronized&#xff0c;相当于对哈希表对象加锁&#xff0c;一个哈希表只有一把锁。多线程环境下&#xff0c;无论线程如何操作哈希表…

医疗设备智慧管理助力医院提质增效,阿基米德amp;健康界实践分享

近日&#xff0c;苏州阿基米德网络科技有限公司与医疗领域头部级媒体健康界&#xff0c;联合举办“数智为擎 提质增效——医学装备智慧管理创新发展论坛”的直播活动。 直播现场&#xff0c;来自上海交通大学医学院附属同仁医院、中华医学会航海医学分会、苏州阿基米德的专家们…

循序字符中插入数据(链表)

有一串已经从小到大排好序的数 2 3 5 8 9 10 18 26 32。现需要往这串数中插入 6 使其得 到的新序列仍符合从小到大排列。&#xff08;使用链表&#xff09;

Python:核心知识点整理大全14-笔记

目录 ​编辑 7.2.2 让用户选择何时退出 parrot.py 7.2.3 使用标志 7.2.4 使用 break 退出循环 cities.py 7.2.5 在循环中使用 continue counting.py 7.2.6 避免无限循环 counting.py 7.3 使用 while 循环来处理列表和字典 7.3.1 在列表之间移动元素 confirmed_user…

查询mysql服务器当前时区设置、session当前时区设置

使用命令SELECT global.time_zone;可以查询mysql服务器的当前时区设置&#xff0c;例如&#xff1a; 使用命令SELECT session.time_zone;可以查询session的当前时区设置&#xff0c;例如&#xff1a;

2023年全国职业院校技能大赛信息安全管理与评估赛项正式赛(模块一)GZ032

全国职业院校技能大赛高等职业教育组 信息安全管理与评估 任务书 模块一 网络平台搭建与设备安全防护 极安云科专注技能竞赛&#xff0c;包含网络建设与运维和信息安全管理与评估两大赛项&#xff0c;及各大CTF&#xff0c;基于两大赛项提供全面的系统性培训&#xff0c;拥…

Linux常用命令---- test 命令

文章目录 基本语法文件测试检查文件是否存在检查文件是否是目录检查文件是否为空检查文件是否可读、可写或可执行 字符串测试检查字符串是否为空检查字符串是否相等检查字符串是否不相等 数字测试检查数字是否相等检查数字是否大于或小于 在Linux操作系统中&#xff0c;test命令…

59.计算机网络笔记

以上仅供参考&#xff0c;不一定对的&#xff0c;毕竟网络又不是我的学习方向。 一、路由器、交换机、网关。 交换机只会关心数据包的mac地址&#xff0c;不关心数据包的ip地址。 tcp/ip协议规定&#xff0c;不同子网之间是不可以直接通信的&#xff0c;如果要通信需要通过网关…

手动搭建koa+ts项目框架(日志篇)

文章目录 前言一、安装koa-logger二、引入koa-logger并使用总结如有启发&#xff0c;可点赞收藏哟~ 前言 本文基于手动搭建koats项目框架&#xff08;路由篇&#xff09;新增日志记录 一、安装koa-logger npm i -S koa-onerror and npm i -D types/koa-logger二、引入koa-lo…

大数据可视化推荐项目——基于Python/Django的电影评论可视化分析推荐系统的设计与实现

大数据可视化推荐项目——基于Python/Django的电影评论可视化分析推荐系统的设计与实现 技术栈&#xff1a;大数据爬虫/机器学习算法/数据分析与挖掘/大数据echarts可视化/Django框架/Mysql 摘要&#xff1a;本文介绍了一个基于大数据可视化的电影评论分析推荐系统&#xff0…

Clickhouse RoaringBitmap

https://blog.csdn.net/penriver/article/details/119736050 https://juejin.cn/post/7179956435806076988 BitMap适合连续密集的正整数存储&#xff0c;对于稀疏的正整数存储&#xff0c;其性能在很多时候是没办法和int数组相比的&#xff0c;尤其是正整数跨度较大的场景&…