【论文阅读|冷冻电镜】DISCA: High-throughput cryo-ET structural pattern mining

news2025/1/22 16:12:04

论文题目

High-throughput cryo-ET structural pattern mining by unsupervised deep iterative subtomogram clustering

摘要

  • 现有的结构排序算法的吞吐量低,或者由于依赖于可用模板和手动标签而固有地受到限制。
  • 本文提出了一种高吞吐量的、无需模板和标签的深度学习方法,即 deep iterative subtomogram clustering approach (DISCA)。通过学习和建模三维结构特征及其分布,自动检测同质结构的子集。
  • 在五个实验数据集上的评估表明,基于无监督深度学习的方法能够检测具有广泛分子大小范围的多样结构。

简介

DISCA通过学习由CNN提取的3D结构特征,并统计建模特征分布,自动在大规模冷冻电子断层扫描数据集中检测结构同质的颗粒子集。

给定一个重建的3D断层扫描数据集,在预处理步骤首先使用无模板颗粒拾取方法来检测潜在的结构并提取它们作为子体积。该预处理步骤是自动完成的,不需要手动标记,提取的子体积包含异质结构。

然后,使用DISCA将这些子体积分拣到相对同质的结构子集中。具体来说,作者提出了一个广义的期望最大化(EM)框架,根据提取的CNN特征迭代地对子体积进行聚类,并通过无监督训练优化CNN。最后作为框架之外的后处理步骤,已排序的子集被对齐、平均和重新嵌入到原始断层扫描空间,以可视化恢复的结构及其空间分布。

结果

DISCA 计算框架

DISCA主要受到计算机视觉领域最近提出的无监督图像聚类方法的启发。这些方法将深度神经网络与特征聚类算法和自监督策略相结合,从大规模二维图像数据集中学习图像的判别特征表示,而不需要预先指定的图像标签。同样,我们将特征聚类算法和自监督融入到DISCA中。此外,考虑到cryoET数据的特定属性,例如低信噪比和未知的簇的数量,我们设计了神经网络架构和训练策略来提高cryoET数据的结构排序性能。由于本文方法是无监督训练,因此设计了一种策略来迭代估计结构同质子集的数量和输入自断层图的结构类标签。提出的迭代动态标记策略通过广义期望最大化算法以交替方式更新两个模型。图2说明了用于特征提取的YOPO模型和用于特征空间中结构同质子集统计建模的高斯分布。

在E步骤中,根据当前学习的特征估计结构同质子集的数量和标签。
在M步骤中,YOPO参数通过反向传播训练进行更新,以最小化计算从E步估计的标签的损失函数。
在这里插入图片描述

在这里插入图片描述

具体来说,YOPO被随机初始化来从输入的子断层图中提取特征向量。
然后,通过一组K个候选结构同质子集的混合多元高斯分布在特征空间中拟合特征向量。只保留具有最低贝叶斯信息准则的混合分布。通过继承前一次迭代的参数来稳定统计模型拟合的优化过程。在第一个迭代之后的每次迭代中,高斯混合模型的参数先验,包括每个聚类的先验权重、均值和每个聚类的协方差矩阵,都由前一次迭代的聚类解初始化。

因为在使用前一次迭代结果初始化统计模型拟合时可能会积累误差,为了避免陷入局部最优,每轮迭代还会进行随机初始化参数的全新模型拟合。如果这个模型提高了统计模型的似然函数,这个参数就会被采用。这一设计的基本思想类似于强化学习中的Epsilon-Greedy算法。其中以一定概率选择用新解替换前一次观察的最佳解。

然后,子体积的当前估计标签由与具有最高概率的分量多元高斯分布相对应的硬聚类分配给出。在下一次迭代中,当前估计的标签用于通过最小化分类铰链损失函数训练YOPO,以学习更好的特征表示。经过YOPO训练后,混合分布将根据新提取的特征向量进行更新。这个过程迭代进行,直到满足停止标准——标签的一致性或最大迭代次数。

为了利用CNN的卓越性能,本文设计了一个专门用于子体积数据的CNN,命名为YOPO(SI 附录,图 S2),考虑了子体积数据的独特特点:
1)结构细节对于确定包含在亚体积中的大分子的类别至关重要;
2)包含的大分子具有随机的方向和位移;
3)信噪比(SNR)极低。
由于其强大的架构设计,YOPO具有结构细节保留、变换不变性和对噪声的鲁棒性等特性。这些也是在传统子体积分类方法中的理想特性。
在这里插入图片描述

作为一个特征提取模型,YOPO保留了详细的结构信息,并从子体积数据中提取旋转(通过自监督训练)和平移不变(通过架构设计)的特征。YOPO的平移不变性与输入数据或网络权重无关。这种平移不变性通常无法通过标准的CNN架构设计实现。

在SHREC2020比赛里YOPO的准确度是第三名,超过了模板匹配。重要的是,YOPO只需要目标大分子的位置坐标用来训练,其他有竞争力的算法需要体素级别的分割label。

在DISCA中YOPO的训练完全是无监督的,并且进一步自动化,不受所有外部领域知识的影响,包括现有的结构模板、手动标记或手动选择断层图中的密度。

Validation of the Feature Learning and Modeling Ability.

DISCA的设计能够实现变换不变性(transformation-invariant)的特征提取,自动估计聚类数量,并随着更大的样本量逐步提高性能。为了验证DISCA的这些能力,作者对各种成像参数的真实模拟数据集进行了多次实验。这些模拟数据集具有预先指定的真实标签,可以定量评估DISCA和现有方法的性能。

通过三个标准评估结果:
(1)估计的K (K范围2-20)
(2)同质性得分:根据真实标签衡量每个簇的同质程度。同质性得分不需要和真实值相同数量的聚类。
(3)预测准确度:测量正确标记的子断层图的百分比。只有K估计正确才能计算预测精度。

结果表明,随着信噪比降低和倾斜角度范围变小,同质性得分逐渐下降。所有设置下同质性得分都高于0.8,结果良好,意味着生成的簇通常是同质的。
在这里插入图片描述

在这里插入图片描述

无监督结构模式挖掘

目前有许多流形的子断层图平均软件,将平均值细化到高分辨率。但这些工具需要结构相对均匀的颗粒输入。DISCA的主要目的是有效地将代表性结构分类为大规模数据集中结构相对同质的子集,以补充这些工具。因此DISCA的目标是以高通量的方式识别代表性结构,而不是提高子断层平均分辨率。作者在来自不用细胞类型的五个实验冷冻电子断层扫描数据集上进行了测试。由于ground truth未知,有两种主流的方法来验证检测结果:1. 对每个检测到的结构子集进行对齐平均以恢复结构,并将其与现有的已知结构进行比较。2. 是与结构生物学家的手动注释进行比较。对五个数据集,作者进行了子断层图平均并计算了金标准傅里叶桥相关分辨率。其中三个实验数据集有专家标注,一个数据集由之前的粗表示学习方法自动标注。结果表明,DISCA检测到了多种代表性结构模式。子断层图对齐平均得到分辨率范围为14-38埃,证明了无模板和标记的方法适合原位结构分析。

讨论

局限性:

  1. DISCA的一个主要限制来自于对选定的子断层图的操作。理想情况下应该分析每个体素的子断层图,但是计算复杂度太高。尽管颗粒挑选步骤引入了一些false positives和negatives,但在和效率之间的trade-off是可接受的。
  2. 每个体素的绝大多数颗粒都包含背景噪声或结构,它们在断层图里难以识别。包含这些在内会导致排序过程将使模型偏向于区分结构和背景,而不是结构之间的差异。由于不同的大分子结构尺寸不同,在实验中使用了固定的子断层图尺寸,可以包围大多数大分子结构,为了避免结构被剪切,可以提供更大的子断层图,或者对DISCA使用相同的子断层图大小并提取更大尺寸的子断层图进行后处理平均。
  3. 另一个限制是分析大型连续结构,例如膜。子断层图平均的嵌入将显示为小块。可以通过对子断层图执行膜分割而不是进行平均来解决。从而产生逼真的连续膜结构标注。

无监督方法的一个主要关注点是训练稳定性。DISCA的训练通常是稳定的,这归功于所使用的初始化器:作者为YOPO使用了正交核初始化器和零偏置初始化器。训练的稳定性确保了DISCA的可重复性。在实际应用中,为了获得最佳的排序性能,用户可以运行DISCA多次并保留具有最低DDBI度量的结果,或者保留在现有数据集上成功预训练的DISCA模型,并在新数据集上进行微调。

在方法论的简约性方面,DISCA不需要手动干预或选择现有的结构模板进行匹配,这个特性提供了最大的自动化和客观性。总之,性能表明当缺乏数据集的手动注释或先验知识时,DISCA是冷冻电子断层扫描结构发现的一个合理替代方法,同时也是验证基于模板的结果的强大工具。通过快速检测冷冻电子断层扫描数据集中的代表性同质结构子集,DISCA还可以作为标准模板匹配和子体积平均流程的预处理步骤的补充。虽然DISCA能够自动检测丰富和具有代表性的冷冻电子断层扫描颗粒,但研究人员有时对稀有的大分子或特定类型的目标蛋白质感兴趣。DISCA在检测相对稀有结构方面的能力在表3的TRiC和蛋白酶体结构上已经得到了定量证明。

此外,用户可以
1)结合DISCA和模板匹配来搜索特定的目标蛋白质;
2)将DISCA扩展到多个阶段,首先检测并排除丰富的颗粒,然后再次应用DISCA对剩余的颗粒进行排序。

总之,DISCA展示了用于系统地发现丰富和具有代表性结构的高吞吐量冷冻电子断层扫描结构模式挖掘的潜力。


A u t h o r : C h i e r Author: Chier Author:Chier

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1352689.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开源大模型应用开发

1.大语言模型初探 ChatGLM3简介 ChatGLM3-6B 是一个基于 Transformer 的预训练语言模型,由清华大学 KEG 实验室和智谱 AI 公司于 2023 年共同训练发布。该模型的基本原理是将大量无标签文本数据进行预训练,然后将其用于各种下游任务,例如文…

c++基础(对c的扩展)

文章目录 命令空间引用基本本质引用作为参数引用的使用场景 内联函数引出基本概念 函数补充默认参数函数重载c中函数重载定义条件函数重载的原理 命令空间 定义 namespace是单独的作用域 两者不会相互干涉 namespace 名字 { //变量 函数 等等 }eg namespace nameA {int num;v…

力扣每日一题99:恢复二叉搜索树

题目 给你二叉搜索树的根节点 root ,该树中的 恰好 两个节点的值被错误地交换。请在不改变其结构的情况下,恢复这棵树 。 示例 1: 输入:root [1,3,null,null,2] 输出:[3,1,null,null,2] 解释:3 不能是 1 …

数脉观察二丨 详解CroPoolv2.0锁仓收益机制 文末附锁仓教程

1月1日元旦佳节期间,CyberVein基金会支持打造的CroPoolv2.0最新版本正式上线,获得了圈内媒体和知名KOL多方的关注,在Staking领域掀起了热议,用户可以前往CroPool.net进行锁仓体验。 CroPool v2.0新增“锁仓”功能板块&#xff0c…

findata——科学数据搜索引擎

findata由中国科学院计算机网络信息中心提供,具有很强的数据检索能力。 网址如下:https://www.findata.cn/ 主界面十分简洁 我们试着输入landsat,点击搜索按钮,给出以下结果。 我们还可以添加条件,进一步进行筛选 数…

three.js gltf后处理颜色异常(伽马校正)

效果&#xff1a; 应用了伽马校正&#xff0c;好像效果不明显 代码&#xff1a; <template><div><el-container><el-main><div class"box-card-left"><div id"threejs" style"border: 1px solid red"><…

RocketMQ5.0消息过滤

前言 消费者订阅了某个主题后&#xff0c;RocketMQ 会将该主题中的所有消息投递给消费者。若消费者只需要关注部分消息&#xff0c;可通过设置过滤条件在 Broker 端进行过滤&#xff0c;只获取到需要关注的消息子集&#xff0c;避免接收到大量无效的消息。 以电商交易场景为例…

手机视频监控客户端APP如何实现跨安卓、苹果和windows平台,并满足不同人的使用习惯

目 录 一、手机视频监控客户端的应用和发展 二、手机视频监控客户端存在的问题 三、HTML5视频监控客户端在手机上实现的方案 &#xff08;一&#xff09;HTML5及其优点 &#xff08;二&#xff09;HTML5在手机上实现视频应用功能的优势 四、手机HTML5…

FFmpeg之——获取上传视频的尺寸(长、宽)

获取上传视频的尺寸&#xff1a; 获取视频尺寸通常需要借助第三方库FFmpeg。 首先&#xff0c;确保你的系统中已安装了FFmpeg&#xff0c;并且FFmpeg的可执行文件路径已经添加到你的系统环境变量中。 1.官网下载ffmpeg 进入 链接: ffmpeg官网 网址&#xff0c;点击下载wind…

milvus学习(一)cosin距离和欧式距离

参考&#xff1a;https://blog.csdn.net/qq_36560894/article/details/115408613 归一化以后的cosin距离和欧式距离可以相互转化&#xff0c;未归一化的不可以相互转化&#xff08;因为距离带单位&#xff09;。

AI的明天从这里开始:OJAC近屿智能带您探索AIGC星辰大海的无限可能!

你是对人工智能充满好奇的编程小白&#xff0c;还是渴望工作赋能的白领&#xff1f;或者是想投身AIGC浪潮的创业者&#xff1f;无论你的背景如何&#xff0c;只要你对AI世界充满热情&#xff0c;我们OJAC近屿智能AIGC星辰大海大模型工程师和产品经理启航班以及系列课程都欢迎您…

利用Spring Cloud和Java系统设置优化工程项目管理系统源码的二次开发体验

工程项目管理涉及众多环节和角色&#xff0c;如何实现高效协同和信息共享是关键。本文将介绍一个采用先进技术框架的Java版工程项目管理系统&#xff0c;该系统支持前后端分离&#xff0c;功能全面&#xff0c;可满足不同角色的需求。从项目进度图表到施工地图&#xff0c;再到…

Java 语言概述

Java 概述 是 SUN&#xff08;Stanford University Network&#xff0c;斯坦福大学网络公司&#xff09;1995年推出的一门高级编程语言 是一种面向 Internet 的编程语言。Java 一开始富有吸引力是因为 Java 程序可以在 Web 浏览器中运行。这些 Java 程序被称为 Java 小程序&am…

深入研究矫正单应性矩阵用于立体相机在线自标定

文章&#xff1a;Dive Deeper into Rectifying Homography for Stereo Camera Online Self-Calibration 作者&#xff1a;Hongbo Zhao, Yikang Zhang, Qijun Chen,, and Rui Fan 编辑&#xff1a;点云PCL 欢迎各位加入知识星球&#xff0c;获取PDF论文&#xff0c;欢迎转发朋…

文件监控软件丨文件权限管理工具

文件已经成为企业最重要的资产之一。然而&#xff0c;文件的安全性和完整性经常受到威胁&#xff0c;如恶意软件感染、人为误操作、内部泄密等。 为了确保文件的安全&#xff0c;文件监控软件应运而生。本文将深入探讨文件监控软件的概念、功能、应用场景和未来发展等方面。 文…

Deep Q-Network (DQN)理解

DQN&#xff08;Deep Q-Network&#xff09;是深度强化学习&#xff08;Deep Reinforcement Learning&#xff09;的开山之作&#xff0c;将深度学习引入强化学习中&#xff0c;构建了 Perception 到 Decision 的 End-to-end 架构。DQN 最开始由 DeepMind 发表在 NIPS 2013&…

中兴通讯携手龙蜥社区,共创繁荣生态 | 2023龙蜥操作系统大会

12 月 17-18 日&#xff0c;由开放原子开源基金会指导&#xff0c;龙蜥社区主办&#xff0c;阿里云、中兴通讯、浪潮信息、Arm、Intel 等 24 家理事单位共同承办&#xff0c;主题为“云智融合共筑未来”的 2023 龙蜥操作系统大会在北京圆满结束。本次大会上&#xff0c;中兴通讯…

海外静态IP和动态IP有什么区别?推荐哪种?

什么是静态ip、动态ip&#xff0c;二者有什么区别&#xff1f;哪种好&#xff1f;关于这个问题&#xff0c;不难发现&#xff0c;在知道、知乎上面的解释有很多&#xff0c;但据小编的发现&#xff0c;这些回答都是关于静态ip和动态ip的专业术语解释&#xff0c;普通非专业人事…

java生产设备效率管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java Web生产设备效率管理系统是一套完善的java web信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为ac…

web自动化(6)——项目配置和Grid分布式

1. 框架的可配置性 项目之间的区别&#xff1a; 兼容性&#xff1a;有些项目只兼容chrome&#xff0c;有些只兼容Firefox等元素定位特点&#xff1a;有些项目闪现快&#xff0c;有的项目很慢有些项目集成Jenkins&#xff0c;不需要用python生成allure报告 如果想要我们的框架…