文献学习-23-MRM:用于遗传学医学图像预训练的掩码关系建模

news2025/1/9 16:06:15

MRM: Masked Relation Modeling for Medical Image Pre-Training with Genetics

Authors:  Qiushi Yang, Wuyang Li, Baopu Li, Yixuan Yuan

Source: ICCV 2023

Abstract:

关于自动多模态医疗诊断的 ODERN 深度学习技术依赖于大量的专家注释,这既耗时又令人望而却步。最近基于掩码图像建模 (MIM) 的预训练方法在从未标记数据中学习有意义的表示并转移到下游任务方面取得了令人瞩目的进展。然而,这些方法只关注自然图像,而忽略了医疗数据的具体属性,导致下游医学诊断的泛化性能不尽如人意。在本文中,旨在利用遗传学来促进图像预训练,并提出一个掩蔽关系建模(MRM)框架。在以前的MIM方法中,没有显式屏蔽输入数据,导致疾病相关语义的丢失,而是设计了关系掩码来屏蔽自模态和跨模态级别的标记特征关系,从而在输入中保留了完整的语义,并允许模型学习丰富的疾病相关信息。此外,为了增强语义关系建模,提出了关系匹配来对齐完整特征和掩码特征之间的样本关系。关系匹配通过鼓励特征空间中的全局约束来利用样本间关系,为特征表示提供足够的语义关系。大量实验表明,所提出的框架简单而强大,在各种下游诊断任务中实现了最先进的转移性能。

在医学诊断中,大规模的多模态生物样本库数据,例如图像和遗传学,对于可靠的诊断是必要的,克服了单一模式的有限规模和疾病信息数据。然而,大规模数据集的专家注释令人望而却步,这使得训练传统的深度模型变得困难。特别是在这种多模态场景中,各个医学领域专家的要求阻碍了足够的注释访问,严重限制了自动诊断系统的接地。为了解决这个问题,最流行的趋势是自监督预训练,例如,掩码图像建模(MIM),旨在训练具有足够泛化能力的无标签模型。现有的MIM方法屏蔽了输入图像中的大部分补丁,并推断出缺失的内容,如图1(a)所示。利用上下文信息来浏览语义并重建整个图像,从而执行掩码和重构任务,以在没有注释的情况下预训练模型,并将有意义的表示转移到各种用于改进标签效率微调的下游任务。尽管取得了巨大的成功,但大多数作品都是为自然图像设计的,忽略了医学数据与自然图像之间的本质区别。因此,根据经验发现,现有的MIM不能在医学数据中很好地工作(见表1),甚至完全无法重建疾病(见图3)。原因源于对重大数据差异的批判性观察,可以将其概括为两个挑战。首先,与自然图像相比,医学数据中的语义区域有限。如图1(a)所示,语义丰富的前景始终是自然图像的主体,而其余非信息性背景区域仅代表一小部分。不同的是,在医学图像(图1(b))中,大多数区域是背景,而信息丰富的疾病区域通常规模很小。

在现有的MIM方法中屏蔽整个标记的策略下,如果疾病标记被屏蔽掉,则与疾病相关的语义将完全丢失,并导致灾难性的信息丢失,从而导致无法处理的重建。这个问题也存在于基因组学和自然图像之间。基因组学中的语义区域,即疾病相关模式,主要位于少数基因组片段中[28,5,7]。因此,这些观察结果并没有屏蔽整个输入标记,而是促使深入研究标记级关系的掩码,这保留了丰富的语义可判别性和充分的自我监督,如图 1 (c) 左图所示。第二个挑战是有限的语义关系。在自然图像中,背景和前景的关系,例如,天空中的鸟和房间里的人,往往是繁荣和丰富的,在语义水平学习中起着关键作用。相比之下,在每个医学数据样本中,疾病意识关系是有限的,不足以提供足够的鉴别证据。原因在于,医学数据集通常是从同一个人体器官(例如眼底)收集的,其中包含冗余和相似的解剖模式(例如毛细血管),这严重阻碍了疾病与复杂医学场景之间的关系建模。这一挑战阻碍了现有MIM方法中的可靠关系学习,并可能不可避免地导致后台中非信息关系的过度拟合。因此,考虑到每个数据样本中的有限语义关系,致力于超越独立和单个数据样本的自监督学习,并建议鼓励利用样本间关系的全局约束(见图1(c)右)。

为了应对上述挑战,如图1(c)所示,提出了MRM,这是一种从统一的关系视图中屏蔽的关系建模,包含关系掩蔽和关系匹配,以合理地预训练具有遗传学的多模态医学图像。为了在原始输入中保留完整的语义信息,设计了关系掩蔽策略,使模型能够学习与疾病相关的语义。关系掩码不是屏蔽输入数据,而是在自模态和跨模态级别上研究特征表示中的标记关系,并屏蔽所有多模态标记之间的关系。关系掩码使模型能够从原始数据中显式学习全局依赖性,而不会遗漏与疾病相关的语义信息。此外,为了改进语义关系建模,设计了关系匹配,通过对齐多个样本的特征关系来提供全局约束。具体而言,关系匹配利用自模态和跨模态水平上的样本关系来鼓励完整特征和掩蔽特征之间的关系一致性。这具有每个样本像素级重建损耗的互补优势,并提高了模型的传递能力。通过预训练模型,可以获得可以转移到监督下游诊断任务的特征表示,以提高标签效率的微调,从而缓解对专业注释的严格需求。

本文的贡献分为四个部分:

• 确定了当前 MIM 方法对医疗数据的挑战,并提出了 MRM,这是一种使用多模态医疗数据的掩蔽关系建模,以促进图像表示学习。

• 针对医疗数据中语义区域有限的问题,设计了关系掩码来掩蔽跨自我和跨模态的特征关系。与MIM显式掩蔽输入不同,关系掩蔽保留了输入中的疾病语义,赋予了强大的掩码和构造任务。

• 此外,为了丰富疾病之间的语义关系,提出关系匹配方法,通过在自身和跨模态水平上对齐完整特征和掩蔽特征之间的样本特征关系来捕捉丰富的疾病相关关系。

• 使用两个公共医疗预训练数据集对各种下游任务进行广泛的迁移评估表明,所提出的框架比最先进的方法具有更好的转移能力。

图 1.比较自然和医学数据的不同掩蔽策略。(a):现有的MIM方法屏蔽输入的自然图像,并推断缺失的内容,通过重构任务学习语义表征。(b):最近的疾病诊断预训练方法明确地在输入的医学数据(例如,医学图像和基因组)上采用MIM,而它们容易丢失微小的疾病区域并导致无法处理的重建。(c):该方法在多模态数据中屏蔽了标记特征关系,匹配了完整特征和掩码特征之间的样本关系,保留了完整的语义区域并丰富了关系信息。

图2.掩码关系建模 (MRM) 概述。MRM 包含关系掩码,用于屏蔽标记、特征关系,同时保留与疾病相关的语义,以及关系匹配,以强制全局语义建模的样本关系一致性。

如图 2 所示,所提出的 MRM 包括关系掩蔽策略,以屏蔽特征关系并保留完整的疾病相关语义,以及关系匹配,为关系建模提供全局约束。使用输入图像习和基因组,ViT编码器fI和自归一化网络(SNN)通过关系掩蔽产生图像和基因组的掩码特征表示。同样,完整的表示由两个编码器获得,没有关系掩码。然后,将掩蔽特征,M与来自其他模态的完整特征聚合,分别得到融合特征。然后将这些融合特征放入图像解码器和基因组解码器中,以重建原始数据和。在完整和屏蔽的特征表示上采用关系匹配,并处理数据重建损失,以共同优化整体框架。

使用关系掩蔽进行重建。将输入数据输入到两个共享参数的网络中,其中第一个网络由一个 ViT 编码器组成,以产生完整的图像特征,以及一个具有自注意力块的 SNN 编码器,以产生基因组特征。同时,第二个网络在前两个注意力块中采用所提出的自模态和跨模态关系掩蔽,分别为图像和基因组生成掩蔽特征。之后,将掩蔽的特征与其他模态的完整特征合并,并产生图像和基因组的合并特征。然后将融合的特征放入解码器以重建图像和基因组。

关系掩码策略利用标记-特征关系进行掩码和重构任务。值得注意的是,尽管去除了强关系,但保留了数据中的内在信息。因此,以原始的完整图像和基因组为输入,的关系掩蔽可以保留完整的疾病相关语义。通过基于关系掩蔽的重建任务,鼓励模型恢复自我模态关系,以捕获每个模态内的疾病相关信息,并强制执行跨模态关系进行重构,学习丰富的多模态知识,以提高疾病相关表征,从而有效地转移下游诊断任务。

考虑到疾病之间的疾病感知关系在医学数据中是有限的,为了提供足够的语义关系,本文提出了关系匹配,这是一种全局约束,用于对齐自模态和跨模态样本的样本关系,以在特征空间中执行全局约束。

在预训练阶段,图像和基因组作为多模态输入被输入到模型中。采用所提出的关系掩码来生成掩码特征,并采用关系匹配作为全局约束,并结合数据重建损失来共同优化整体框架在基于下游图像的微调阶段,丢弃基因组分支,并利用图像编码器提取了特征表示,而无需进行关系掩码。在随机初始任务相关头之后,预训练的编码器在下游任务上进行微调以进行评估。

表 1.通过对四个基于下游视网膜图像的任务进行微调评估,与最先进的预训练算法进行比较。

表 2.在下游病理图像任务上转换的结果。

图3.不同方法重建结果的比较。从左到右分别是原始输入和MAE [16]、AttMask [19]和MRM的重建图像。可以观察到,MRM可以保留以蓝色为框架的疾病区域,而基于MIM的方法则丢失了它们。

表 3.在视网膜图像任务中,每个拟议成分在关系掩蔽和关系匹配方面的消融研究。

图4.消融研究。(a) 图像和基因组的掩蔽比τI和τG。(b) 两个损失函数的平衡系数λ。

表 4.基因-图像关联分析结果。

表 5.在基于视网膜图像的任务上使用单一图像模态预训练转换结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1559265.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DeepL Pro3.1 下载地址及安装教程

DeepL Pro是DeepL公司推出的专业翻译服务。DeepL是一家专注于机器翻译和自然语言处理技术的公司,其翻译引擎被认为在质量和准确性方面表现优秀.DeepL Pro提供了一系列高级功能和服务,以满足专业用户的翻译需求。其中包括: 高质量翻译&#xf…

Python 常用内置库 time库、random库、turtle库

文章目录 一、time库二、random库三、turtle库1. 绘制正方形2. 使用海龟对象绘制六边形3. 绘制多个起点相同大小不同起点的五角星4. 绘制多个图形和添加文字 提示:以下是本篇文章正文内容,下面案例可供参考 一、time库 time是最基础的时间处理库&#…

系统慢查询的思考

系统慢查询的思考 在一个系统中发现慢查询的功能或很卡的现象。你是怎么思考的?从哪几个方面去思考?会用什么工具? 一个系统使用了几年后都可能会出现这样的问题。原因可能有以下几点。 数据量的增加。系统中平时的使用中数据量是有一个累…

HTML块级元素和内联元素(头部和布局)

目录 1.HTML块级和内联标签: 1.块级元素: 2.内联元素: 3.元素嵌套: 4.元素转换: 示例如下: 2.内联框架: 前言: 示例如下: 3.布局: 4.头部标签: 前言: 说明&…

GT收发器PHY层设计(3)PHY层设计

文章目录 前言一、设计框图二、PHY层基本传输协议三、PHY_TX模块3.1、模块接口3.2、组帧状态机描述3.3、数据大小端问题3.4、字节对齐 四、PHY_RX模块4.1、模块接口4.2、大小端转换4.3、起始位4.4、结束位4.5、axis数据流恢复 五、LFSR伪随机码六、链路空闲时期处理 前言 上一…

windows平台虚拟机安装

windows平台虚拟机安装 1. 安装VMwareWorkstationPro 1.1 软件下载 官网下载 官网 百度网盘下载 版本 VMwareWorkstationPro16 链接:https://pan.baidu.com/s/1LidMxoM9e4a4CANixyRoyg?pwd1157 提取码:1157 1.2 软件安装 软件安装注意事项 软件…

类的新功能

类的新功能 默认成员函数 在C11之前,一个类中有如下六个默认成员函数: 构造函数。拷贝构造函数赋值重载析构函数取地址重载函数const取地址函数 其中前四个默认成员函数最重要,后面两个默认成员函数一般不会用到,这里默认成员…

Js之运算符与表达式

运算符:也叫操作符,是一种符号。通过运算符可以对一个或多个值进行运算,并获取运算结果。 表达式:由数字、运算符、变量的组合(组成的式子)。 表达式最终都会有一个运算结果,我们将这个结果称…

从输入url到页面展示的过程

唠唠叨:我不想误人子弟,我这篇算是搬运工,加上自己的理解做点总结,所以还请大家科学上网去看这篇:https://aws.amazon.com/cn/blogs/mobile/what-happens-when-you-type-a-url-into-your-browser/ 是这六个步骤&#…

springboot论坛管理系统

论坛管理系统 摘要: 在社会快速发展的影响下,论坛管理系统继续发展,使论坛管理系统的管理和运营比过去十年更加信息化。依照这一现实为基础,设计一个快捷而又方便的网上论坛管理系统是一项十分重要并且有价值的事情。对于传统的论…

如何提升公众号搜索量?分享内部运营的5步优化技术!

最近一直有自媒体同行朋友在写关于公众号的内容,很多都说公众号现在没得玩了。其实,在运营自媒体上面,思维不通,技术不到位,哪个平台都不适合你玩。 想要在自媒体上面运营变现,一定不要先点击广告变现&…

【Linux】详解文件系统以及周边知识

一、磁盘的基本知识 磁盘中可以被划分成一个一个的环,每个环都是一个磁道。每个磁道又可以被均分成一个一个的扇区,扇区是磁盘IO的基本单位(想要修改扇区中的一个比特位就必须把该扇区的全部比特位都加载到内存中)。磁盘中的盘面&…

「MySQL」索引事务

🎇个人主页:Ice_Sugar_7 🎇所属专栏:数据库 🎇欢迎点赞收藏加关注哦! 索引&事务 🍉索引🍌特点🍌通过 SQL 操作索引🍌底层数据结构 🍉事务&…

张颂文|永远保持好奇心的人,是永远进步的人。

哈喽,你好啊,我是雷工! 今天看到了张颂文的一段演讲,提到了他因为好奇心而被改变的人生。 如果想把单一和枯燥的工作做的更好,张颂文的办法是像一个孩子一样保持好奇心,不停地提出一些有趣的问题。 在5年的导游经历中,对每次游览的地点都像初次游览般保持好奇心,正因为…

C++从入门到精通——引用()

C的引用 前言一、C引用概念二、引用特性交换指针引用 三、常引用保证值不变权限的方法权限的放大权限的缩小权限的平移类型转换临时变量 四、引用的使用场景1. 做参数2. 做返回值 五、传值、传引用效率比较值和引用的作为返回值类型的性能比较 六、引用和指针的区别引用和指针的…

工单系统的作用与优势!为什么企业需要它?

什么是工单系统?工单系统作为企业服务类工具,能在管理上和业务上为企业带来什么帮助吗? 什么是工单系统 ZohoDesk工单系统是一种用于管理和处理任务或请求的软件工具。它提供了一个集中的平台,使组织能够跟踪、分配和解决各种问题、请求和…

AWS创建IAM用户,以及通过IAM用户登录

基本概念: IAM Identity Center(AWS SSO) 跨账户访问:IAM Identity Center允许用户使用他们自己的单一登录凭证来访问多个AWS账户和应用程序。这意味着你可以拥有一个账户和密码,通过IAM Identity Center的用户门户&…

前端虚拟滚动列表 vue虚拟列表

前端虚拟滚动列表 在大型的企业级项目中经常要渲染大量的数据,这种长列表是一个很普遍的场景,当列表内容越来越多就会导致页面滑动卡顿、白屏、数据渲染较慢的问题;大数据量列表性能优化,减少真实dom的渲染 看图:绿色…

攻防世界——catfly

这道题我觉得很难,我当初刷题看见这道题,是唯一一道直接跳过的,现在掌握了一点知识才回来重新看 这道题在linux运行下是这样,我首先猜测是和下面这个time有关,判断达到一定次数就会给我flag 但是我找了好久都没找到那…

NFT-前端开发(一)

使用 在我们想要保存项目的目录下打开终端运行npx create-react-app test2命令初始化,test2是我们的项目名字,可以自己去更改。 初始化完成后,我们目录下就会多出一个test2文件夹 ,然后我们在vscode中打开该文件夹 然后我们打开j…