MMGPL: 基于图提示学习的多模态医学数据分析 文献速递-大模型与多模态诊断阿尔茨海默症与帕金森疾病应用

news2024/11/24 11:10:19

Title

题目

MMGPL: Multimodal Medical Data Analysis with Graph Prompt Learning

MMGPL: 基于图提示学习的多模态医学数据分析

01

文献速递介绍

神经系统疾病,包括自闭症谱系障碍(ASD)(Lord 等,2018)和阿尔茨海默病(AD)(Scheltens 等,2021),严重损害了患者的社交、语言和认知能力,已经成为全球范围内严重的公共卫生问题(Feigin 等,2020)。不幸的是,对于大多数神经系统疾病(例如 ASD 和 AD),目前尚无明确的治愈方法,因此,迫切需要对神经系统疾病进行诊断,以促进早期干预并延缓其恶化(Wingo 等,2021;Zhu 等,2022)。

在过去的十年中,研究人员(Wen 等,2020;Li 等,2021;Dvornek 等,2019)应用了多种机器学习方法,例如卷积神经网络(CNN)(LeCun 和 Bengio,1995)、图神经网络(GNN)(Kipf 和 Welling,2017)和循环神经网络(RNN)(Schuster 和 Paliwal,1997),来诊断神经系统疾病。尽管这些方法取得了显著进展,但由于这些方法直接在小规模和复杂的医学数据集上进行训练,因此难以保证这些深度学习模型的稳健性和有效性(Dinsdale 等,2022)。

Aastract

摘要

Prompt learning has demonstrated impressive efficacy in the fine-tuning of multimodal large models to awide range of downstream tasks. Nonetheless, applying existing prompt learning methods for the diagnosisof neurological disorder still suffers from two issues: (i) existing methods typically treat all patches equally,despite the fact that only a small number of patches in neuroimaging are relevant to the disease, and (ii) theyignore the structural information inherent in the brain connection network which is crucial for understandingand diagnosing neurological disorders. To tackle these issues, we introduce a novel prompt learning modelby learning graph prompts during the fine-tuning process of multimodal models for diagnosing neurologicaldisorders. Specifically, we first leverage GPT-4 to obtain relevant disease concepts and compute semanticsimilarity between these concepts and all patches. Secondly, we reduce the weight of irrelevant patchesaccording to the semantic similarity between each patch and disease-related concepts. Moreover, we constructa graph among tokens based on these concepts and employ a graph convolutional network layer to extract thestructural information of the graph, which is used to prompt the pre-trained multimodal models for diagnosingneurological disorders. Extensive experiments demonstrate that our method achieves superior performance forneurological disorder diagnosis compared with state-of-the-art methods and validated by clinicians.

提示学习在多模态大型模型的微调过程中对各种下游任务表现出了显著的效果。然而,将现有的提示学习方法应用于神经系统疾病的诊断仍然面临两个问题:(i)现有方法通常将所有补丁视为同等重要,尽管在神经影像中只有少数补丁与疾病相关;(ii)它们忽略了大脑连接网络中固有的结构信息,而这对于理解和诊断神经系统疾病至关重要。为了解决这些问题,我们在多模态模型微调过程中引入了一种通过学习图提示来诊断神经系统疾病的新颖提示学习模型。具体而言,我们首先利用GPT-4获取相关的疾病概念,并计算这些概念与所有补丁之间的语义相似度。其次,根据每个补丁与疾病相关概念之间的语义相似度,减少与疾病无关的补丁的权重。此外,我们基于这些概念在标记之间构建了一个图,并采用图卷积网络层来提取该图的结构信息,这些信息用于提示预训练的多模态模型进行神经系统疾病的诊断。大量实验表明,与最先进的方法相比,我们的方法在神经系统疾病诊断方面表现出优越的性能,并得到了临床医生的验证。

Method

方法

Utilizing transformers (Vaswani et al., 2017) as the architectureof encoders to process multimodal data has become a popular choicein modern multimodal large models, as it can effectively integrateinformation from multiple modalities. For example, pre-trained visionlanguage models like CLIP (Radford et al., 2021) employ separatetransformer-based backbones (e.g., ViT) to encode images and textseparately. To obtain representations of the samples, the transformerarchitecture involves two key components: (i) Tokenization: convertingthe raw data into tokens. (ii) Encoding: performing attention-basedfeature extraction layers on all tokens.

利用Transformer(Vaswani 等,2017)作为编码器的架构来处理多模态数据已成为现代多模态大型模型中的一种流行选择,因为它能够有效整合来自多种模态的信息。例如,预训练的视觉语言模型如CLIP(Radford 等,2021)采用基于Transformer的独立骨干网络(如ViT)分别对图像和文本进行编码。为了获得样本的表示,Transformer架构涉及两个关键组件:(i) 标记化:将原始数据转换为标记。(ii) 编码:对所有标记执行基于注意力的特征提取层。

Conclusion

结论

In this paper, we proposed a graph prompt learning fine-turningframework for neurological disorder diagnosis, by jointly considering the impact of irrelevant patches as well as the structural information among tokens in multimodal medical data. Specifically, weconduct concept learning, aiming to reduce the weights of irrelevant tokens according to the semantic similarity between each tokenand disease-related concepts. Moreover, we conducted graph promptlearning with concept embeddings, aiming to bridge the gap betweenmultimodal models and neurological disease diagnosis. Experimentalresults demonstrated the effectiveness of our proposed method, compared to state-of-the-art methods on neurological disease diagnosistasks.

在本文中,我们提出了一种用于神经系统疾病诊断的图提示学习微调框架,该框架结合了多模态医学数据中与疾病无关的补丁的影响以及标记之间的结构信息。具体而言,我们进行了概念学习,旨在根据每个标记与疾病相关概念之间的语义相似度来减少与疾病无关的标记的权重。此外,我们利用概念嵌入进行了图提示学习,旨在弥合多模态模型与神经系统疾病诊断之间的差距。实验结果表明,与最先进的方法相比,我们提出的方法在神经系统疾病诊断任务中具有显著的效果。

Figure

图片

Fig. 1. The flowchart of the proposed MMGPL consists of three modules i.e., multimodal data tokenizer (light blue block), concept learning (light green block), and graph promptlearning (light yellow block). First, MMGPL divides the multimodal medical data into multiple patches and project them into a shared embedding space (Section 3.2). Second,MMGPL prompts the GPT-4 to generate disease-related concepts and further learn the weights of tokens based on the semantic similarity between tokens and concepts (Section 3.3).Third, MMGPL learns a graph among tokens and extracts structural information to prompt the unified encoder (Section 3.4). Finally, MMGPL obtains the output from the unifiedencoder and uses it to predict the label of the subject.

图1. 所提出的MMGPL流程图由三个模块组成,即多模态数据标记器(浅蓝色块)、概念学习(浅绿色块)和图提示学习(浅黄色块)。首先,MMGPL将多模态医学数据分割成多个补丁并将其投影到共享的嵌入空间中(第3.2节)。其次,MMGPL提示GPT-4生成与疾病相关的概念,并根据标记与概念之间的语义相似度进一步学习标记的权重(第3.3节)。第三,MMGPL在标记之间学习一个图并提取结构信息,以提示统一的编码器(第3.4节)。最后,MMGPL从统一的编码器中获取输出并用其预测受试者的标签。

图片

Fig. 2. Performance of MMGPL with different combinations of components on all datasets, i.e., ‘‘B’’ denotes baseline method, ‘‘B+G’’ denotes baseline method with graph promptlearning, ‘‘B+W’’ denotes baseline method with token weights, and ‘‘B+W+G’’ denotes baseline method with graph prompt learning and token weights.

图2. MMGPL在所有数据集上使用不同组件组合的性能表现,其中“B”表示基线方法,“B+G”表示结合图提示学习的基线方法,“B+W”表示结合标记权重的基线方法,“B+W+G”表示结合图提示学习和标记权重的基线方法。

图片

Fig. 3. Performance of MMGPL with different modalities

图3. MMGPL在不同模态下的性能表现。

图片

Fig. 4. Heat maps generated by MMGPL on different subjects in ADNI dataset.

图4. MMGPL在ADNI数据集不同受试者上生成的热图。

图片

Fig. 5. The visualization of concept-similarity graph on the ADNI dataset. The horizontal and vertical axes represent concepts and tokens. Different colors represent conceptsbelonging to different categories. The red texts represent concepts related to NC, the green texts represent concepts related to LMCI, and the blue texts represent concepts relatedto AD.

图5. ADNI数据集上概念相似性图的可视化。横轴和纵轴代表概念和标记。不同的颜色代表属于不同类别的概念。红色文本代表与NC相关的概念,绿色文本代表与LMCI相关的概念,蓝色文本代表与AD相关的概念。

图片

Fig. 6. The visualization of the quantified impact of different concepts on the ADNIdataset. The concepts are shown on the left side, while classes are shown on the rightside. The width of the lines corresponds to the magnitude of the weights, and thevalues indicate the specific weight values.

图6. 不同概念对ADNI数据集量化影响的可视化。概念显示在左侧,类别显示在右侧。线条的宽度对应权重的大小,数值表示具体的权重值。

Table

图片

Table 1Diagnose performance (mean and standard deviation) of all methods on all datasets. Note that, ‘‘ADNI-3CLS’’ and ‘‘ADNI-4CLS’’ indicate theclassification on three classes ‘‘NC/LMCI/AD’’ and the classification on four classes ‘‘NC/EMCI/LMCI/AD’’, respectively.

表1所有方法在所有数据集上的诊断性能(均值和标准差)。需要注意的是,“ADNI-3CLS”和“ADNI-4CLS”分别表示对三类“NC/LMCI/AD”和四类“NC/EMCI/LMCI/AD”的分类。

图片

Table 2Comparison between MMGPL and related works on scalability. Note that, ✓(vanilla)indicates can only supports two modalities and is challenging to expand to supportsmore modalities.

表2MMGPL与相关工作在可扩展性方面的比较。需要注意的是,✓(vanilla)表示仅支持两种模态,且难以扩展以支持更多模态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2087115.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Socket【网络】

文章目录 源端口号和目的端口号端口号&&进程pid TCP协议和UDP协议网络字节序socket 接口sockaddrsocket代码 源端口号和目的端口号 端口号: 端口号是传输层协议的内容。端口号是一个2字节16位的整数。端口号用来标识一个进程,告诉操作系统&…

【SpringCloud应用框架】GateWay网关

Spring Cloud Alibaba 之初识GateWay网关 文章目录 一、网关介绍二、网关对比三、GateWay基本概念:执行流程: 总结 一、网关介绍 在微服务架构中,一个系统会被拆分为多个微服务。如果没有网关存在,我们只能在客户端记录梅哥为服务…

Windows下创建FTP服务器,实现文件共享

版权归作者所有,如有转发,请注明文章出处:https://cyrus-studio.github.io/blog/ 创建FTP服务器 在【启用和关闭 Windows 功能】中选中【FTP服务】【IIS管理控制台】 应用更改完成后,重启电脑。 执行 ipconfig 命令查看当前电脑…

LeetCode刷题:3.无重复字符的最长子串

问题:首先分析问题得出需求 1.要求得到一个唯一最长子串的序列的长度。 子串:依据其形式是拥有一段长度的,所以考虑滑动窗口 唯一:考虑使用HashSet 需求描述:要求得到滑动窗口的大小,也就是左右指针的距离&…

STC89C52 串口浅谈

文章目录 1. 串口1.1 串口概述1.2 串口相关概念1.3 UART1.4 STC89C52串口1.4.1 串口相关寄存器1.4.2 串口模式图 1.5 串口配置简单代码示例1.5.1 UART串口初始化1.5.2 串口中断函数模板 1. 串口 1.1 串口概述 串口(serial)是一种通讯接口,可…

如何在Mac电脑上本地部署Stable Diffusion:详细教程(webUI)

Stable Diffusion是一款强大的AI生成图像模型,它可以基于文本描述生成高质量的图像。对于想要在本地运行此模型的用户来说,使用Mac电脑部署Stable Diffusion是一个非常吸引人的选择,特别是对于M1或M2芯片的用户。本文将详细介绍如何在Mac上本…

【图像去噪】论文精读:Spatial-Adaptive Network for Single Image Denoising(SADNet)

请先看【专栏介绍文章】:【图像去噪(Image Denoising)】关于【图像去噪】专栏的相关说明,包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总(更新中…

数据结构(邓俊辉)学习笔记】串 15——BM_GS算法:综合性能

1.BM之性能 接下来,针对已经综合了 bc 和 gs 两种策略的 BM 算法,标定它对应的复杂度,并将这种算法与此前的 KMP 以及蛮力算法在性能上做一个综合的对比分析。 首先是 BM 算法本身的性能。 在空间方面,除了模式串和文本串本身&a…

Qt:玩转QPainter序列十

前言 最后的一个解读QPainter源码的系列,剩下的源码全部都是内联函数,自己看看就好。 正文 渲染相关 void setRenderHint(RenderHint hint, bool on true); 功能: 启用或禁用特定的渲染提示。参数: hint:指定要设置的渲染提示,…

基于Leaflet Legend的图例数据筛选实践-以某市教培时空分布为例

目录 前言 一、关于Leaflet.Legend组件 1、Legend组件的主要参数 2、相关参数 二、Legend图例可视化控制 1、违规教培信息的管理 2、违规培训信息时空可视化及图例渲染控制 3、成果展示 三、总结 前言 在很多的地理时空分析系统中,我们经常会遇到一些需求。…

运维-3.分库分表

分库分表 1.介绍2.Mycat概述3.Mycat入门4.Mycat配置4.1 schema.xml4.1.1 schema标签4.1.2 dataNode标签4.1.3 dataHost标签 4.2 rule.xml4.3 server.xml4.3.1 system标签4.3.2 user标签 5.Mycat分片5.1 垂直拆分5.2 水平拆分5.3 分片规则5.3.1 范围分片5.3.2 取模分片5.3.3 一致…

若依微服务Admin控制台不显示ruoyi-file问题解决

本地启动完若依微服务,发现Admin控制台只显示了6个服务,其中ruoyi-file启动成功,但是没有在Admin控制台中显示处理,本章问题,给出这个问题的解决办法。 一、什么是服务监控 监视当前系统应用状态、内存、线程、堆栈、日志等等相关信息,主要目的在服务出现问题或者快要出…

机器学习和深度学习·贝叶斯优化和optuna

贝叶斯优化 贝叶斯优化的思想 先验:取点 似然:假设分布 取了n个点之后… 后验:近似取得极值 贝叶斯优化的数学过程 在贝叶斯优化的数学过程当中,我们主要执行以下几个步骤: 1 定义需要估计的 f ( x ) f(x) f(x)以及…

零基础学习Python(七)

1. 字符串常用方法 lower()、upper():转换为小写字符串、大写字符串 split(str):按照指定字符串str进行分割,结果为列表: email "123qq.com" print(email.split("")) [123, qq.com] count(str)&#xf…

MySQL 系统库

文章目录 一. 概念二. performance_schema1. 概念 2. 检查当前数据库版本是否支持3. performance_schema表分类5. 配置与使用6. 查看执行失败的SQL语句7. 查看最近事务执行信息8. 小结 三. sys系统库1. 使用须知2. 使用3. 查看慢SQL语句慢在哪4. 小结 四. Information_schema1.…

中国城市经济韧性数据集(2007-2022年)

数据来源:数据来自历年《中国城市统计NJ》、各省市《统计NJ》及《中国区域经济统计NJ》 时间范围:2007-2022年 数据范围:中国地级市样例数据: 包含内容: 全部内容下载链接(原始数据计算代码最终数据&…

Spring Boot DevTools:简化开发,实现热部署

Spring Boot DevTools:简化开发,实现热部署 1、如何集成?MavenGradle 2、主要特性3、注意事项 💖The Begin💖点点关注,收藏不迷路💖 Spring Boot DevTools是开发者的得力助手,它通过…

AR 眼镜之-系统通知定制(通知弹窗)-实现方案

目录 📂 前言 AR 眼镜系统版本 系统通知定制 1. 🔱 技术方案 1.1 技术方案概述 1.2 实现方案 1)实现系统通知的监听 2)系统通知显示:通知弹窗 2. 💠 实现系统通知的监听 2.1 继承 NotificationLi…

全场景——(六)Moubus 功能码详解

文章目录 一、功能码概要二、(0x01)读取线圈2.1 功能说明2.2 查询报文2.3 响应报文 三、 (0x02) 读取离散量输入值3.1 功能说明3.2 查询报文3.3 响应报文 三、(0x03)读取保持寄存器值3.1 功能说明3.2 查询报文3.3 响应报文 五、 (…

LabVIEW项目中硬件选型与长期需求沟通

在LabVIEW项目中,选择合适的硬件和有效的需求沟通是成功的关键。大品牌硬件通常具备更高的稳定性和完善的售后服务,而小品牌虽然看似便宜,却可能带来通讯不稳定、技术支持不足等问题,增加开发难度。同时,在科研类项目中…