通过多模态关系图学习实现可解释的医学图像视觉问答|文献速递--Transformer架构在医学影像分析中的应用

news2025/2/23 0:57:36

Title

题目

Interpretable medical image Visual Question Answering via multi-modal relationship graph learning

通过多模态关系图学习实现可解释的医学图像视觉问答。

01

文献速递介绍

医学视觉问答(VQA)是医学多模态大语言模型(LLMs)中的一项重要任务,旨在回答与医学图像相关的临床问题。这是一项具有挑战性的任务,需要结合医学图像诊断和自然语言理解。医学VQA能够为临床医生在解释医学图像时提供“第二意见”,从而降低误诊的风险(Tschandl等,2020)。它还可以部分承担放射科医生的专家咨询角色,回答来自医生和患者的问题,避免中断他们的工作流程,提高效率(Lin等,2023a)。

多模态大语言模型可用于执行这些任务,从而有助于减少低收入和中等收入国家的全球健康不平等现象。例如,在解释复杂病例时,当缺乏专业专家时,医学VQA系统提供的第二意见可能显著增强初级临床医生的信心。部署这样的系统还可以缓解资源匮乏地区的医疗服务短缺,例如非洲,该地区仅占全球医疗劳动力的3%,却承担了全球24%的疾病负担(世界卫生组织等,2021)。医学VQA可以通过降低资源匮乏国家的医疗成本,促进健康生活和福祉,为可持续发展目标(SDGs)做出贡献。

Abatract

摘要

Medical Visual Question Answering (VQA) is an important task in medical multi-modal Large Language Models(LLMs), aiming to answer clinically relevant questions regarding input medical images. This technique hasthe potential to improve the efficiency of medical professionals while relieving the burden on the publichealth system, particularly in resource-poor countries. However, existing medical VQA datasets are small andonly contain simple questions (equivalent to classification tasks), which lack semantic reasoning and clinicalknowledge. Our previous work proposed a clinical knowledge-driven image difference VQA benchmark usinga rule-based approach (Hu et al., 2023). However, given the same breadth of information coverage, the rulebased approach shows an 85% error rate on extracted labels. We trained an LLM method to extract labels with62% increased accuracy. We also comprehensively evaluated our labels with 2 clinical experts on 100 samplesto help us fine-tune the LLM. Based on the trained LLM model, we proposed a large-scale medical VQA dataset,Medical-CXR-VQA, using LLMs focused on chest X-ray images. The questions involved detailed information,such as abnormalities, locations, levels, and types. Based on this dataset, we proposed a novel VQA methodby constructing three different relationship graphs: spatial relationships, semantic relationships, and implicitrelationship graphs on the image regions, questions, and semantic labels. We leveraged graph attention tolearn the logical reasoning paths for different questions. These learned graph VQA reasoning paths can befurther used for LLM prompt engineering and chain-of-thought, which are crucial for further fine-tuning andtraining multi-modal large language models. Moreover, we demonstrate that our approach has the qualitiesof evidence and faithfulness, which are crucial in the clinical field.

医学视觉问答(Visual Question Answering, VQA)是医学多模态大语言模型(LLMs)中的一项重要任务,旨在回答与输入医学图像相关的临床问题。该技术有潜力提高医疗专业人员的工作效率,同时减轻公共卫生系统的负担,尤其是在资源匮乏的国家。然而,现有的医学VQA数据集规模较小,仅包含简单问题(相当于分类任务),缺乏语义推理和临床知识。

我们之前的工作提出了一种基于规则的方法(Hu等,2023),构建了一个临床知识驱动的图像差异VQA基准。然而,在相同的信息覆盖广度下,基于规则的方法在提取标签时表现出85%的错误率。我们训练了一种大语言模型方法来提取标签,准确率提高了62%。我们还与两位临床专家对100个样本的标签进行了全面评估,以帮助我们微调大语言模型。

基于训练好的大语言模型,我们提出了一个大型医学VQA数据集,称为Medical-CXR-VQA,专注于胸部X光图像。所涉及的问题包含详细信息,如异常、位置、程度和类型。在此数据集的基础上,我们提出了一种新颖的VQA方法,通过构建三种不同的关系图:图像区域、问题和语义标签上的空间关系图、语义关系图和隐含关系图。我们利用图注意力机制来学习不同问题的逻辑推理路径。这些学习到的图VQA推理路径可进一步用于大语言模型的提示工程和思维链,这对于进一步微调和训练多模态大语言模型至关重要。

此外,我们的方法展示了证据和可信度的品质,这在临床领域中至关重要。

Method

方法

Given an input medical image 𝐈𝑖 and a question 𝐪𝑖 , as shown inFig. 7, we aim to predict the answer to 𝐪𝑖 based on image information. We propose a multimodal graph-learning model, as shown inFig. 7, by first extracting the region of interest (ROI) using a pretrained Faster R-CNN and then considering each ROI as a node inthe graph. We considered three different relationships to build thegraph relationship/edges: (1) spatial relationships based on ROI-wisespatial locations, (2) semantic relationships based on medical expertknowledge, and (3) implicit relationships to discover additional latentrelationships. Lastly, we compute the answer by fusing multimodalgraphs with a multilayer perceptron network.

给定输入医学图像 𝐈𝑖 和一个问题 𝐪𝑖,如图7所示,我们的目标是基于图像信息预测问题 𝐪𝑖 的答案。我们提出了一种多模态图学习模型,如图7所示,首先使用预训练的Faster R-CNN提取感兴趣区域(ROI),然后将每个ROI视为图中的一个节点。

我们考虑了三种不同的关系来构建图的关系/边:(1) 基于ROI空间位置的空间关系;(2) 基于医学专家知识的语义关系;(3) 用于发现额外潜在关系的隐含关系。最后,我们通过将多模态图与多层感知器网络融合来计算答案。

Conclusion

结论

To promote the development of multi-modal Large Language Modelin medical research, we have utilized LLMs to create a large-scale,clinically driven medical VQA dataset named Medical-CXR-VQA. Thisserves as an extension of our previous work (Hu et al., 2023), whichused a conventional rule-based approach. Our LLM-based approachimproved the dataset construction accuracy by 62% when given thesame keyword extraction set. Furthermore, we proposed a multirelationship graph learning method for VQA, and our method canhighlight the selected reasoning path for answering different questions.The underlying reasoning path can be used to build a chain of thoughtin medical LLM and construct medical knowledge-driven prompts fortraining medical LLM, which will be part of our future work.

为了促进多模态大语言模型在医学研究中的发展,我们利用大语言模型(LLMs)创建了一个名为Medical-CXR-VQA的大规模、临床驱动的医学VQA数据集。这是对我们之前工作的扩展(Hu等,2023),该工作使用了传统的基于规则的方法。我们的基于LLM的方法在相同关键词提取集的情况下将数据集构建的准确性提高了62%。此外,我们提出了一种用于VQA的多关系图学习方法,该方法能够突出回答不同问题的选定推理路径。

这种潜在的推理路径可用于在医学大语言模型中构建思维链,并构建医学知识驱动的提示,以训练医学大语言模型,这将是我们未来工作的一个部分。

Figure

图片

Fig. 1. A comparison between our constructed VQA dataset and the existing ImageCLEF VQA-Med dataset. (a) The report corresponds to the given Chest X-ray image. (b) Ourconstructed question settings, including abnormality, presence, view, location, level, and type. (c) The design of the ImageCLEF VQA-MED questions is too simple.

图1. 我们构建的VQA数据集与现有的ImageCLEF VQA-Med数据集的比较。(a) 报告与给定的胸部X光图像相对应。(b) 我们构建的问题设置,包括异常、存在、视角、位置、程度和类型。(c) ImageCLEF VQA-MED问题的设计过于简单。

图片

Fig. 2. Clinical practical diagnostic procedure and extraction of clinical key information using LLM for constructing a medical VQA dataset. We further propose a multi-graphmethod for medical VQA and graph reasoning on this dataset. Our proposed graph reasoning path can further be used to build chains of thought on medical LLM (Wei et al.,2022).

图2. 临床实际诊断过程及利用大语言模型(LLM)提取临床关键信息以构建医学VQA数据集。我们进一步提出了一种用于医学VQA的多图方法和在该数据集上的图推理。我们提出的图推理路径还可以用于在医学大语言模型(Wei等,2022)上构建思维链。

图片

Fig. 3. Clinical motivation for the construction of our dataset and VQA method derivedfrom disease progression.

图3. 我们的数据集构建和VQA方法的临床动机源于疾病进展。

图片

Fig. 4. Question type distribution.

图4. 问题类型分布。

图片

Fig. 5. Answer type distribution.

图5. 答案类型分布。

图片

Fig. 6. Detailed structure of KeyInfo for each study.

图6. 每项研究的关键信息(KeyInfo)详细结构。

图片

Fig. 7. Proposed multi-modal graph learning medical VQA framework.

图7. 提出的多模态图学习医学VQA框架。

图片

Fig. 8. Knowledge graphs.

图8. 知识图谱。

图片

Fig. 9. An example of the ROIs visualization for presence. The red bounding boxes are the activated ROIs.

图9. 一个关于存在的ROI(感兴趣区域)可视化示例。红色边框表示激活的ROI。

图片

Fig. 10. Illustration of faithfulness and evidence: (a) As finer questions are asked, diagnosis confidence increases. (b) Examples of faithful and faithless predictions. (c) Illustration of evidence.

图10. 可信度和证据的说明:(a)随着更细化问题的提出,诊断信心增加。(b)可信和不可信预测的示例。(c)证据的说明。

图片

Fig. 11. An example of the ROIs visualization for abnormality. The red bounding boxesare the activated ROIs.

图11. 一个关于异常的ROI(感兴趣区域)可视化示例。红色边框表示激活的ROI。

图片

Fig. 12. An example of the ROIs visualization for level. The red bounding boxes arethe activated ROIs.

图12. 一个关于程度的ROI(感兴趣区域)可视化示例。红色边框表示激活的ROI。

图片

Fig. 13. An example of the visualization result for location. The red bounding boxes are the activated ROIs.

图13. 一个关于位置的可视化结果示例。红色边框表示激活的ROI(感兴趣区域)。

图片

Fig. 14. An example of the ROIs visualization for view. The red bounding boxes are the activated ROIs.

图14. 一个关于视角的ROI(感兴趣区域)可视化示例。红色边框表示激活的ROI。

Table

图片

Table 1Abnormality keyword variants.

表1 异常关键词变体。

图片

Table 2Comparison of correct rate between LLM-based method and Rule-based method for100 KeyInfo samples. The counts of errors at the disease level include cases ofmisclassification, instances of the disease being missing, and occurrences of the diseasebeing extra. Similarly, the counts of errors at the attribute level encompass situationswhere attributes are incorrectly assigned or missing.

表2 LLM方法与基于规则方法在100个关键信息(KeyInfo)样本中的正确率比较。疾病层级的错误计数包括分类错误、疾病缺失以及多余的疾病情况。类似地,属性层级的错误计数包括属性分配错误或缺失的情况

图片

Table 3Full list of examples for each question type.

表3 各种问题类型的完整示例列表。

图片

Table 4Dataset evaluation results by human verifiers

表4 人类验证者对数据集的评估结果。

图片

Table 5Comparison of baseline model and our method with three relation graphs and combinedscore using Top-K accuracy and AUC evaluation metrics. AUC-micro computes the finalAUC by aggregating the contributions of each class while AUC-macro treats all classesequally and computes the average AUC. ‘‘imp’’, ‘‘spa’’, ‘‘sem’’, and ‘‘cmb’’ represent‘‘implicit’’, ‘‘spatial’’, ‘‘semantic’’, and ‘‘combined’’ respectively.

表5 基线模型与我们的方法在使用三种关系图和组合得分的Top-K准确率和AUC评估指标下的比较。AUC-micro通过聚合每个类别的贡献来计算最终的AUC,而AUC-macro将所有类别视为相等并计算平均AUC。“imp”、“spa”、“sem”和“cmb”分别代表“隐含”、“空间”、“语义”和“组合”。

图片

Table 6Evaluation results on different question types. ‘‘abn’’, ‘‘pre’’, ‘‘loc’’, ‘‘lev’’, and ‘‘cmb’’represent ‘‘abnormality’’, ‘‘presence’’, ‘‘location’’, ‘‘level’’, and ‘‘combined’’ respectively.

表6 不同问题类型的评估结果。“abn”、“pre”、“loc”、“lev”和“cmb”分别代表“异常”、“存在”、“位置”、“程度”和“组合”。

图片

Table 7 Ablation study on how different 𝛼 and 𝛽 values impact the final results on Medical-CXR-VQA dataset.

表7 不同的 𝛼 和 𝛽 值对Medical-CXR-VQA数据集最终结果影响的消融研究。

图片

Table A.8Anatomical structure detection results. Precision represents when the Intersection overUnion (IoU) threshold is set to 0.5.

表A.8 解剖结构检测结果。精度表示在交并比(IoU)阈值设置为0.5时的结果。

图片

Table A.9Abnormality detection results. Precision represents when the Intersection over Union(IoU) threshold is set to 0.5.

表A.9 异常检测结果。精度表示在交并比(IoU)阈值设置为0.5时的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2146516.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通信工程学习:什么是OLT光线路终端

OLT:光线路终端 OLT(Optical Line Terminal,光线路终端)是光纤通信系统中的核心局端设备,特别是在无源光网络(Passive Optical Network, PON)架构中扮演着至关重要的角色。以下是关于OLT光线路终…

GUI编程15:JPanel、JScroll 面板

视频链接:17、文本域JScroll面板_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1DJ411B75F?p17&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5 1.JPanel package com.yundait.lesson05;import javax.swing.*; import java.awt.*;public class JPanelDem…

C++速通LeetCode中等第5题-无重复字符的最长字串

字串substr法,定义字串的头部和长度,和字串后一位对比,如果不存在重复元素则长度1,存在重复元素则头部更新,长度重置。 class Solution { public:int lengthOfLongestSubstring(string s) {string s2;//存放s的前一部分…

基于虚拟阻抗的逆变器下垂控制环流抑制策略MATLAB仿真

微❤关注“电气仔推送”获得资料(专享优惠) 模型简介 由于微电网的弱电网特性,变流器并网线路较大的阻感比会导致变流器输出功率不能近似解耦,从而影响其下垂控制的精度。另外变流器并网线路阻抗的不确定性还会导致变流器之间分…

放过自己,决绝内耗

其实真正折磨你的,从来不是任何人的绝情,也不是糟糕的事情,而是你心存幻想的期待和无法控制的想象力,很多时候,你不是过不去生活的那道坎,而是过不了你心里的那一关,世间万物都在治愈你&#xf…

深入探究 Flask 的应用和请求上下文

目标 读完本文后,您应该能够解释: 什么是上下文哪些数据同时存储在应用程序和请求上下文中在 Flask 中处理请求时,处理应用程序和请求上下文所需的步骤如何使用应用程序和请求上下文的代理如何在视图函数中使用current_app和代理request什么…

『功能项目』第三职业弓弩的平A【58】

我们打开上一篇57第二职业法师的平A的项目, 本章要做的事情是实现第三职业弓弩的平A伤害 首先修改脚本:MagicBall.cs 将脚本挂载在Sphere预制体身上 注意组件设置 运行项目 本章做了第三职业弓弩的平A伤害及显示伤害UI 接下来文章的内容: …

【深度学习】(1)--神经网络

文章目录 深度学习神经网络1. 感知器2. 多层感知器偏置 3. 神经网络的构造4. 模型训练损失函数 总结 深度学习 深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向。 从上方的内容包含结果,我们可以知道,在学习深度学…

你真的需要理解Diffusion(扩散模型),它在视觉领域具有无与伦比的美丽!

【Vision结合Diffusion】模型的研究方向,探索了如何利用扩散模型在数据空间中模拟随机游走的特性,以生成高质量和逼真的图像。这一领域的研究,通过结合视觉感知和文本描述,推动了图像合成技术的发展,尤其是在个性化图像…

家用小型洗衣机哪个牌子好?五款热搜爆火型号,速来围观

在日常生活中,内衣洗衣机已成为现代家庭必备的重要家电之一。选择一款耐用、质量优秀的内衣洗衣机,不仅可以减少洗衣负担,还能提供高效的洗涤效果。然而,市场上众多内衣洗衣机品牌琳琅满目,让我们往往难以选择。那么&a…

LabVIEW提高开发效率技巧----使用事件结构优化用户界面响应

事件结构(Event Structure) 是 LabVIEW 中用于处理用户界面事件的强大工具。通过事件驱动的编程方式,程序可以在用户操作时动态执行特定代码,而不是通过轮询(Polling)的方式不断检查界面控件状态。这种方式…

C++速通LeetCode中等第8题-最大字数组和

class Solution { public:int maxSubArray(vector<int>& nums) {if(nums.size()1) return nums[0];vector<int> v;int sum 0;for(int i 0;i < nums.size();i){sum nums[i];v.push_back(sum);}//结合股票最大利益那题int ans -10000;int lowest v[0];fo…

【毕设】基于Java的超市管理系统

基于Java的超市管理系统是一个用于管理超市日常运营的软件解决方案&#xff0c;它可以包括库存管理、销售管理、客户管理等多个模块。以下是一个简化的系统设计方案&#xff0c;以及一些关键组件和技术选型的建议。 系统架构 前端&#xff1a; HTML/CSS/JavaScript&#xf…

JavaDS —— B树

前言 本章节将带领大家进入B树的学习&#xff0c;主要介绍B树的概念和B树的插入代码的实现&#xff0c;删除代码不做讲解&#xff0c;最后简单介绍B树和B*树。 B树的概念 1970年&#xff0c;R.Bayer和E.mccreight提出了一种适合外查找的树&#xff0c;它是一种平衡的多叉树&…

裸土覆盖检测算法、裸土识别检测算法、裸土检测算法

裸土检测算法是一种基于计算机视觉和图像处理技术&#xff0c;用于自动识别和评估裸露土壤区域的智能工具。以下是对裸土检测算法的详细介绍&#xff1a; 1. 技术原理 - 数据采集与预处理&#xff1a;利用卫星、无人机或传感器收集地面图像数据&#xff0c;并进行必要的预处理…

练完这些项目,你就是大模型大师!

去年侧重大模型和GPT的原理&#xff0c;今年就侧重项目实战了。找到的这个合集不仅收集了大模型训练实战&#xff0c;还有微调实战&#xff0c;分布式训练&#xff0c;真的很全。 github项目名llm-action 本项目旨在分享大模型相关技术原理以及实战经验。 这份《大模型项目集》…

【Python爬虫】学习Python必学爬虫,这篇文章带您了解Python爬虫,Python爬虫详解!!!

Python爬虫详解 Python爬虫是一种用于从网站获取数据的自动化脚本。它使用Python编程语言编写&#xff0c;并利用各种库和模块来实现其功能。以下是Python爬虫的详细讲解&#xff0c;包括基本概念、常用库、基本流程和示例代码。 基本概念 HTTP请求&#xff1a;爬虫通过向目…

Docker部署及基本操作

Docker是一个开源的平台 &#xff0c;用于开发、交付和运行应用程序。它能够在Windows&#xff0c;macOS&#xff0c;Linux计算机上运行&#xff0c;并将某一应用程序及其依赖项打包至一个容器中&#xff0c;这些容器可以在任何支持Docker的环境中运行。容器彼此隔离&#xff0…

rpm方式安装Mysql报错依赖冲突解决

使用rpm安装mysql时在安装到client包时报错依赖库冲突以及GPG密钥问题&#xff0c; 解决 1&#xff0c;下载 MySQL 的 YUM 存储库文件。 wget https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm 2&#xff0c;安装下载的 YUM 存储库文件。 sudo rpm -…

Promise.all解决同时请求同一接口,返回值渲染时间问题

语法&#xff1a;Promise.all(iterable); 参数&#xff1a;iterable 一个可迭代对象&#xff0c;如 Array 或 String。 返回值&#xff1a;如果传入的参数是一个空的可迭代对象&#xff0c;则返回一个已完成&#xff08;already resolved&#xff09;状态的 Promise。 如果传入…