双模态视觉特征流用于医学报告生成|文献速递-视觉大模型医疗图像应用

news2025/1/9 18:18:14

Title

题目

Dual-modality visual feature flow for medical report generation

双模态视觉特征流用于医学报告生成

01

文献速递介绍

医学报告生成是一项新兴的跨模态文本生成任务(X. Zeng et al., 2020;Najdenkoska et al., 2022;Li et al., 2023;Bu et al., 2024),旨在将医学图像中包含的病理信息提炼为文本诊断报告。在医学诊断中,医学图像及其对应的报告能够帮助医生进行临床决策(Chen et al., 2020)。然而,撰写医学报告需要放射科医生具备专业的医学知识,且耗时且费力(Yan et al., 2022;Xu et al., 2023)。医学报告生成技术的应用不仅可以减轻工作负担,还可以减少由于人为因素导致的误诊(Qin 和 Song, 2022)。因此,医学报告生成逐渐受到医学领域和人工智能研究人员的关注。

许多基于深度学习的方法被提出以实现医学报告的自动生成(Zhang et al., 2023;Yang et al., 2023)。主流方法通常先利用主干网络(如CNN或ViT)对医学图像进行预训练,然后以跨模态方式将提取的网格特征与来自不同网络结构的报告文本嵌入对齐(Zhang et al., 2023)。因此,提取医学图像特征和对齐不同模态数据是生成高质量报告的关键。然而,这些方法仍然面临以下三个挑战:1)对病变位置和器官细节等关键信息关注不足;2)在特征提取过程中对内部边缘信息交互的考虑不足;3)在跨模态数据对齐方面存在局限性。

具体来说,如图1所示,医学图像包含器官和病变大小等重要信息。传统网格特征难以准确识别病变的位置和大小,因此需要引入区域级特征作为补充信息,以增强方法对医学图像的表示能力(Yang et al., 2021;Tanida et al., 2023)。此外,大多数现有的医学报告生成方法从医学图像的固定网格点区域提取特征,并以全局方式解释图像中的医学信息(Huang et al., 2023;Cao et al., 2023)。然而,这些方法会导致器官被分布在不同的网格中,网格间缺乏交互会导致内部边缘信息的丢失。此外,在联合学习视觉特征和报告文本嵌入时,不同类型的特征对应于报告中的不同内容。网格特征倾向于关注全局文本信息,而区域特征更关注局部信息。因此,合适的匹配方法能够引导模型学习局部和全局的表达能力。

基于以上问题,我们提出了一种新颖的深度“双模态视觉特征流(DMVF)”方法,整合了不同的视觉特征以增强对医学图像的全面理解,并通过多角度的视觉-文本跨模态学习提升医学报告的表达能力。本研究的主要贡献可总结如下:我们提出了一种用于医学报告生成的双模态视觉特征流方法,该方法提取并对齐多角度的医学图像视觉特征与报告文本嵌入,以增强模型的推理能力。我们设计了一个区域级特征提取与增强模块,基于网格级特征从全局和局部视角增强视觉编码,这是深度医学报告生成领域的首次尝试。

我们对不同的视觉特征与医学报告文本嵌入进行对齐,考虑了不同特征类型,从而增强了模型的文本推理能力。广泛的对比实验和消融实验表明,DMVF在定量和定性结果方面均优于当前最先进方法。本文其余部分的结构如下:第二部分介绍相关工作及问题;第三部分详细描述了DMVF的深度结构与公式;第四部分进行相关理论分析;第五部分展示实验结果与分析;第六部分总结研究结论并展望未来工作。

Aastract

摘要

Medical report generation, a cross-modal task of generating medical text information, aiming to provide professional descriptions of medical images in clinical language. Despite some methods have made progress, there are still some limitations, including insufficient focus on lesion areas, omission of internal edge features, and difficulty in aligning cross-modal data. To address these issues, we propose Dual-Modality Visual Feature Flow (DMVF) for medical report generation. Firstly, we introduce region-level features based on grid-level features to enhance the method’s ability to identify lesions and key areas. Then, we enhance two types of feature flows based on their attributes to prevent the loss of key information, respectively. Finally, we align visual mappings from different visual feature with report textual embeddings through a feature fusion module to perform cross-modal learning. Extensive experiments conducted on four benchmark datasets demonstrate that our approach outperforms the state-of-the-art methods in both natural language generation and clinical efficacy metrics.

医学报告生成是一项跨模态任务,用于生成医学文本信息,旨在以临床语言提供对医学图像的专业描述。尽管已有一些方法取得了一定进展,但仍存在一些局限性,包括对病变区域关注不足、内部边缘特征的忽略以及跨模态数据对齐的困难。为了解决这些问题,我们提出了一种用于医学报告生成的“双模态视觉特征流(DMVF)”方法。首先,我们基于网格级特征引入区域级特征,以增强方法识别病变和关键区域的能力。然后,我们根据特征属性分别增强两种特征流,避免关键信息的丢失。最后,通过特征融合模块对来自不同视觉特征的视觉映射与报告文本嵌入进行对齐,从而实现跨模态学习。在四个基准数据集上进行的大量实验表明,我们的方法在自然语言生成和临床效能指标上均优于当前最先进的方法。

Conclusion

结论

In this paper, we propose an effective medical report generation method named DMVF, which extracts visual features from multiple perspectives and achieves high-quality medical report generation through cross-modal alignment.For the task of medical report generation, most of existing methods mainly involve two steps: first, extracting visual features from medical images, and then aligning these visual features with textual features across modalities. Based on this, we, depart from the diagnostic process of doctors, introduce innovatively region-based feature representations to capture organ lesion information, thereby enhancing the model’s understanding of medical images. Simultaneously, we align visual data flow containing different information features with text embedding, increasing the model’s ability to express medical reports, aiming to comprehensively improve report generation effectiveness from bothimage and text perspectives. Experimental results demonstrate that compared to existing methods, ours exhibits excellent performance by comprehensively analyzing medical images, enhancing the model’s focus on lesion areas and key organs, and generating realistic and reliable medical reports.In future work, we aim to enhance interpretability through theoretical analysis, improve fairness towards data distribution biases, and enhancescalability through the introduction of different modality features.

在本文中,我们提出了一种名为DMVF的有效医学报告生成方法,该方法从多个角度提取视觉特征,并通过跨模态对齐实现高质量的医学报告生成。

针对医学报告生成任务,大多数现有方法主要包含两个步骤:首先,从医学图像中提取视觉特征;然后,将这些视觉特征与文本特征进行跨模态对齐。在此基础上,我们从医生的诊断过程出发,创新性地引入基于区域的特征表示,以捕获器官和病变信息,从而增强模型对医学图像的理解能力。同时,我们对包含不同信息特征的视觉数据流与文本嵌入进行对齐,提升模型的医学报告表达能力,旨在从图像和文本的双重角度全面提升报告生成的效果。实验结果表明,与现有方法相比,我们的方法通过全面分析医学图像、增强模型对病变区域和关键器官的关注,能够生成真实且可靠的医学报告,并表现出卓越的性能。在未来的工作中,我们计划通过理论分析增强方法的可解释性,改善对数据分布偏差的公平性,并通过引入不同模态特征提升方法的可扩展性。

Figure

图片

Fig. 1. A case study on organs and lesions in medical images, with important organs and lesions marked in green and red in the image and report, respectively

图 1. 医学图像中器官和病变的案例研究,重要器官和病变分别在图像和报告中以绿色和红色标注。

图片

Fig. 2. The framework of the proposed DMVF mainly consists of dual-modality visual feature extraction, feature flow enhancement module, and cross-model feature fusion module. Firstly, Faster R-CNN and Swin Transformer are utilized to extract grid and region features from the original medical images, respectively. Then, enhance them based on their different feature attributes. Finally, align visual and textual embeddings using a cross-modal feature fusion encoder. Best viewed in color.

图 2. 所提出的DMVF框架主要包括双模态视觉特征提取、特征流增强模块以及跨模态特征融合模块。首先,利用Faster R-CNN和Swin Transformer分别从原始医学图像中提取网格特征和区域特征。然后,根据其不同的特征属性对其进行增强。最后,通过跨模态特征融合编码器对视觉和文本嵌入进行对齐。建议彩色查看效果最佳。

图片

Fig. 3. Comparisons among the reports generation by ‘R2Gen’, ‘R2RL’, and ‘Ours’ conducted on the chest X-ray and CT image datasets. Green/red highlights indicate correct/incorrect sentences, respectively, and underlines represent abnormal information.

图 3. 在胸部X光片和CT图像数据集上,“R2Gen”、“R2RL”和“我们的方法”生成报告的比较。绿色/红色高亮分别表示正确/错误的句子,下划线表示异常信息。

图片

Fig. 4. Comparisons among the reports generation by ‘R2Gen’, ‘CMN’, ‘R2RL’ and ‘Ours’ on the ultrasound image dataset.

图 4. 在超声图像数据集上,“R2Gen”、“CMN”、“R2RL”和“我们的方法”生成报告的比较。

图片

Fig. 5. Comparison of visual (together with quantitative results of PSNR and SSIM)and difference images of the Mayo testing dataset. The set range of the display windowis a window level of 40 HU and a window width of 400 HU (i.e., a range from −160HU to 240 HU). As for the difference images of the latter, the set range of the displaywindow is a window level of 0 HU and a window width of 200 HU (i.e., a range from−100 HU to 100 HU).

图5. Mayo测试数据集中视觉效果(以及PSNR和SSIM的定量结果)和差异图像的对比。显示窗口的设置范围为窗位40 HU,窗宽400 HU(即范围为−160 HU到240 HU)。对于后者的差异图像,显示窗口的设置范围为窗位0 HU,窗宽200 HU(即范围为−100 HU到100 HU)。

图片

Fig. 6. Qualitative analysis of different componment conducted on the ultrasound image dataset.

图 6. 在超声图像数据集上对不同组件进行的定性分析。

Table

图片

Table 1 Comparison on four datasets. denotes the results obtained by reproduced based on the publicly codes. The best and second-best results are marked in bold and underlined, respectively

表 1 四个数据集上的比较。表示基于公开代码复现所得的结果。最佳结果和次优结果分别用加粗和下划线标注。

图片

Table 2 Clinical Efficacy metrics on IU X-Ray and MIMIC-CXR datasets with Precision, Recall, F1-score.

表 2 IU X-Ray和MIMIC-CXR数据集上的临床效能指标,包括精确率(Precision)、召回率(Recall)和F1分数(F1-score)。

图片

Table 3 Ablation study on four benchmark datasets. The best and second results are marked in bold and underline, respectively.

表 3 四个基准数据集上的消融实验研究。最佳结果和次优结果分别用加粗和下划线标注。

图片

Table 4 Performance of different alignment approaches

表 4 不同对齐方法的性能比较

图片

Table 5 Comparison of Parameter and Efficiency. ↑ and ↓ represent the higher the better  and the lower the better, respectively

表 5 参数和效率的比较。↑ 表示值越高越好,↓ 表示值越低越好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2273148.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Fluent和深度学习算法驱动的流体力学计算与应用

物理模型与深度学习的融合:研究如何将传统的物理模型与深度学习算法相结合,以提高流体力学问题的预测准确性和计算效率。复杂流动模拟:利用深度学习技术对复杂流动现象进行模拟和分析,包括湍流、多相流、非牛顿流体等,…

记PasteSpider部署工具的Windows.IIS版本开发过程之草稿-动态表单(2)

接1的内容,那么有这么一个需求! 需求分析 需要修改某一个配置的时候 1.从对应的api中读取消息,消息内容为Json格式的 2.基于当前的Json渲染成表单提供给管理端的客户呈现 3.管理端的用户可以基于这个表单的内容进行修改,然后提交…

pycharm-pyspark 环境安装

1、环境准备:java、scala、pyspark、python-anaconda、pycharm vi ~/.bash_profile export SCALA_HOME/Users/xunyongsun/Documents/scala-2.13.0 export PATH P A T H : PATH: PATH:SCALA_HOME/bin export SPARK_HOME/Users/xunyongsun/Documents/spark-3.5.4-bin…

Clisoft SOS设置Workarea

Clisoft SOS设置Workarea 本人也是刚刚接触这个软件,可能有些方面不够完善,欢迎大佬指点。 这里就不演示创建创建Server和Project,可以参考Clisoft SOS设置Server和Project 创建Workarea 创建好目录并设置好权限 # 创建组 [bhlumaster ~]$…

数据结构:LinkedList与链表—无头双向链表(二)

目录 一、什么是LinkedList? 二、LinkedList的模拟实现 1、display()方法 2、addFirst(int data)方法 3、addLast(int data)方法 4、addIndex(int index,int data)方法 5、contains(int key)方法 6、remove(int key)方法 7、removeAllKey(int key)方法 8、…

基于SpringBoot实现的保障性住房管理系统

🥂(❁◡❁)您的点赞👍➕评论📝➕收藏⭐是作者创作的最大动力🤞 💖📕🎉🔥 支持我:点赞👍收藏⭐️留言📝欢迎留言讨论 🔥🔥&…

【Linux】硬链接和软连接(符号连接)

目录 硬链接 软连接 硬链接和软连接的区别 硬链接 ln根据linux系统分配给文件inode(ls -li)进行建立,没办法跨越文件系统 格式:ln 被链接的文件(源文件) 生成的链接文件(目标文件) 1) 硬链接的属性 - 相当于生成一个副本 起别名 2) 修改内容都变化…

多目标优化算法——基于聚类的不规则Pareto前沿多目标优化自适应进化算法(CA-MOEA)

基于聚类的不规则Pareto前沿多目标优化自适应进化算法(CA-MOEA) 一、算法简介 简介: 现有的多目标进化算法(moea)在具有规则Pareto前沿且Pareto最优解在目标空间上连续分布的多目标优化问题(MOPs&#xff…

基于SpringBoot的乐器商城购物推荐系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

【vba源码】自动获取汇率

Hi,大家好! 没有想到今天居然是腊八,过了腊八就是年,离过年越来越近了,那在这里给大家就拜个年,希望大家在新的一年都有好事发生。 最近在弄点小项目,在项目遇到了一个汇率计算的问题&#xff…

JavaEE初阶——计算机工作原理

一、什么是JavaEE JavaEE(Java Platform,Enterprise Edition)是sun公司(2009年4月20日甲骨文将其收购)推出的企业级应用程序版本。这个版本以前称为 J2EE。能够帮助我们开发和部署可移植、健壮、可伸缩且安全的服务器…

【Unity3D】AB包加密(AssetBundle加密)

加密前: 加密后,直接无法加载ab,所以无法正常看到ab内容。 using UnityEngine; using UnityEditor; using System.IO; public static class AssetBundleDemoTest {[MenuItem("Tools/打包!")]public static void Build(){//注意:St…

数据库语句学习

WHERE AND: 请编写 SQL 语句,从 courses 表中,选取课程名为 Web 或者 Big Data 的课程信息,如果这两门课程存在,请将这两门课程的信息全部返回。 SELECT * FROM courses where name in (Web,Big Data) -- 等同于 -- WHERE name …

“AI智慧语言训练系统:让语言学习变得更简单有趣

大家好,我是你们的老朋友,一个热衷于探讨科技与教育结合的产品经理。今天,我想和大家聊聊一个让语言学习变得不再头疼的话题——AI智慧语言训练系统。这个系统可是我们语言学习者的福音,让我们一起来揭开它的神秘面纱吧&#xff0…

Postman接口测试05|实战项目笔记

目录 一、项目接口概况 二、单接口测试-登录接口:POST 1、正例 2、反例 ①姓名未注册 ②密码错误 ③姓名为空 ④多参 ⑤少参 ⑥无参 三、批量运行测试用例 四、生成测试报告 1、Postman界面生成 2、Newman命令行生成 五、token鉴权(“…

使用Locust对MongoDB进行负载测试

1.安装环境 pip install pymongo locust 2.设置测试环境 开启MongoDB服务 打开Navicat,新建MongoDB连接 新建test数据库和sample集合 3.编写脚本 load_mongo.py # codingutf-8 from locust import User, task, between, events from pymongo import MongoClie…

【微服务】3、配置管理

微服务配置管理 已掌握的微服务组件及配置管理问题引出 已掌握注册中心、Openfan、远程调用、负载均衡、网关等组件,具备微服务开发能力,但仍存在其他问题待解决。微服务和网关存在大量配置文件,其中包含很多重复配置,如数据库、日…

【Notepad++】Notepad++如何删除包含某个字符串所在的行

Notepad如何删除包含某个字符串所在的行 一,简介二,操作方法三,总结 一,简介 在使用beyoundcompare软件进行对比的时候,常常会出现一些无关紧要的地方,且所在行的内容是变化的,不方便进行比较&…

计算机网络——期末复习(7)期末试卷样例3

一、辨析题(共4小题,每小题5分,共20分) 1.差错检测是保障网络正常通信的一项重要措施,有多种差错检测算法(技术), (1)以太网和IP协议各自采用的差错校验算法…

STM32-笔记34-4G遥控灯

4G接线 一、项目需求 服务器通过4G模块远程遥控开关灯。 二、项目实现 复制项目文件夹38-wifi控制风扇项目 重命名为39-4G遥控点灯 打开项目文件 加载文件 main.c #include "sys.h" #include "delay.h" #include "led.h" #include "ua…