Title
题目
Dual-modality visual feature flow for medical report generation
双模态视觉特征流用于医学报告生成
01
文献速递介绍
医学报告生成是一项新兴的跨模态文本生成任务(X. Zeng et al., 2020;Najdenkoska et al., 2022;Li et al., 2023;Bu et al., 2024),旨在将医学图像中包含的病理信息提炼为文本诊断报告。在医学诊断中,医学图像及其对应的报告能够帮助医生进行临床决策(Chen et al., 2020)。然而,撰写医学报告需要放射科医生具备专业的医学知识,且耗时且费力(Yan et al., 2022;Xu et al., 2023)。医学报告生成技术的应用不仅可以减轻工作负担,还可以减少由于人为因素导致的误诊(Qin 和 Song, 2022)。因此,医学报告生成逐渐受到医学领域和人工智能研究人员的关注。
许多基于深度学习的方法被提出以实现医学报告的自动生成(Zhang et al., 2023;Yang et al., 2023)。主流方法通常先利用主干网络(如CNN或ViT)对医学图像进行预训练,然后以跨模态方式将提取的网格特征与来自不同网络结构的报告文本嵌入对齐(Zhang et al., 2023)。因此,提取医学图像特征和对齐不同模态数据是生成高质量报告的关键。然而,这些方法仍然面临以下三个挑战:1)对病变位置和器官细节等关键信息关注不足;2)在特征提取过程中对内部边缘信息交互的考虑不足;3)在跨模态数据对齐方面存在局限性。
具体来说,如图1所示,医学图像包含器官和病变大小等重要信息。传统网格特征难以准确识别病变的位置和大小,因此需要引入区域级特征作为补充信息,以增强方法对医学图像的表示能力(Yang et al., 2021;Tanida et al., 2023)。此外,大多数现有的医学报告生成方法从医学图像的固定网格点区域提取特征,并以全局方式解释图像中的医学信息(Huang et al., 2023;Cao et al., 2023)。然而,这些方法会导致器官被分布在不同的网格中,网格间缺乏交互会导致内部边缘信息的丢失。此外,在联合学习视觉特征和报告文本嵌入时,不同类型的特征对应于报告中的不同内容。网格特征倾向于关注全局文本信息,而区域特征更关注局部信息。因此,合适的匹配方法能够引导模型学习局部和全局的表达能力。
基于以上问题,我们提出了一种新颖的深度“双模态视觉特征流(DMVF)”方法,整合了不同的视觉特征以增强对医学图像的全面理解,并通过多角度的视觉-文本跨模态学习提升医学报告的表达能力。本研究的主要贡献可总结如下:我们提出了一种用于医学报告生成的双模态视觉特征流方法,该方法提取并对齐多角度的医学图像视觉特征与报告文本嵌入,以增强模型的推理能力。我们设计了一个区域级特征提取与增强模块,基于网格级特征从全局和局部视角增强视觉编码,这是深度医学报告生成领域的首次尝试。
我们对不同的视觉特征与医学报告文本嵌入进行对齐,考虑了不同特征类型,从而增强了模型的文本推理能力。广泛的对比实验和消融实验表明,DMVF在定量和定性结果方面均优于当前最先进方法。本文其余部分的结构如下:第二部分介绍相关工作及问题;第三部分详细描述了DMVF的深度结构与公式;第四部分进行相关理论分析;第五部分展示实验结果与分析;第六部分总结研究结论并展望未来工作。
Aastract
摘要
Medical report generation, a cross-modal task of generating medical text information, aiming to provide professional descriptions of medical images in clinical language. Despite some methods have made progress, there are still some limitations, including insufficient focus on lesion areas, omission of internal edge features, and difficulty in aligning cross-modal data. To address these issues, we propose Dual-Modality Visual Feature Flow (DMVF) for medical report generation. Firstly, we introduce region-level features based on grid-level features to enhance the method’s ability to identify lesions and key areas. Then, we enhance two types of feature flows based on their attributes to prevent the loss of key information, respectively. Finally, we align visual mappings from different visual feature with report textual embeddings through a feature fusion module to perform cross-modal learning. Extensive experiments conducted on four benchmark datasets demonstrate that our approach outperforms the state-of-the-art methods in both natural language generation and clinical efficacy metrics.
医学报告生成是一项跨模态任务,用于生成医学文本信息,旨在以临床语言提供对医学图像的专业描述。尽管已有一些方法取得了一定进展,但仍存在一些局限性,包括对病变区域关注不足、内部边缘特征的忽略以及跨模态数据对齐的困难。为了解决这些问题,我们提出了一种用于医学报告生成的“双模态视觉特征流(DMVF)”方法。首先,我们基于网格级特征引入区域级特征,以增强方法识别病变和关键区域的能力。然后,我们根据特征属性分别增强两种特征流,避免关键信息的丢失。最后,通过特征融合模块对来自不同视觉特征的视觉映射与报告文本嵌入进行对齐,从而实现跨模态学习。在四个基准数据集上进行的大量实验表明,我们的方法在自然语言生成和临床效能指标上均优于当前最先进的方法。
Conclusion
结论
In this paper, we propose an effective medical report generation method named DMVF, which extracts visual features from multiple perspectives and achieves high-quality medical report generation through cross-modal alignment.For the task of medical report generation, most of existing methods mainly involve two steps: first, extracting visual features from medical images, and then aligning these visual features with textual features across modalities. Based on this, we, depart from the diagnostic process of doctors, introduce innovatively region-based feature representations to capture organ lesion information, thereby enhancing the model’s understanding of medical images. Simultaneously, we align visual data flow containing different information features with text embedding, increasing the model’s ability to express medical reports, aiming to comprehensively improve report generation effectiveness from bothimage and text perspectives. Experimental results demonstrate that compared to existing methods, ours exhibits excellent performance by comprehensively analyzing medical images, enhancing the model’s focus on lesion areas and key organs, and generating realistic and reliable medical reports.In future work, we aim to enhance interpretability through theoretical analysis, improve fairness towards data distribution biases, and enhancescalability through the introduction of different modality features.
在本文中,我们提出了一种名为DMVF的有效医学报告生成方法,该方法从多个角度提取视觉特征,并通过跨模态对齐实现高质量的医学报告生成。
针对医学报告生成任务,大多数现有方法主要包含两个步骤:首先,从医学图像中提取视觉特征;然后,将这些视觉特征与文本特征进行跨模态对齐。在此基础上,我们从医生的诊断过程出发,创新性地引入基于区域的特征表示,以捕获器官和病变信息,从而增强模型对医学图像的理解能力。同时,我们对包含不同信息特征的视觉数据流与文本嵌入进行对齐,提升模型的医学报告表达能力,旨在从图像和文本的双重角度全面提升报告生成的效果。实验结果表明,与现有方法相比,我们的方法通过全面分析医学图像、增强模型对病变区域和关键器官的关注,能够生成真实且可靠的医学报告,并表现出卓越的性能。在未来的工作中,我们计划通过理论分析增强方法的可解释性,改善对数据分布偏差的公平性,并通过引入不同模态特征提升方法的可扩展性。
Figure
图
Fig. 1. A case study on organs and lesions in medical images, with important organs and lesions marked in green and red in the image and report, respectively
图 1. 医学图像中器官和病变的案例研究,重要器官和病变分别在图像和报告中以绿色和红色标注。
Fig. 2. The framework of the proposed DMVF mainly consists of dual-modality visual feature extraction, feature flow enhancement module, and cross-model feature fusion module. Firstly, Faster R-CNN and Swin Transformer are utilized to extract grid and region features from the original medical images, respectively. Then, enhance them based on their different feature attributes. Finally, align visual and textual embeddings using a cross-modal feature fusion encoder. Best viewed in color.
图 2. 所提出的DMVF框架主要包括双模态视觉特征提取、特征流增强模块以及跨模态特征融合模块。首先,利用Faster R-CNN和Swin Transformer分别从原始医学图像中提取网格特征和区域特征。然后,根据其不同的特征属性对其进行增强。最后,通过跨模态特征融合编码器对视觉和文本嵌入进行对齐。建议彩色查看效果最佳。
Fig. 3. Comparisons among the reports generation by ‘R2Gen’, ‘R2RL’, and ‘Ours’ conducted on the chest X-ray and CT image datasets. Green/red highlights indicate correct/incorrect sentences, respectively, and underlines represent abnormal information.
图 3. 在胸部X光片和CT图像数据集上,“R2Gen”、“R2RL”和“我们的方法”生成报告的比较。绿色/红色高亮分别表示正确/错误的句子,下划线表示异常信息。
Fig. 4. Comparisons among the reports generation by ‘R2Gen’, ‘CMN’, ‘R2RL’ and ‘Ours’ on the ultrasound image dataset.
图 4. 在超声图像数据集上,“R2Gen”、“CMN”、“R2RL”和“我们的方法”生成报告的比较。
Fig. 5. Comparison of visual (together with quantitative results of PSNR and SSIM)and difference images of the Mayo testing dataset. The set range of the display windowis a window level of 40 HU and a window width of 400 HU (i.e., a range from −160HU to 240 HU). As for the difference images of the latter, the set range of the displaywindow is a window level of 0 HU and a window width of 200 HU (i.e., a range from−100 HU to 100 HU).
图5. Mayo测试数据集中视觉效果(以及PSNR和SSIM的定量结果)和差异图像的对比。显示窗口的设置范围为窗位40 HU,窗宽400 HU(即范围为−160 HU到240 HU)。对于后者的差异图像,显示窗口的设置范围为窗位0 HU,窗宽200 HU(即范围为−100 HU到100 HU)。
Fig. 6. Qualitative analysis of different componment conducted on the ultrasound image dataset.
图 6. 在超声图像数据集上对不同组件进行的定性分析。
Table
表
Table 1 Comparison on four datasets. denotes the results obtained by reproduced based on the publicly codes. The best and second-best results are marked in bold and underlined, respectively
表 1 四个数据集上的比较。表示基于公开代码复现所得的结果。最佳结果和次优结果分别用加粗和下划线标注。
Table 2 Clinical Efficacy metrics on IU X-Ray and MIMIC-CXR datasets with Precision, Recall, F1-score.
表 2 IU X-Ray和MIMIC-CXR数据集上的临床效能指标,包括精确率(Precision)、召回率(Recall)和F1分数(F1-score)。
Table 3 Ablation study on four benchmark datasets. The best and second results are marked in bold and underline, respectively.
表 3 四个基准数据集上的消融实验研究。最佳结果和次优结果分别用加粗和下划线标注。
Table 4 Performance of different alignment approaches
表 4 不同对齐方法的性能比较
Table 5 Comparison of Parameter and Efficiency. ↑ and ↓ represent the higher the better and the lower the better, respectively
表 5 参数和效率的比较。↑ 表示值越高越好,↓ 表示值越低越好。