《PneumoLLM:利用大型语言模型的力量进行尘肺病诊断》|文献速递--基于深度学习的医学影像病灶分割

news2025/1/12 18:06:49

Title

题目

PneumoLLM: Harnessing the power of large language model for pneumoconiosis diagnosis

《PneumoLLM:利用大型语言模型的力量进行尘肺病诊断》

01

文献速递介绍

在计算机辅助诊断领域,对医学数据的处理和分析能力至关重要。这不仅有助于潜在疾病的诊断,还能够预测未来的临床结果。随着深度学习理论的迅速发展,研究人员设计了复杂的网络架构(He et al., 2016;Dosovitskiy et al., 2020),并整理了大量高质量的数据集(Deng et al., 2009;Wang et al., 2017),以预训练这些强大的网络。预训练策略通过优化权重分布赋予网络宝贵的知识,从而使研究人员能够进一步利用标注数据来针对特定疾病进行模型的微调。当数据丰富且标注准确时,这一经典范式通常能够取得出色的效果,尤其是在常见疾病的诊断上。例如,EchoNet-Dynamic(Ouyang et al., 2020)在心脏功能评估上已经超越了医学专家。

然而,当我们深入探讨如尘肺病等职业病时(Li et al., 2023b;Dong et al., 2022),情形就会发生变化。长期暴露在充满粉尘的环境中且未配备个人防护装备的个体容易患上肺纤维化,这是一种尘肺病的前兆(Qi et al., 2021;Devnath et al., 2022)。尘肺病高发地区通常经济不发达,缺乏医疗资源和基础设施,以及专业的医疗从业者。此外,这些地区对疾病筛查和诊断存在明显的抵触情绪,导致临床数据严重不足(Sun et al., 2023;Huang et al., 2023b)。数据的匮乏使得传统的预训练与微调策略难以奏效。

Abatract

摘要

The conventional pretraining-and-finetuning paradigm, while effective for common diseases with ampledata, faces challenges in diagnosing data-scarce occupational diseases like pneumoconiosis. Recently, largelanguage models (LLMs) have exhibits unprecedented ability when conducting multiple tasks in dialogue,bringing opportunities to diagnosis. A common strategy might involve using adapter layers for vision–language alignment and diagnosis in a dialogic manner. Yet, this approach often requires optimization ofextensive learnable parameters in the text branch and the dialogue head, potentially diminishing the LLMs’efficacy, especially with limited training data. In our work, we innovate by eliminating the text branch andsubstituting the dialogue head with a classification head. This approach presents a more effective methodfor harnessing LLMs in diagnosis with fewer learnable parameters. Furthermore, to balance the retention ofdetailed image information with progression towards accurate diagnosis, we introduce the contextual multitoken engine. This engine is specialized in adaptively generating diagnostic tokens. Additionally, we proposethe information emitter module, which unidirectionally emits information from image tokens to diagnosistokens. Comprehensive experiments validate the superiority of our methods.

传统的预训练和微调范式虽然在数据充足的常见疾病诊断中表现有效,但在诊断如尘肺病等数据稀缺的职业病时面临挑战。近年来,大型语言模型(LLMs)在对话中执行多项任务时展现出前所未有的能力,为疾病诊断带来了新的机遇。常见的策略可能包括使用适配层进行视觉和语言的对齐,并以对话的方式进行诊断。然而,这种方法通常需要优化文本分支和对话头中的大量可学习参数,在训练数据有限的情况下,可能会削弱LLMs的效能。在我们的工作中,我们创新地去除了文本分支,并用分类头替代了对话头。此方法为利用LLMs进行诊断提供了一种更有效的途径,同时减少了可学习参数的数量。此外,为了平衡详细图像信息的保留与准确诊断的推进,我们引入了上下文多重标记引擎。该引擎专门用于自适应生成诊断标记。此外,我们提出了信息发射模块,该模块单向地将信息从图像标记传递到诊断标记。全面的实验验证了我们方法的优越性。

Method

方法

The efficacy of computer-aided diagnosis systems is crucial in processing and analyzing medical data. However, these systems often facea significant shortfall in clinical data availability. Leveraging the richknowledge reservoirs of foundational models is a promising strategyto address this data scarcity. Yet, the conventional pretraining-andfinetuning approach may compromise the representation capabilities ofLLMs, due to substantial changes in their parameter spaces, leading toincreased training time and memory overhead (Touvron et al., 2023a,b;OpenAI, 2023b).

计算机辅助诊断系统在处理和分析医学数据中的有效性至关重要。然而,这些系统往往面临临床数据可用性不足的重大挑战。利用基础模型丰富的知识储备是一种解决数据稀缺的有前途的策略。然而,传统的预训练和微调方法可能会由于其参数空间的显著变化而削弱大型语言模型(LLMs)的表示能力,导致训练时间和内存开销的增加(Touvron et al., 2023a,b;OpenAI, 2023b)。

Conclusion

结论

In this paper, we introduce PneumoLLM, a pioneering approachutilizing large language models for streamlined diagnostic processesin medical imaging. By discarding the text branch and transformingthe dialogue head into a classification head, PneumoLLM simplifies theworkflow for eliciting knowledge from LLMs. This innovation provesparticular effectiveness when only classification labels are available fortraining, rather than extensive descriptive sentences. The streamlinedprocess also significantly reduces the optimization space, facilitatinglearning with limited training data. Ablation studies further underscorethe necessity and effectiveness of the proposed modules, especiallyin maintaining the integrity of source image details while advancingtowards accurate diagnostic outcomes.

在本文中,我们介绍了PneumoLLM,这是一种利用大型语言模型简化医学影像诊断流程的创新方法。通过舍弃文本分支并将对话头转换为分类头,PneumoLLM简化了从大型语言模型中提取知识的工作流程。这一创新在仅有分类标签用于训练而非大量描述性语句的情况下表现出特别的效果。简化的流程也显著减少了优化空间,有助于在有限的训练数据下进行学习。消融研究进一步强调了所提出模块的必要性和有效性,特别是在保持源图像细节完整性的同时,实现准确诊断结果方面。

Figure

图片

Fig. 1. Representative pipelines to elicit knowledge from large models. (a) Traditional works conduct vision–language contrastive learning to align multimodal representations. (b)To utilize large language models, existing works transform images into visual tokens, and send visual tokens to LLM to generate text descriptions. (c) Our work harnesses LLM todiagnose medical images by proper designs, forming a simple and effective pipeline.

图1. 从大型模型中获取知识的代表性流程。(a) 传统方法进行视觉-语言对比学习,以对齐多模态表示。(b) 为了利用大型语言模型,现有方法将图像转换为视觉标记,并将视觉标记发送到大型语言模型中生成文本描述。(c) 我们的工作通过适当的设计利用大型语言模型诊断医学图像,形成了一个简单而有效的流程。

图片

Fig. 2. Diagram of the proposed PneumoLLM. The vision encoder processes chest radiography and extracts source tokens. The contextual multi-token engine generates multiplediagnosis tokens conditioned on source tokens. To elicit in-depth knowledge from the LLM, we design the information emitter module within the LLM Transformer layers, enablingunidirectional information flow from source tokens to diagnosis tokens, preserving complete radiographic source details and aggregating critical diagnostic information.

图2. 所提出的PneumoLLM的示意图。视觉编码器处理胸部X光片并提取源标记。上下文多重标记引擎基于源标记生成多个诊断标记。为了从大型语言模型中获取深入的知识,我们在大型语言模型的Transformer层中设计了信息发射模块,实现了从源标记到诊断标记的单向信息流动,既保留了完整的X光片源细节,又聚合了关键的诊断信息。

图片

Fig. 3. The illustration examples of dataset preprocessing: two examples labeled as‘‘Normal’’ and ‘‘Pneumoconiosis’’. The window adjustment operation use the defaultwindow level and width (stored in the DICOM tags) to pre-process the original DICOMfiles. The segmentation results are obtained using the CheXmask pipeline, as proposedin the paper by Gaggion et al. (2023). The selection of the rectangular lung regions isbased on the largest external rectangle of the segmentation results.

图3. 数据集预处理的示例说明:“正常”和“尘肺病”两种标签的示例。窗位和窗宽调整操作使用默认的窗位和窗宽(存储在DICOM标签中)对原始DICOM文件进行预处理。分割结果是使用Gaggion等人(2023)论文中提出的CheXmask流程获得的。矩形肺区域的选择基于分割结果的最大外接矩形。

图片

Fig. 4. Pneumoconiosis diagnosis results comparison with recent prestigious methods. The correct diagnosis results are highlighted in red.

图4. 尘肺病诊断结果与近期著名方法的比较。正确的诊断结果以红色突出显示。

图片

Fig. 5. The t-SNE visualization of feature representation obtained by different networks in comparison experiment.

图5. 比较实验中由不同网络获得的特征表示的t-SNE可视化。

图片

Fig. 6. Illustration on various vision encoder networks and the number of generateddiagnosis tokens. Please zoom in for the best view.

图 6. 各种视觉编码器网络及其生成的诊断标记数量的示意图。请放大查看以获得最佳效果。

Table

图片

Table 1Existing diagnosis methods for pneumoconiosis.

表1现有的尘肺病诊断方法。

图片

Table 2Comparison results with recent prestigious methods on the pneumoconiosis dataset

表2 尘肺病数据集上与近期著名方法的比较结果

图片

Table 3Comparison results with recent LLM-based methods on the pneumoconiosis dataset.

表3 尘肺病数据集上与近期基于大型语言模型(LLM)方法的比较结果。

图片

Table 4Analysis of LLaMA-7B foundational model in pneumoconiosis diagnosis

表4 LLaMA-7B基础模型在尘肺病诊断中的分析

图片

Table 5Ablation study on eliminating the textual processing branch in LLM.

表5 消除大型语言模型(LLM)中的文本处理分支的消融研究。

图片

Table 6Ablation study on various PneumoLLM components

表6 各种PneumoLLM组件的消融研究

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2122078.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【教师节视频制作】飞机降落飞机机身AE模板修改文字软件生成器教程特效素材【AE模板】

教师节祝福视频制作教程飞机降落飞机机身AE模板修改文字特效广告生成神器素材祝福玩法AE模板工程 怎么如何做的【教师节视频制作】飞机降落飞机机身AE模板修改文字软件生成器教程特效素材【AE模板】 生日视频制作步骤: 下载AE模板 安装AE软件 把AE模板导入AE软件 …

紫色UI趣味测试小程序源码,包含多种评测

紫色UI趣味测试小程序源码,包含多种评测。 该源码里面包含了多种评测,每一种评测都包含大多小细节。 代码下载

springboot网上租房系统---附源码79833

摘 要 如今,房屋作为人类生活的重要场所,在城市中扮演着至关重要的角色。随着城市化进程的加速和流动人口的增多,房屋租赁产业迎来了巨大的发展机遇。然而,在房屋租赁过程中存在着许多繁琐的手续和信息搜索的问题,需要…

抖音电商商品采集接口api 店铺商品列表sku返回值

如今,抖音已经成为国民最受欢迎的APP。因为抖音的存在,我们的生活开始变得更加有趣,同时,抖音带货,抖音duan等等呼之欲出,越来越多的人开始加入到抖音大战中去。在抖音进行带货或者进行短视频创作&#xff…

骨传导耳机哪个牌子值得买?推荐五款表现出色的骨传导耳机!

随着骨传导耳机技术的不断发展,市场呈现出多元化的趋势,但这也使得消费者在挑选时面临更多挑战,特别是如何避免因选择不当而引发的听力问题。目前市场上,部分由非专业厂商或网红快速推出的产品,因技术积累不足、材料选…

巅峰对决:南卡、韶音、墨觉旗舰级骨传导耳机深度评测与全面对比!

在如今的骨传导耳机市场,有许多新手小白想入手骨传导耳机,但是又非常怕自己踩雷。所以就疯狂在网上查攻略等等,也有很多小伙伴来询问我,在现在骨传导耳机市场上热门的南卡、韶音、墨觉哪款比较值得入手啊?那么今天&…

Unity Apple Vision Pro 开发(六):MR 物体交互

XR 开发者社区链接: SpatialXR社区:完整课程、项目下载、项目孵化宣发、答疑、投融资、专属圈子 课程分为上、中、下三个部分,上为公开部分,中和下仅社区可见,需要通过文章开头的链接加入社区。 【上】(理…

聚鼎科技:现在做装饰画是靠谱的吗

在生活的各个角落,艺术以多种形式存在着,而装饰画作为其中的一种,一直以其独特的魅力填充着我们的世界。但在这个快速变化的时代,许多人会问:现在做装饰画还是一个靠谱的选择吗? 装饰画的市场依旧充满生机。随着人们对…

docker 复制容器

在 Docker 中复制容器本身并不是直接支持的操作,但你可以通过以下方法来实现类似的效果: 1.将已有的容器提交为镜像 2.以该镜像创建容器 3.开启容器,进入容器内部 一. 使用 Docker 镜像复制容器 首先,你可以将容器的状态保存…

dropdown源码分析 -- ant-design-vue系列

组件结构 dropdown 组件对参数做了一些处理,然后直接调用了vc-trigger组件来进行渲染,先看一下整体的组件调用结构。 极简实现 这个组件需要满足以下几个基本的功能: 可以传入两个插槽 default 和 popup,default 是默认展示的节…

react js 处理表单( form )的2个例子

起因, 目的: 表单其实,有点复杂,因为涉及事件,event. 不熟悉的代码,还是尽量手写,不然的话,AI 生成的东西,自己看不懂。 例1 普通, 直接的方法 一个输入框&#xff0c…

微信小程序中数值计算的精度丢失问题

在微信小程序中,当你遇到数值计算的精度丢失问题时,主要是因为 JavaScript 在处理浮点数时存在固有的精度问题。这是因为计算机内部使用二进制形式存储数字,而某些十进制小数在二进制中无法精确表示,从而导致了精度误差。解决这个…

FastAPI 深度指南:使用依赖注入处理分页和过滤逻辑

在FastAPI框架中,Depends是一个关键的功能,它允许开发者通过依赖注入来管理和重用代码。这在处理API的分页和过滤逻辑时尤其有用,因为它可以将这些逻辑抽象化,从而减少冗余代码并提高效率。 通过Depends,我们可以定义…

优质设计素材网站推荐,助力创意设计

在设计工作中,优质的设计素材能够极大提升作品的质量和效率。无论是图标、插画、字体,还是配色方案,一个强大的素材库可以为设计师的创作提供无限的可能性。然而,面对互联网中海量的设计资源,找到适合自己需求的网站并…

Vue+SpringBoot+数据库整体开发流程 1

本篇文章通过springboot整合mybatis-plus去实现后端对数据库的增删改查,以及响应给前端的url,让前端获得数据。 目录 一、简单搭建一个Vue项目 检查node.js版本 使用vue-cli创建空项目 Vue-cli工程中每个文件夹和文件的用处 二、Mysql数据库 创建数…

全网最全的软件测试面试题(含文档)

1、你以前工作时的测试流程是什么? 参考答案:(灵活回答) 公司对测试流程没有规定如何做,但每个测试人员都有自己的一套测试流程。我说下我1年来不断改正(自己总结,吸取同行的方法)…

7.测试用例设计方法 + Bug

一、正交实验法 1.使用场景 因果关系比较庞大的情况下,不太适合用因果图判定表,在这种情况下,一般会采用正交实验法。 2.例子: 字符属性设置(4个条件) 字体很多 字符样式很多 …

高颜值官网(2):12个小家电网站UI,这是火辣辣的美呀。

小家电网站的设计应该注重简洁、清晰和易用。以下是一些设计建议: 1. 清晰的导航:网站应该有清晰的导航菜单,让用户能够轻松找到他们需要的产品或信息。 2. 产品展示:网站应该有清晰的产品展示页面,包括高质量的产品…

Spring Boot 框架下的房屋租赁业务创新

第2章 技术介绍 2.1 相关技术 房屋租赁系统是在JSP MySQL开发环境的基础上开发的。JSP是一种服务器端脚本语言,易于学习,实用且面向用户。全球超过35%的JSP驱动的互联网站点使用JSP。MySQL是一个数据库管理系统,因为它的体积小但…

【MySQL】数据库的操作【字符集和校验规则】【对数据库进行操作】【数据库备份与恢复】

目录 库的操作1.创建数据库2.字符集和校验规则2.1 查看系统默认字符集以及校验规则2.2查看支持的字符集2.3查看支持的字符集校验规则2.4 校验规则对数据库的影响 3.对数据库进行操作3.1查看数据库3.2显示数据库3.3修改数据库3.4删除数据库3.5备份与恢复(重要)3.5.1注意事项 3.6…