医学多模态模型总结(一)

news2024/12/28 21:31:02

概念

医学多模态大模型是指利用多种不同的医学数据源和模型,通过深度学习和人工智能技术,构建一个综合性的大型模型,以实现更加准确和全面的医学数据分析和预测。

这种模型可以同时处理多种医学数据类型,如医学图像、病历文本、基因测序数据等,从而更全面地揭示医学数据的内在规律和关联。通过对不同数据源的特征提取和分析,医学多模态大模型可以实现更准确的疾病诊断、治疗方案推荐、预后预测等任务。

例如,在疾病诊断方面,医学多模态大模型可以同时分析医学图像和病历数据,通过深度学习和特征提取技术,自动识别和分类疾病类型,提高诊断的准确性和效率。在治疗方案推荐方面,医学多模态大模型可以综合考虑患者的基因测序数据、病历信息、药物反应等多方面因素,为患者提供个性化的治疗方案。

医学多模态大模型的应用范围非常广泛,可以应用于医疗领域的多个方面,如医学图像分析、疾病预测与预防、个性化治疗等。随着人工智能技术的不断发展和应用,医学多模态大模型将会在更多的领域得到应用,为医学研究和医疗服务带来更多的便利和效益。

模型和方法

模型总结

模型名称base数据集
Med-FlamingoOpenFlamingo-9BMTB PMC-OA Visual USMLE
MedVINTMedVInT-TD,MedVInT-TEPMC-VQA,
CLIP-ViT w/ GPT2CLIP GPT2-XL
MUMCROCO 、MedICaT 和 ImageCLEF2022 SLAKE VQA-RAD PathVQA

Med-Flamingo: a Multimodal Medical Few-shot Learner

贡献
  1. 我们提出了第一个适用于医学领域的多模态少样本学习器,它有望实现新颖的临床应用,例如基于检索到的多模态上下文的基本原理生成和调节。
  2. 我们创建了一个新颖的数据集,可以对一般医学领域的多模态少样本学习器进行预训练。
  3. 我们创建了一个新颖的 USMLE 式评估数据集,将医学 VQA 与复杂的跨专业医学推理相结合。
  4. 我们强调现有评估策略的缺点,并使用专用的评估应用程序与医疗评估员一起对开放式 VQA 世代进行深入的临床评估研究。
训练数据

提出了一个新的医学数据集,在OpenFlamingo-9B模型上进行训练,训练数据集包括MTBPMC-OA,其中MTB是作者自己提出来的数据集,是从4721 本教科书构建了一个新的多模态数据集。

评估数据

后面又提出了一个评估数据集,创建了 Visual USMLE这是一个具有挑战性的多模式问题集,包含 618 个 USMLE 风格的问题,这些问题不仅通过图像进行了增强,还通过案例插图和可能的实验室测量表进行了增强。 Visual USMLE 数据集是通过调整 Amboss 平台的问题(使用许可的用户访问)创建的。为了使可视化 USMLE 问题更具可操作性和实用性,我们将问题改写为开放式问题,而不是多项选择题。这使得基准测试变得更加困难和现实,因为模型必须完全自行提出鉴别诊断和潜在的程序,而不是从少数选择中选择最合理的答案。

USMLE风格主要强调临床医学知识、病人照护和医患关系的处理。它注重临床技能和实际操作能力,要求考生能够理解和应用医学知识,具备诊断、治疗和预防疾病的能力,并能够根据患者的不同需求和情况,提供合适的医疗服务和关怀。
USMLE考试分为三个阶段,每个阶段都包括笔试和面试。第一阶段主要考察基础医学知识,第二阶段主要考察临床医学知识,第三阶段主要考察专业医学知识和临床技能。
此外,USMLE还注重医学伦理和职业道德,要求考生具备高度的职业素养和道德标准,能够遵守医疗伦理和职业道德规范,尊重患者权益,维护医疗质量和安全。
总之,USMLE风格是一种注重临床实践、医学知识和医患关系处理的医学考试风格,旨在评估考生的医学知识和技能水平,以及他们的职业素养和道德标准。

评价指标

不再是使用普通的VQA的评价指标,提出了三个新的评价指标。

  1. 临床评估分数,由三名医生(包括一名委员会认证的放射科医生)使用我们为本研究开发的人类评估应用程序进行评分。第 4.2 节提供了更多详细信息。
  2. BERT相似度得分(BERT-sim),生成答案与正确答案之间的F1 BERT得分Zhang等人。
  3. 精确匹配,生成的答案中与正确答案完全匹配(模标点符号)的部分。该指标相当嘈杂且保守,因为有用的答案可能在词汇上与正确答案不匹配。

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

贡献
  1. 我们将 MedVQA 问题重新定义为生成学习任务,并提出 MedVInT,这是一种通过视觉指令调整将预训练的视觉编码器与大语言模型对齐而获得的模型;
  2. 我们引入了一个可扩展的流程,并构建了一个大规模的 MedVQA 数据集 PMC-VQA,该数据集的规模和多样性远远超过了现有数据集,涵盖了各种模式和疾病;
  3. 我们在 PMC-VQA 上对 MedVInT 进行预训练,并在 VQA-RAD [18] 和 SLAKE [23] 上对其进行微调,实现了最先进的性能并显着优于现有模型;
  4. 我们提出了一个新的测试集,并为 MedVQA 提出了更具挑战性的基准,以彻底评估 VQA 方法的性能。
训练数据

在这里插入图片描述

PMC-VQA数据集示例
不同医学数据集对比

因为作者提出了一个新的数据集,所以训练过程中就是使用的这个数据集。该数据集包含 227k 个图像-问题对,上图 中给出了一些示例,它展示了我们数据集中图像的广泛多样性。如表 所示,PMC-VQA 在数据大小和模态多样性方面优于现有的 MedVQA 数据集。我们数据集中的问题涵盖了一系列困难,从识别图像模式、视角和器官等简单问题到需要专业知识和判断的挑战性问题。此外,我们的数据集包含一些难题,需要能够从复合图中识别特定的目标子图。

我们对 PMC-VQA 数据集的分析可以概括为三个方面:(i)图像:我们显示了 PMC-VQA 中排名前 20 的图形类型。PMC-VQA 中的图像极其多样化,从放射学到信号。 (ii) 问题:我们将问题分为不同的类别根据开始问题的单词来确定类型,我们发现了令人惊讶的各种问题类型,包括“有什么区别…”、“成像类型是什么…”和“哪种类型”图像显示…”。大多数问题的长度为 5 到 15 个单词,有关问题长度分布的详细信息在补充材料中显示。 (iii) 答案:答案中的词语主要包括位置描述、图像模式和特定解剖区域。大多数答案都在 5 个单词左右,比问题短得多。正确选项分布如下:A(24.07%)、B(30.87%)、C(29.09%)、D(15.97%)。

效果

首先展示在之前的公开测试集中的效果
在这里插入图片描述
在新的数据集中的效果
在这里插入图片描述

Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models

贡献
  1. (i)我们提出了第一个基于大规模语言模型的开放式医学 VQA 方法。
  2. (ii)我们对语言主干采用参数高效的调整策略,这使我们能够使用小数据集微调大型模型,而不会出现过度拟合的危险。
  3. (iii) 我们通过对相关基准进行大量实验证明,我们的模型无需大量计算资源即可产生强大的开放式 VQA 性能。
模型架构

在这里插入图片描述

训练策略

由于医学问答数据集的数量较少,为小样本训练,为了实现具备良好的医学问答能力切不干扰模型的泛化能力,采用lora的形式进行训练,只更新LoRA的权重和连接器Mapper,这样训练的参数就大大减少。

实现细节我们使用具有 ViT 主干的预训练 CLIP 模型 [25] 提取视觉特征,维数为 512。映射网络 fM 的 MLP 层的大小为 {512, (lx·e)/2, lx· e}。 lx 的长度设置为 8。长度 lq 和 la 取决于数据集,并由训练集中标记的平均数量加上其标准差的三倍来定义。将零填充添加到序列的右侧以进行批量学习。我们使用以下语言模型:GPT2-XL [26],一种在 WebText [26] 上训练的具有 1.5B 参数的因果语言模型。 BioMedLM [31] 和 BioGPT [21] 都是基于 GPT2 的模型,在 PubMed 和来自 The Pile [8] 的生物医学数据上进行预训练,参数大小分别为 1.5B 和 2.7B。所有模型都能够在单个 NVIDIA RTX 2080ti GPU 上进行训练(平均训练时间约 3 小时)。我们使用 AdamW 优化器,具有 600 个预热步骤和 5e-3 的学习率,并应用容差为 3 的早期停止。

Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answering

贡献
  1. 我们提出了一种新的自监督视觉语言预训练(VLP)方法,该方法在预训练阶段应用带有单模态和多模态对比损失(MUMC)的蒙版图像和文本建模来解决下游医疗 VQA 任务。
  2. 我们工作中的单峰和多峰对比损失应用于(1)对齐图像和文本特征; (2)通过同一图像的不同视图的动量对比来学习单峰图像编码器(即不同的视图由不同的图像掩模生成); (3) 通过动量对比学习单峰文本编码器。我们还引入了一种新的屏蔽图像策略,以 25% 的概率随机屏蔽图像的补丁,作为数据增强技术来进一步增强模型的性能。
模型架构

在这里插入图片描述
在预训练阶段,网络架构包括图像编码器、文本编码器和多模态编码器,它们都基于 Transformer 架构[15]。如图(a)所示,图像编码器利用12层视觉变换器(ViT)[16]从输入图像中提取视觉特征,而文本编码器采用6层变换器,该变换器由预训练 BERT 的前 6 层 [17]。 BERT 的最后 6 层被用作多模态编码器,并在每一层引入交叉注意力,融合了视觉和语言特征,以促进多模态交互的学习。该模型是在医学图像-标题对上进行训练的。将图像划分为大小为 16 × 16 的块,并随机屏蔽 25% 的块。剩余的未屏蔽图像块由图像编码器转换为嵌入序列。使用 WordPiece [18] 标记器将文本(即图像标题)标记为标记序列,并将其输入到基于 BERT 的文本编码器中。此外,特殊标记 [CLS] 被附加到图像和文本序列的开头。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1306822.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Local Color Distributions Prior for ImageEnhancement

图1:给定同时具有过曝光(背景窗口)和欠曝光(前景人物)的输入图像(a),现有方法不能很好地处理这两个问题。虽然(b)在背景上表现更好,但前景仅略微变…

高项备考葵花宝典-项目进度管理核心方法加强理解-关键路径法

关键路径法(Critical Path Method,CPM)是一种基于数学计算的项目计划管理方法,是网络图计划方法的一种,属于肯定型的网络图。关键路径法将项目分解成为多个独立的活动并确定每个活动的工期,然后用逻辑关系&…

基于SSM的小儿肺炎知识管理系统设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

数据库设计规范编制文档

本文的目的是提出针对Oracle数据库的设计规范,使利用Oracle数据库进行设计开发的系统严格遵守本规范的相关约定,建立统一规范、稳定、优化的数据模型。 参照以下原则进行数据库设计: 1) 方便业务功能实现、业务功能扩展; 2) 方便设…

深度优先搜素

part1. part2. 深度优先搜索(Depth-First Search,DFS)是一种用于图和树等数据结构的遍历算法。在DFS中,从起始点开始,尽可能深地访问每一个相邻节点,直到到达最深的节点,然后再回溯到上一层&…

Odoo:行业领先的免费开源供应链管理系统

先进且开源的供应链管理系统和全球供应链协作优化方案 为满足复杂的供应链和库存管理要求,如今绝大多数企业都不得不部署多个供应链管理软件和库存管理系统软件。如何利用一个库存管理与供应链管理软件,跨地区、跨时区地管理现代供应链?Odoo…

三招教孩子不玩手机

在现代社会,手机已经成为我们生活中不可或缺的一部分。然而,对于孩子们来说,过度使用手机却可能对他们的身心健康产生负面影响。那么,如何才能让孩子们远离手机呢?以下三招或许能帮到你。 第一招:设定规矩 …

如何使用CFImagehost结合内网穿透搭建简洁易用的私人图床并远程访问

文章目录 1.前言2. CFImagehost网站搭建2.1 CFImagehost下载和安装2.2 CFImagehost网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1 Cpolar临时数据隧道3.2 Cpolar稳定隧道(云端设置)3.3.Cpolar稳定隧道(本地设置) 4.公网访问测…

MySQL笔记-第10章_创建和管理表

视频链接:【MySQL数据库入门到大牛,mysql安装到优化,百科全书级,全网天花板】 文章目录 第10章_创建和管理表1. 基础知识1.1 一条数据存储的过程1.2 标识符命名规则1.3 MySQL中的数据类型 2. 创建和管理数据库2.1 创建数据库2.2 使…

亚马逊鲲鹏系统智能AI一款先进的一键养号工具

亚马逊鲲鹏系统智能AI作为一款先进的一键养号工具,以其独特的特点成为创业者和卖家们迅速提升业务的利器。该系统不仅能够实现一键养号,而且通过智能算法为账户随机设置年龄、职业、爱好等信息,为用户创造了更加真实的多样性,从而…

笔记 - 现代嵌入式芯片封装识读

0.引用: 配图、资料并非一处采集,我不太容易找到图片的原始链接。这里的图片仅作示例,无商业用途。如果涉及侵权,请随时联系。谢谢! PCB封装欣赏了解之旅(下篇)—— 常用集成电路_ufqfpn封装…

免费且好用的 MySQL 客户端

DBeaver 支持 Mac、Windows、Linux,提供 Eclipse 插件。社区版免费,支持主流的关系型数据库 官网地址:DBeaver Community | Free Universal Database Tool MySQL WorkBench MySQL WorkBench 是官方出品的客户端,支持 Mac、Windo…

Proxmox VE 安装 OpenWrt 配置旁路由教程

话不多说,本篇文章将记录如何在 Proxmox VE 环境通过虚拟机安装 OpenWrt 配置旁路由的过程,仅做参考。 PVE 创建虚拟机 名称随意,GuestOS 选择 Linux,不使用任何 iso 镜像。(记住你的 VMID) 清空将要创建…

docker-compose单机容器编排

Dockerfile:先配置好文件,然后build,镜像-------->容器。 docker-conpose 既可以基于dockerfile,也可以基于镜像,一键式拉起镜像和容器。 docker-compose核心就是yml文件,可以定义容器的一切。通过yml配置,直接运行…

C# OpenCvSharp DNN 部署yolov5不规则四边形目标检测

目录 效果 模型信息 项目 代码 下载 C# OpenCvSharp DNN 部署yolov5不规则四边形目标检测 效果 模型信息 Inputs ------------------------- name:images tensor:Float[1, 3, 1024, 1024] -----------------------------------------------------…

MYSQL练题笔记-子查询-部门工资前三高的所有员工

这个系列的最后一个,也是所有的50题的第一个困难题,看着就有点吓人啧啧啧。 一、题目相关内容 1)相关的表和题目 2)帮助理解题目的示例,提供返回结果的格式 二、自己初步的理解 将每个部门分组,然后用ra…

【C 剑指offer】有序整型矩阵元素查找 {杨氏矩阵}

目录 题目内容: 思路: 图形演示: 复杂度分析 C源码: /** *************************************************************************** ******************** ********************* ******…

STM32读取EEPROM存储芯片AT24C512故障然后排坑记录

背景: 有一个项目用到STM32F091芯片去读取 AT24C512C-SSHD EEPROM 芯片,我直接移植了之前项目的IIC库,结果程序运行后,读不出EEPROM里面的数据。 摘要: 本文主要介绍一个基于STM32F091芯片和AT24C512C-SSHD EEPROM芯片…

2、LLVM 函数名称加密 及3种PASS的实现

sudo usermod -a -G vboxsf nowind nowind是你的虚拟机登录的用户名解决virtualbox 虚拟机共享文件夹不能使用的问题 第一种:源码内实现pass: 实现EncodeFunctionName 的pass,核心代码如下 相关文件的修改: 因为后面同样用到…

【征稿倒计时十天】第三届高性能计算与通信工程国际学术会议(HPCCE 2023)

【有ISSN、ISBN号!!往届均已完成EI检索】 第三届高性能计算与通信工程国际学术会议(HPCCE 2023) 2023 3rd International Conference on High Performance Computing and Communication Engineering (HPCCE 2023) 2023年12月22-24日 | 中国哈尔滨 第三…