基于肺部图片与文本信息的多模态模型架构

news2024/11/16 0:01:10

文章题为
「A transformer-based representation learning model with unified processing of multimodal input for clinical diagnostics」

https://www.nature.com/articles/s41551-023-01045-x
(arXiv版链接: https://arxiv.org/abs/2306.00864)

https://github.com/RL4M/IRENE

该研究聚焦于医学人工智能,提出了一种针对临床疾病诊断的多模态表征学习模型。

主要使用了 肺部图片与临床文本信息作为多模态的输入;

1. 研究背景

1.1 introduction

在临床诊断中,为了做出准确的决策,医生通常需要综合考虑患者的主诉、医学影像和实验室化验结果等多模态信息。然而,在基于机器学习的智能医学诊断中,如何更好地解读医学影像及相关临床信息仍有待商榷。当前的多模态临床决策支持系统主要采用非统一的方式来融合多模态数据。

根据融合阶段的不同,我们可以将传统的非统一的多模态融合方法划分为两个大类,即早期和晚期融合。然而,无论是早期还是晚期融合都选择将多模态诊断过程分离成两个相对独立的阶段:对每种模态单独进行特征抽取和多个模态特征的融合。这种设计有一个天然的局限性:无法发现和编码不同模态之间的内部关联。另一个潜在的问题是,传统的多模态人工智能诊断方法往往需要对文本进行结构化,而文本结构化过程存在标注流程复杂、劳动密集等诸多问题。

与此同时,基于Transformer架构的深度学习方法正在重塑自然语言处理和计算机视觉领域。与卷积神经网络和词嵌入算法相比,Transformer对输入数据的形式几乎没有假设,因此有望从多模态输入数据中学习更高质量的特征表达。而且,Transformer的基本架构组件(即自注意力模块)在不同模态上几乎保持不变,为构建统一且灵活的模型提供了更好的机会。

1.2 contribution

IRENE具有以下三个优点:

  1. 使用统一架构进行多模态表征学习,避免了分离的表征学习路径;

  2. 无需进行繁琐的文本结构化步骤,直接在原始文本上进行表征学习;

  3. 通过双向多模态注意力机制发现和编码不同模态之间的相互关联。

1.3 related work

2.  方法

2.1 文本信息与图片的输入

在这里插入图片描述

2.2 统一各个模态表示

IRENE的核心是统一的多模态诊断Transformer(即MDT)和双向多模态注意力机制。MDT是一种新的Transformer堆叠结构,直接从多模态输入数据中生成诊断结果。

与之前的非统一方法不同,这种新算法通过渐进地从多模态临床信息中学习整体表征,放弃了单独学习各种模态特征的技术路线。此外,MDT赋予IRENE在非结构化原始文本上进行表征学习的能力,避免了非统一方法中繁琐的文本结构化步骤。

2.3  处理模态的差异

为了更好地处理模态之间的差异,IRENE引入了双向多模态注意力机制,通过发现和编码不同模态之间的相互关联,将模态独立的特征表达和面向诊断的整体表征联系起来。这个明确的学习和编码过程可以看作是MDT中整体多模态表征学习过程的补充。

3. 实验

3.1 实验环境设置

3.2 对比实验

在这里插入图片描述

  • IRENE在多模态医学诊断中比之前非统一的诊断范式更有效。

IRENE在诊断肺部疾病方面,相比于早期融合和晚期融合方法,平均提升了9%和10%。同时,IRENE在八种疾病上实现了至少约3%的性能提升,并显著改善了四种疾病(支气管扩张、气胸、ILD和结核病)的诊断效果,将其AUROC提高了超过10%。除此之外,IRENE的上述优势在COVID-19患者不良临床结局预测任务中得到了部分验证。相比于早期融合和晚期融合方法,IRENE将平均性能分别提升了7%和9%。

  • IRENE提供了一种更好的适用于多模态医学诊断的Transformer架构。

与GIT和Perceiver相比,IRENE在医学诊断场景中具有明显优势。GIT在大规模多模态预训练方面存在困难,而IRENE可以通过双向多模态注意力机制有效利用有限的医学数据和互补的语义信息从而减少对预训练数据的依赖。此外,Perceiver将多模态输入简单串联,所以难以学习到IRENE的融合表征,这导致输入中占比较大的模态对最终诊断有较大的影响。IRENE利用双向多模态注意力机制学习整体多模态表征,平衡了多种模态数据对特征表达的影响,从而在不同任务中展现出令人满意的性能。

  • IRENE简化了传统工作流程中对文本结构化的依赖。

在传统的非统一的多模态人工智能医学诊断方法中,处理非结构化文本的常规方式是进行文本结构化,其具体流程严重依赖于人工规则和现代自然语言处理工具的辅助。相比之下,IRENE可以接受非结构化的临床文本直接作为输入,从而降低了对繁琐的文本结构化步骤的依赖。

3.3 消融实验

3.3.1 肺部疾病识别任务

如表1所示,IRENE在识别肺部疾病方面明显优于仅依赖图像的模型、传统的非统一的诊断范式、以及两种最新的基于Transformer的多模态模型(即Perceiver和GIT)。

从实验指标上看,IRENE取得了最高的平均AUROC为0.924(95% CI:0.921,0.927),比仅将X光片作为输入的图像模型(0.805,95% CI:0.802,0.808)高出约12%。

与非统一的早期融合(0.835,95% CI:0.832,0.839)和晚期融合(0.826,95% CI:0.823,0.828)的诊断策略相比,IRENE取得了至少9%的性能优势。

在这里插入图片描述
如果我们将IRENE与GIT(0.848,95% CI:0.844,0.850)比较,我们可以发现IRENE在AUROC上的优势超过7%。

即使与DeepMind开发的基于Transformer的多模态模型Perceiver比较,IRENE仍然取得了相当有竞争力的结果,超过了Perceiver(0.858,95% CI:0.855,0.861)6%。

当我们着眼于每种疾病,并将IRENE与所有五种基线中之前的最好结果进行比较时,我们发现在所有八种肺部疾病中,IRENE在支气管扩张(12%)、气胸(10%)、间质性肺疾病(ILD,10%)和结核病(9%)方面取得了最大的改进。

3.3.2  cov19识别任务

对COVID-19患者的分诊大量依赖于对胸部CT扫描和其他非影像临床信息的联合解读。

在这种情况下,IRENE显示出比它在肺部疾病识别任务中更大的优势。

如表2所示,IRENE在预测COVID-19患者的三种不良临床结局(即入住ICU、使用呼吸机、死亡)上面取得了令人印象深刻的性能提升。

在平均AUPRC方面,IRENE(0.592,95% CI:0.500, 0.682)的表现大幅度优于仅依赖影像的模型(0.307,95% CI:0.237, 0.391),
早期融合模型(0.521,95% CI:0.435, 0.614)和
晚期融合模型(0.503,95% CI:0.422, 0.598),分别几乎提高了29%,7%和9%。

在这里插入图片描述
就特定的临床结果而言,IRENE(0.712,95% CI:0.587, 0.834)在预测入住ICU方面,比非统一的早期融合方法(0.665,95% CI:0.548, 0.774)获得了约5%的AUPRC提升。

同样,在预测是否对新冠病人使用呼吸机时,IRENE相比早期融合模型,取得了超过6%的性能提升。相较于仅依赖影像的模型(0.192,95% CI:0.073, 0.333)、早期融合模型(0.346,95% CI:0.174, 0.544)和晚期融合模型(0.335,95% CI:0.168, 0.554),IRENE(0.441,5% CI:0.270, 0.617)可以更准确的预测新冠病人的死亡结局。与两种基于Transformer的多模态模型(即GIT和Perceiver)相比,IRENE在平均性能上可以取得超过6%的优势。

4. 总结

结合最新的自然语言处理技术和图像识别技术,IRENE可以在医学诊断中起到重要的作用。它通过统一的多模态诊断Transformer和双向多模态注意力机制,渐进学习多模态临床数据的整体表征,放弃了单独学习各种模态特征的技术路线。在现实世界中,IRENE可以帮助简化患者护理流程,如患者分流和区分普通感冒患者与需要紧急干预的严重情况患者。此外,在诊断不确定或复杂的情况下,IRENE还可以作为医生的辅助工具,提供诊断建议,进一步增强医生的判断能力。除此之外,IRENE在医疗资源匮乏的地区具有重要价值。

文章的通讯作者是香港大学的俞益洲教授、四川大学华西医学院的王成弟教授、澳门科技大学的张康教授和四川大学华西医学院的李为民院长;第一作者为香港大学博士研究生周洪宇。

6月12日,国际顶级学术期刊《自然-生物医学工程》(英文名:Nature Biomedical Engineering)上线了一项由香港大学、四川大学华西医学院、深睿医疗和澳门科技大学合作完成的研究,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/701013.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2020年全国硕士研究生入学统一考试管理类专业学位联考数学试题——解析版

2020 级考研管理类联考数学真题 一、问题求解(本大题共 15 小题,每小题 3 分,共 45 分)下列每题给出 5 个选项中,只有一个是符合要求的,请在答题卡上将所选择的字母涂黑。 1、某产品去年涨价 10%&#xf…

备战2024秋招面试题-Vue的框架原理

前言: \textcolor{Green}{前言:} 前言: 💞快秋招了,那么这个专栏就专门来记录一下,同时呢整理一下常见面试题 💞部分题目来自自己的面试题,部分题目来自网络整理 给我冲 学习目标&am…

阿里云服务器ECS介绍_云主机_服务器托管_弹性计算

阿里云服务器安全可靠、弹性可伸缩,CPU可选256核、内存选到3072GB,云服务器ECS规格通用型、计算型、内存型、通用算力型、裸金属、GPU、大数据等ECS实例规格,公网带宽可选到200M,绑定弹性公网EIP带宽可达1000M,共享带宽…

9.外部中断

1.中断概念: (1)STM32的每个IO口都可以作为外部中断输入; (2)stm32的中断控制器支持19个外部中断/事件请求 线0~15:对应外部IO口的输入中断;线16:连接到PVD输出&#…

基于jsp+Servlet+mysql的汽车销售系统

基于jspServletmysql的汽车销售系统 一、系统介绍二、功能展示1.项目骨架2.登录界面3.首页4.购物车5.添加车辆6、编辑车辆信息 四、其它1.其他系统实现五.获取源码 一、系统介绍 项目类型:Java web项目 项目名称:基于JSPServlet的汽车销售系统 项目架…

新后端漏洞之----SSRF漏洞(服务端请求伪造)

笔记 前言SSRF漏洞概述SSRF漏洞检测与挖掘SSRF漏洞的回显分类SSRF漏洞利用SSRF漏洞防御 前言 这几天各种技术面试接踵而至,压得我喘不过气了!然后面试官问了我这个SSRF漏洞原理和利用方式以及防御手段,当然同时还问了好几个Top10漏洞&#x…

【React】React Hooks解析

React Hooks解析 React 16.8 认识和体验Hooks 为什么需要Hook? Hook是 React 16.8 的新增特性,它可以让我们在不编写class的情况下使用state以及其他的React特性(比如生命周期) 我们先来思考一下class组件相对于函数式组件有什么优势&…

企业知识竞赛答题pk活动怎么做?

随着互联网的发展,越来越多的企事业单位开始利用答题小程序进行线上PK答题活动,目的在于组织员工学习企业文化或是进行专题答题活动以适应时代的进步。其中最主流的有:网络安全知识竞赛、安全生产知识竞赛、企业文化PK答题竞赛、红色党史知识…

js中的树以及优先遍历!

树 什么是树? 在生活中,大家对树肯定不陌生,小朋友都知道树不就是一类植物嘛,不管在任何地方都有各种各样的树。但是在计算机科学里面树是什么呢?一种分层数据的抽象模型,在我们前端工作中无处不在。在 J…

攻克数据中心液冷升级三大难题,宁畅推出“无忧焕液计划“

近年来,在政策引导、市场需求、技术升级等多种因素影响下,数据中心正在迎来发展新机遇。如何部署节能技术并兼顾算效、能耗、成本,成为考验数据中心建设与运营者的关键。 在此背景下,宁畅于6月28日召开“无忧焕液 智惠升级”媒体沟…

epoll反应堆

// epoll基于非阻塞I/O事件驱动 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <sys/types.h> #include <unistd.h> #include <arpa/inet.h> #include <netinet/in.h> #include <sys/epoll.h> #inclu…

利用Python分析快手APP全国大学生用户数据

背景 背景&#xff1a;利用Python分析快手APP全国大学生用户数据&#xff0c;发现&#xff1a; 哪个学校的学生最喜欢使用快手APP Android、IOS、PC三大平台用户占比份额 全国哪些城市(学校所在地)的学生使用频次最高 全国哪些省份的生源最喜欢使用快手APP … 数据&#xff1a…

形式化验证,Gap-free Processor Verifification by S2QED and Property Generation(一)

目录 一、Article:文献出处&#xff08;方便再次搜索&#xff09; &#xff08;1&#xff09;作者 &#xff08;2&#xff09;文献题目 &#xff08;3&#xff09;文献时间 &#xff08;4&#xff09;引用 二、Data:文献数据&#xff08;总结归纳&#xff0c;方便理解&am…

不漏测,测试人员的极致追求

一、什么是漏测&#xff1f; 具体地说&#xff0c;什么是测试漏测&#xff1f;测试漏测是指软件产品在测试结束后出现了在测试过程中没有被发现的bug。 我们知道&#xff0c;漏测是每一个软件测试者最头疼的事&#xff0c;一旦出现漏测&#xff1a; 首先给客户带来了非常不好…

C语言-基础语法学习-3 二级指针

目录 二级指针二级指针的定义和声明二级指针的初始化二级指针的使用二级指针和函数参数二级指针和动态内存分配数组指针二维数组二维数组的初始化二维数组与指针二维数组的遍历 二级指针 当涉及到多级指针时&#xff0c;C语言的灵活性和强大的指针功能可以得到充分的发挥。二级…

Xshell弹窗:需要Xmanager软件来处理X11转发请求(解决办法:关闭X11转发)

文章目录 问题背景问题分析什么是X11转发&#xff1f;分析原因&#xff08;没分析出来&#xff09; 解决办法&#xff08;关闭X11转发&#xff09;参考文章 问题背景 今天我在ubuntu服务器上用python flask框架做了个http服务程序&#xff0c;我用xshell连接服务器并执行该服务…

对话 | 中国团队首次完成“赫兹速率”的城域量子隐形传态

光子盒研究院 近日&#xff0c;电子科技大学郭光灿院士团队周强研究组与中科院上海微系统所尤立星团队合作&#xff0c;在电子科技大学“银杏一号”城域量子互联网方面取得了重大进展。 “银杏一号”城域量子互联网建设场地鸟瞰图和设计概念图。展示了一个量子隐形传态系统&…

神策(Android)- 在曝光采集基础上学习项目架构

开篇的时候我就在想这篇blog到底有没有意义&#xff1f;因为本身使用的就是神策提供的功能&#xff0c;同时神策也提供了很完善的文档&#xff0c;而唯一要我们做的也仅仅是将它正确的集成到项目内&#xff0c;并且随着版本升级&#xff0c;文档肯定也会有一定变更… 不过&…

STM32微控制器:现状与竞争力的评估

STM32是意法半导体&#xff08;STMicroelectronics&#xff09;开发的一系列32位ARM Cortex-M微控制器。它们被广泛用于嵌入式系统开发&#xff0c;并在许多应用领域中得到了广泛应用&#xff0c;包括消费电子、工业自动化、汽车行业和物联网等。 尽管我无法提供最新的市场趋势…

(4)深度学习学习笔记-Softmax

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、来源 前言 softmax和cross-entorpy 一、 # softmax import torch from torch import nn from d2l import torch as d2lbatch_size64 train_iter,test_ite…