Nature|PathChat:病理学多模态生成性AI助手的创新与应用|顶刊精析·24-09-21

news2024/9/22 10:08:58

小罗碎碎念

今日顶刊:Nature

这篇文章今年6月就发表了,当时我分析的时候,还是预印本,没有排版。今天第一篇推文介绍的是Faisal Mahmood ,所以又把这篇文章拉出来详细分析一下。

https://www.nature.com/articles/s41586-024-07618-3

作者角色作者姓名单位名称单位英文名称
第一作者Ming Y. Lu哈佛医学院布里格姆和妇女医院病理科Department of Pathology, Brigham and Women’s Hospital, Harvard Medical School
第一作者Bowen Chen哈佛医学院布里格姆和妇女医院病理科Department of Pathology, Brigham and Women’s Hospital, Harvard Medical School
第一作者Drew F. K. Williamson哈佛医学院布里格姆和妇女医院病理科Department of Pathology, Brigham and Women’s Hospital, Harvard Medical School
通讯作者Faisal Mahmood哈佛医学院布里格姆和妇女医院病理科Department of Pathology, Brigham and Women’s Hospital, Harvard Medical School

这篇文章介绍了一个名为PathChat的多模态生成性人工智能(AI)助手,专为病理学设计。PathChat结合了视觉编码器和预训练的大型语言模型,通过超过456,000个视觉-语言指令进行微调,以理解和回应与病理学相关的复杂查询。

研究者们将PathChat与其他多模态视觉-语言AI助手以及商业可用的多模态通用AI助手ChatGPT-4(由GPT-4V提供支持)进行了比较。PathChat在多种组织来源和疾病模型的多选诊断问题上展现出了最先进的性能。

此外,通过开放式问题和人类专家评估,PathChat在回答与病理学相关的多样化查询时,总体上产生了更准确、病理学家更偏好的响应。


PathChat的开发包括使用一个最先进的视觉编码器(UNI3),并在1.18百万病理图像和标题对上进行视觉-语言预训练。然后将视觉编码器与一个13亿参数的预训练Llama 2大型语言模型(LLM)连接,形成一个完整的多模态大型语言模型(MLLM)架构。最终,使用超过450,000条指令对MLLM进行微调,构建了PathChat。

文章还详细描述了PathChat在多种应用中的能力,包括分析不同器官部位和实践的病理学案例。此外,研究者们还策划了一个高质量的基准测试,用于评估MLLM在病理学中的表现,包括开放式视觉病理学问题。PathChat在这些评估中与其他MLLMs相比,展现出了优越的性能。

最后,文章讨论了PathChat在病理学中的潜在应用,包括病理学教育、研究和人类参与的临床决策。随着技术的成熟,PathChat可能会在未来发挥更大的作用。


一、引言

计算病理学近年来经历了显著转变,得益于数字切片扫描的普及和机构采纳、人工智能(AI)研究的快速进展、大型数据集的易获取性以及高性能计算资源的显著增加[1,2,7]。

研究者们利用深度学习处理多样化的任务,包括癌症亚型分类[8,9]、分级[10,11]、转移检测[12]、生存预测[13-17]、治疗反应预测[18,19]、肿瘤起源部位预测[20,21]、突变预测和生物标志物筛选[22-24]等[25]。

此外,基于大规模未标记组织病理学图像数据集训练的通用视觉编码器模型[26],作为多功能、任务无关的模型基础[3,4],为计算病理学中多项任务的性能和标签效率提升铺平了道路。

然而,计算病理学的发展尚未充分体现自然语言在病理学中的重要作用,后者是解锁丰富、多样化累积人类医学知识的关键,也是模型开发的监督信号,以及强大AI模型与终端用户直观互动的统一媒介。


值得注意的是,在机器学习领域,代表性工作[27,28]表明,大规模视觉-语言表征学习可增强仅视觉的AI模型,赋予其新的能力,如零样本图像识别和文本到图像检索。

根据架构设计、训练数据和目标,预训练的视觉-语言系统通常可以针对特定任务进行微调,范围从回答视觉问题、图像字幕生成到目标检测和语义分割。在医学成像和计算病理学领域,研究者们最近开始利用配对的生物医学图像和说明或报告[29-33]等多样化来源进行视觉-语言预训练,包括开发针对特定领域(如病理学[30,33-35]和放射学[36-38])的类CLIP模型[27]。

在计算病理学领域,一些研究在选定的诊断和检索任务中展示了零样本性能的潜力[30,33,34]。其他研究者尝试了专用的模型以回答生物医学视觉问题或进行图像字幕生成[39-43]。


随着大型语言模型(LLMs)[44-47]的兴起、多模态LLMs(MLLMs)[5,48,49]的快速进步以及生成性AI[50]更广泛领域的发展,计算病理学即将迎来新的前沿,其强调自然语言和人类互动作为AI模型设计和用户体验的关键组成部分,以及强大的视觉处理能力。

多模态生成性AI产品如ChatGPT在广泛的常规、创意和专业用例[6,51]中展示了令人印象深刻的性能,包括编码、写作、摘要、数据分析、回答问题、翻译甚至图像生成,同时通过直观且互动的用户界面提供访问。尽管已有尝试探究其在回答医学相关问题方面的性能[52-57],但其协助专业人士和研究者从事解剖病理学这一高度专业化但重要子领域的能力尚相对未探索。

然而,互动多模态AI副驾驶在病理学中的潜在应用是巨大的。理论上,理解和回应自然语言中复杂查询的能力,可以使病理学AI副驾驶在临床决策制定、教育研究等各个人类参与环节中成为有益的伴侣。


例如,AI副驾驶能够摄取组织病理学图像,提供形态学外观的初步评估,并识别潜在的恶性特征。随后,病理学家或学员可以提供更多关于病例的背景信息,如患者的临床参数和组织部位,并要求模型提出鉴别诊断。

如果认为合理,用户可以请求对辅助测试和免疫组化(IHC)染色的有益建议,以缩小鉴别诊断范围。最后,这些测试结果也可以提供给模型,模型据此做出最终推断并得出诊断。

在研究中,能够总结大型组织病理学图像队列形态学特征的多模态AI副驾驶,有可能实现形态学标记物在大数据队列中的自动量化和解释。在医学教育中,一个准确、按需互动的AI伴侣可能有助于民主化地获取专家级指导和培训,从而缩小地区间医疗保健提供的差距。


二、用于人类病理学的多模态生成性人工智能(AI)副驾驶

本文中,作者开发了一种名为PathChat的多模态生成性AI副驾驶系统,专为人类病理学设计,并由定制微调的多模态大型语言模型(MLLM)驱动。

为了构建一个能够处理视觉和自然语言输入的MLLM,作者从UNI[3]开始,这是一个在超过100万张组织学图像补丁(来自超过100,000张玻片)上使用自监督学习预训练的仅视觉编码器。

作者对UNI编码器进行了进一步的视觉-语言预训练,使用了118万病理学图像和说明对,以使其图像表示空间与病理学文本对齐[34]。随后,将得到的视觉编码器通过多模态投影模块连接到一个拥有130亿参数的预训练Llama 2 LLM[46],形成了完整的MLLM架构(有关PathChat模型的设计和训练的更多细节,请参见“方法和训练PathChat模型”部分)。

最终,使用超过450,000条指令的精选数据集对MLLM进行了微调,以构建PathChat(见图1和扩展数据图1),该系统能够理解病理学图像和文本,并回应复杂的病理学相关问题。


图1提供了PathChat模型的概述,包括指令遵循数据集的策划和PathChat模型的设计。

图1

a部分描述了目前最大的专门用于病理学的指令微调数据集的策划。这个数据集包含了456,916条指令和相应的回应,涵盖了多种格式,例如多轮对话、多项选择题和简短回答。这些数据来自不同的来源,确保了模型能够理解和回应各种类型的查询。

b部分介绍了构建PathChat模型的过程。研究团队从一个最先进的(SOTA)仅视觉的、自监督预训练的基础编码器模型UNI开始,进行了进一步的视觉-语言预训练,类似于CONCH。

然后,将得到的视觉编码器通过一个多模态投影模块连接到一个预训练的、拥有130亿参数的Llama 2大型语言模型(LLM),形成了完整的多模态大型语言模型(MLLM)架构。这个MLLM在策划好的指令遵循数据集上进行了微调,以构建PathChat,这是一个专门用于人类病理学的视觉-语言AI助手。


作者展示了PathChat在各种应用中的能力,包括分析来自不同器官部位和实践的病理学案例(见图2和3)。

图2展示了PathChat在多项选择诊断问题上的表现评估。

图2

a部分提供了一个多项选择诊断问题的示例。在这个问题中,输入总是包括一个由认证病理学家选择的组织学图像的显著感兴趣区域(ROI),以及一个指令,即从一组可能的选择中选择最可能的诊断。在“图像+临床背景”评估设置中,设计得更接近现实世界的诊断工作流程,病理学家设计的相关临床背景(以蓝色显示)与组织学图像一起提供,并附加在原始问题之前。尺度条表示200微米,用于参考图像中的细节大小。

b部分展示了多模态大型语言模型(MLLMs)在多项选择诊断问题上的准确性。这些评估包括了总共105个问题,其中PathQABench-Public(基于公开可用案例的问题,n=52个问题)和PathQABench-Private(基于私人案例的问题,n=53个问题)。需要注意的是,只有对于基于公开可用案例的问题(PathQABench-Public),才会与GPT-4V进行比较。误差条代表95%的置信区间,中心点代表计算出的准确性。

从图2中可以看出,PathChat在诊断准确性方面的表现。当提供临床背景时,模型的诊断准确性可能会提高,因为额外的信息可以帮助模型更好地理解病例的上下文,从而做出更准确的诊断。这种评估方法有助于验证PathChat在模拟真实世界病理诊断中的有效性和实用性。通过与GPT-4V等其他模型的比较,可以进一步了解PathChat在病理学诊断任务中的性能水平。


图3展示了PathChat在开放式问题回答中的评估以及由七名病理学家组成的小组进行的读者研究。

图3

a部分描述了评估工作流程,用于对开放式问题的模型输出进行排名。七名病理学家被招募来评估四个AI助手模型对260个开放式问题的回答。每个问题的模型回答顺序都是随机打乱的,每位病理学家在不知道哪个模型产生了哪个回答的情况下,独立对所有问题的回答进行排名(更详细的信息见“MLLM评估”部分)。尺度条表示200微米,用于参考图像细节的大小。

b部分展示了PathChat与其他MLLMs在开放式问题上的头对头记录,由七名病理学家独立评估。“Win”表示PathChat的排名高于其他模型,“Tie”表示PathChat与模型排名相同,“Lose”表示其他模型的排名高于PathChat。垂直条表示所有七名病理学家的中位胜率(深绿色)和中位赢+平率(浅绿色)。

c部分展示了MLLMs在一组子集(n=235个问题)上的准确性,这些问题是两名病理学家在讨论了模型回答的独立评估后达成共识的。这表明了评估的客观性,因为只有在两位专家达成一致的情况下,问题的回答才被计入分析。

d部分展示了在共识子集上不同类别问题的准确性。这些类别包括显微检查(n=101)、诊断(n=79)、临床(n=61)和辅助检测(n=76)。每个问题可能属于多个类别。在c和d部分中,误差条代表95%的置信区间,中心点代表计算出的准确性。

总体而言,图3提供了PathChat在开放式问题回答中的详细评估,包括与其他MLLMs的比较、病理学家的独立评估以及达成共识的问题的准确性分析。这些评估有助于了解PathChat在病理学相关查询中的性能和可靠性。


此外,作者精选了一个高质量的基准,用于评估MLLM在病理学中的开放式视觉病理学问题的性能,该基准在专家监督下进行筛选(详见“专家筛选的病理学问题基准”部分)。

作者将PathChat与LLaVA[5],一个通用的开源MLLM的SOTA,以及针对生物医学领域定制的LLaVA-Med[53]进行了比较。

尽管作者的模型规模显著更小,服务成本更低,但作者还将其与SOTA商业解决方案ChatGPT-4(由GPT-4V驱动)进行了比较。


三、讨论

计算病理学近年来取得了显著的进步,例如基于图像或基因组数据的日益精确、特定任务的预测模型的开发。

对于组织学图像,最近越来越有兴趣构建基于大量未标记图像的基础任务无关视觉编码器,这些编码器可以为各种监督和无监督下游工作流程提供稳健的特征嵌入。然而,生成性AI技术的爆炸性增长,特别是多模态大型语言模型(MLLM),如ChatGPT,已经开始为计算病理学研究和实际临床病理学应用开辟了可能的新前沿。

具备自然语言理解能力的通用AI模型可以使用文本作为统一媒介,用于灵活地指定用户意图(以定制的提示形式)并产生各种表达水平的输出(从单个单词到二进制或多项选择响应,再到包含推理步骤的连贯句子)。

在进行各种任务(例如,总结、分类、字幕生成、检索、回答问题等)时,这些模型显示出巨大的潜力。对于病理学而言,这样的模型在理论上可以在教育和研究以及人机协同的临床决策制定等广泛场景中发挥作用。


使用诸如从人类反馈中进行强化学习等技术进一步与人类意图对齐,可以降低基于MLLM的AI助手模型的幻觉,并帮助它们捕捉某些特定于病理学的细微差别,例如在仅基于H&E组织学无法排除某些形态相似疾病时请求进一步的上下文信息或测试结果,或在诊断和治疗指南发生变化时寻求对机构特定指南的澄清。

对于实际部署,改进和验证可能也值得进行,以确保模型能够一致且正确地识别无效查询(例如,非病理学相关或无意义的输入)并避免产生意外或错误的输出。

未来的研究可能会进一步增强PathChat和基于MLLM的AI助手的功能,通过添加支持输入整个吉帕像素WSI或多个WSI的功能。这可能会通过提供超出预选代表性ROI的有价值上下文,来扩展它们在诊断挑战性和边缘实体中的实用性。


此外,由于这些模型是在回顾性收集的大数据集上训练的,其中不可避免地包含过时的信息,因此它们可能反映了过去的科学共识,而不是今天的共识。

例如,随着医学术语和指南的发展,引用过时术语“多形性胶质母细胞瘤”的模型响应可能会导致事实上的不准确。除了持续使用最新知识进行训练外,其他研究方向可能涉及编制特定的指令,使模型意识到术语和指南的变化,或使用检索增强生成与持续更新的知识数据库相结合。

最后,为了让这些工具对病理学家和研究更有用,考虑明确支持特定任务(例如精确计数或定位对象)可能是有价值的,并考虑将PathChat类的AI助手与数字切片查看器或电子健康记录等工具集成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2154808.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PMP--二模--解题--61-70

文章目录 4.整合管理61、 [单选] 为解决具有挑战性的客户请求,启动了一个项目。该项目必须在短时间内交付。项目经理应该怎么做来尽可能提高项目的成功率? 14.敏捷--MVP--最小可行产品--使用最小可行产品获得客户尽早地反馈。完整性和交付是主观的。团队…

构建高可用和高防御力的云服务架构第二部分:SLB负载均衡(2/5)

在现代云服务中,负载均衡(Load Balancing)是一种关键技术,用于优化资源利用、最小化响应时间、提高系统的可伸缩性和可靠性。负载均衡器位于客户端和服务器之间,根据预设的策略将请求分发到多个服务器上,以…

华为HarmonyOS地图服务 4 - 通过“地图相机“控制地图的可见区域

场景介绍 华为地图的移动是通过模拟相机移动的方式实现的,您可以通过改变相机位置,来控制地图的可见区域,效果如图所示。 本章节将向您介绍相机的各个属性与含义,并移动相机。 相机移动前 接口…

基于lnmp搭建wordpress

一、案例目标 (1)了解LNMP环境的组成。 (2)了解LNMP环境的部署与安装。 (2)了解WordPress应用的部署与使用。 二、节点规划 IP 主机名 节点 192.168.200.20 lnmp lnmp服务节点 三、案例实施 LN…

基于微信小程序的购物系统+php(lw+演示+源码+运行)

基于微信小程序的购物系统 摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了基于微信小程序的购物系统的开发全过程。通过分析基于微信小程序的购物系统管理的不足,创建了一个计算机管理基于微信小…

1.Spring-容器-注册

一、Bean和获取Bean (1)创建IoC容器: SpringApplication.run(类名.class, args); ConfigurableApplicationContext ioc SpringApplication.run(Spring01IocApplication.class, args); (2)将对象注册到IoC容器中&am…

[Vue] 从零开始使用 Vite 创建 Vue 项目

📚 一、安装 Node.js Node.js 是一个运行 JavaScript 代码的 JavaScript 运行时,它允许我们在服务器端运行 JavaScript 代码。以下是安装 Node.js 的步骤: 🌐 访问 Node.js 国内网站:https://nodejs.cn/ &#x1f4…

【如何在 Windows 10 主机上通过 VMware 安装 Windows 11 虚拟机,并共享主机网络】

环境说明 主机操作系统:Windows 10虚拟机操作系统:Windows 11虚拟机软件:VMware 步骤一:确保主机(Windows 10)网络连接正常 启动网络加速软件:在主机上启动软件,确保主机可以正常访…

基于LSTM的温度时序预测

1.背景 本文接【时序预测SARIMAX模型】 一文,采用LSTM模型进行平均温度数据预测。具体的背景和数据分析就不做重复说明,感兴趣可以去看上文即可。 2.LSTM模型 RNN(Recurrent Neural Network,循环神经网络)是一种特殊…

AI驱动TDSQL-C Serverless 数据库技术实战营-ai学生选课系统数据分析

以前用过腾讯的TDSQL-MYSQL,TBASE,最近了解到TDSQL-C serverless,本次试验结合的AI大模型驱动来学习实战TDSQL-C serverless,体验服务化的数据库,和一句简单描述进行学生选课系统数据分析; 我使用的分析数据…

C++初阶-list用法总结

目录 1.迭代器的分类 2.算法举例 3.push_back/emplace_back 4.insert/erase函数介绍 5.splice函数介绍 5.1用法一:把一个链表里面的数据给另外一个链表 5.2 用法二:调整链表当前的节点数据 6.unique去重函数介绍 1.迭代器的分类 我们的这个迭代器…

【alluxio编译报错】Some files do not have the expected license header

Some files do not have the expected license header 快捷导航 在开始解决问题之前,大家可以通过下面的导航快速找到相关资源啦!💡👇 快捷导航链接地址备注相关文档-ambaribigtop自定义组件集成https://blog.csdn.net/TTBIGDA…

【Elasticsearch系列十八】Ik 分词器

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

通信入门系列书籍推荐一:通信原理和通信原理学习辅导

微信公众号上线,搜索公众号小灰灰的FPGA,关注可获取相关源码,定期更新有关FPGA的项目以及开源项目源码,包括但不限于各类检测芯片驱动、低速接口驱动、高速接口驱动、数据信号处理、图像处理以及AXI总线等 本节目录 一、背景 二、通信原理 …

石岩体育馆附近的免费停车场探寻

坐标:石岩体育馆侧的石清大道断头路, 如果运气好的话,遇到刚好有车开出的话,我觉得可以作为中长期的免费停车点 第一次路过的时候,把我震惊了,我一直以为石岩停车位紧张比市区还严重,因为石岩大部分为统建楼…

python画图|图像背景颜色设置

python画图出来的默认图形背景是白色,有时候并不适合大家表达想要表达的意思。 因此,我们很有必要掌握自己设置图形背景颜色的技巧。 【1】官网教程 首先请各位看官移步官网,看看官网如何设置,下述链接可轻松到达: …

Lubuntu电源管理

lxqt-config-powermanagement 打开托盘图标 Show icon 电源管理 电源管理管理笔记本电脑电池的低电量、关闭笔记本电脑盖的操作以及计算机长时间闲置时应采取的措施。 用法 LXQt 电源管理会监控您的电池、笔记本电脑盖、空闲情况,以及当您按下电源或睡眠按钮时会发…

IS-ISv6单拓扑存在的问题

文章目录 IS-ISv6单拓扑配置单拓扑存在的问题解决 IS-ISv6单拓扑B站视频传送门 IS-ISv6单拓扑 配置 R1:sy sy R1 ipv6 inter g0/0/0 ip add 12.1.1.1 24 ipv6 enable ipv add 2001:12::1 64 inter loop0 ip add 1.1.1.1 32 ipv6 enable ipv address 2002::1 128isi…

30个GPT提示词天花板,一小时从大纲到终稿

PROMPT 1 中文:构建研究背景与意义,阐述研究问题的紧迫性和重要性。 English: Establish the research background and significance, elucidating the urgency and importance of the research question. 中文:设计研究目的与目标&#xff…

TDOA方法求二维坐标的MATLAB代码演示与讲解

引言 时间差定位(Time Difference of Arrival, TDOA)是一种用于确定信号源位置的技术,广泛应用于无线通信、声学定位等领域。通过测量信号到达多个接收器的时间差,可以计算出信号源的二维坐标。本文将通过MATLAB代码演示如何使用TDOA方法来求解二维坐标。 TDOA原理 TDOA…