AgentMD:通过大规模临床工具学习提升语言代理的风险预测能力

news2025/1/10 20:26:28

人工智能咨询培训老师叶梓 转载标明出处

临床计算器在医疗保健中扮演着至关重要的角色,它们通过提供准确的基于证据的预测来辅助临床医生进行诊断和预后评估。然而,由于可用性挑战、传播不畅和功能受限,这些工具的广泛应用常常受限。为了克服这些障碍并提高工作效率,来自美国国立卫生研究院(NIH)、马里兰大学、耶鲁大学和佛罗里达州立大学的研究团队提出了AgentMD,这是一种新型语言代理,能够跨不同临床情境整理和应用临床计算器。

AgentMD利用已发布的文献,自动整理了2,164种不同的临床计算器,这些计算器具有可执行的功能和结构化文档,统称为RiskCalcs。手动评估显示,RiskCalcs工具在三个质量指标上达到了超过80%的准确率。在推理时,AgentMD能够自动选择并应用与任何患者描述相关的RiskCalcs工具。在新建立的RiskQA基准测试中,AgentMD显著优于GPT-4的链式思维提示(87.7%对比40.9%的准确率)。此外,AgentMD也被应用于分析真实世界的临床记录,以洞察患者特征。

AgentMD的架构涵盖了两个角色:作为工具制造者,它自动筛选PubMed文章以识别相关的风险计算器,然后创建和验证这些工具,最终形成一个结构化风险计算器工具库(RiskCalcs)。作为工具使用者,AgentMD采用一种与LLM无关的框架,能够根据患者记录选择、计算和总结合适的风险计算器的输出结果。

AgentMD通过三个步骤自动化地从PubMed摘要中整理风险计算器工具:筛选(Screening)、起草(Drafting)和验证(Verification)。首先,AgentMD使用布尔查询在PubMed数据库中搜索相关文章,查询语句为“patient AND (risk OR mortality) AND (score OR point OR rule OR calculator)”,时间范围从2000年1月到2023年4月,共筛选出339,952篇文章。然后,使用GPT-3.5进一步筛选可能描述新风险评分或计算器的文章,最终得到33,033篇潜在文章。接下来,GPT-4根据这些文章撰写结构化的医学计算器,包括标题、目的、适用性、主题、计算逻辑(用Python编写的函数)、结果解释和效用等关键部分。例如,图2a展示了基于PMID: 1272815522摘要生成的RiskCalcs计算器的一个实例。由于起草的计算器可能包含错误,AgentMD进一步使用GPT-4进行验证,确保计算器的准确性。

图1

图1d展示了AgentMD如何从2,164个候选计算器中为给定的患者记录计算风险,包括三个主要步骤:选择、计算和总结。在工具选择步骤中,AgentMD首先使用MedCPT检索与患者记录最相关的前10个计算器,然后使用LLMs选择合适的工具。对于每个选定的工具,AgentMD通过生成调用RiskCalcs中相关和可重用工具函数的Python代码来计算患者的风险。AgentMD与Python解释器交互,解释器返回打印结果或在执行AgentMD编写的代码时的错误消息。根据代码解释器返回的消息,AgentMD会重试其他代码操作或将整个交互历史总结成一段风险计算结果。

图2
图3

图3展示了RiskCalcs中计算器的评估结果。研究者手动评估了两个代表性的RiskCalcs子集:被引用次数最多的前50个计算器(图2a)和随机抽取的其他50个计算器(图2b)。对于每个计算器,三名注释者被雇佣来评估工具的质量、覆盖范围和问题回答(QA)的正确性。三名注释者的共识被用作真实标签。计算器的PubMed ID可以在补充材料中找到。质量评估包括三个方面:原始摘要、计算逻辑和结果解释。总体而言,RiskCalcs工具在三个方面的准确性都很高:原始摘要、计算逻辑和结果解释的平均正确性分别为87.0%、87.6%和89.0%。

在RiskQA上评估AgentMD,这是本工作中引入的一个新数据集,遵循多选医学问题回答的格式,通常用于评估生物医学LLM。构建RiskQA数据集时,研究者重新使用了350个手动验证的RiskCalcs计算器的正确计算逻辑和结果解释的参数集。对于每个参数集和验证的计算,研究者进一步使用GPT-4将它们扩展成临床情景、可能的选择和正确答案,风格类似于美国医学执照考试(USMLE)问题。与之前计算逻辑评估不同,RiskQA要求系统选择合适的风险计算器,进行正确的计算,并提供适当的解释。

图4

实验结果如图4所示。在这项任务中,AgentMD首先从RiskCalcs集合中选择一个工具,然后使用它来计算给定患者的风险并预测答案选择,如图4a所示。研究者首先将AgentMD与链式思维(Chain-of-Thought,CoT)进行了比较,这是一种广泛使用的LLM提示策略。AgentMD在准确率上超过了CoT 70.1%(0.546对0.321,图2b)和114.4%(0.877对0.409,图2c),分别以GPT-3.5和GPT-4作为基础模型。令人惊讶的是,即使使用GPT-3.5,AgentMD的性能也超过了使用GPT-4的CoT(0.546对0.409)。这些结果清楚地表明,当提供经过良好整理的临床计算器工具箱时,大型语言模型可以准确地选择适当的计算器,并有效地执行医学计算任务。

研究者将AgentMD应用于MIMIC-III数据库中的9,822份ICU患者的入院记录。AgentMD首先为每位患者生成潜在风险及其定量可能性的列表,然后按每位患者应用的1,039个风险计算器聚合AgentMD结果。对于每个计算器,AgentMD根据与特异性、严重性、紧急性和笔记中缺失情况相关的一组度量标准对符合条件的患者进行排名。图5c显示了每位患者应用的计算器数量的分布,其大致遵循正态分布,平均值为4.6。另一方面,每个工具符合条件的患者数量遵循长尾分布,如图5d所示。

图5

图5e展示了AgentMD最常应用的两个计算器的患者结果分布。第一个计算器预测慢性心力衰竭急性加重的短期死亡率。尽管平均特异性较低,表明大多数所需参数缺失于患者记录中,但其紧急性和严重性分布具有较高的平均值。计算器的缺失分布有两个峰值——较高的接近100,较低的接近0——这表明短期死亡率在大多数符合条件的患者记录中未被评估。第二个计算器预测老年人的4年死亡率。与短期死亡率不同,大多数4年死亡率预测的患者结果并不紧急,严重性也以不同的方式分布,平均值较低。正如预期的那样,它们大多不在患者记录中。这两个例子展示了不同的计算器结果如何提供有关合格人群特定风险的独特见解。

图5f显示了不同类型风险计算器应用到的患者数量。总体而言,在MIMIC-III数据集中,死亡风险是ICU患者最常考虑的风险,超过60%的患者(6,060名中的9,822名)至少符合一个与死亡风险相关的计算器。心脏事件(3,174)和中风风险(3,005)也经常计算,其次是呼吸系统事件(2,284)、出血(2,260)和感染(2,227)。对于每个具体的风险,可以可视化类似于图5e的计算结果分布,以研究个体风险水平的队列特征。

这些结果展示了AgentMD在自动化整理临床计算器、应用于患者记录、以及在风险预测任务中的准确性和实用性方面的潜力。尽管AgentMD展现了临床语言代理与临床决策工具整合的前景,但该研究也存在一些局限性。例如,计算器工具的创建局限于PubMed摘要,没有考虑全文文章中更详细的描述。未来的工作应该扩大工具开发的数据来源。另外AgentMD使用GPT-4作为核心LLM,由于其高昂的运营成本和部署上的挑战,可能会引起数据隐私和安全的担忧。当前的评估是在相对较小规模上进行的,未来的研究应该专注于开发更现实的临床计算任务,并在更大规模的患者群体上验证AgentMD的有效性。

论文链接:https://arxiv.org/abs/2402.13225

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2063659.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何备份电脑所有数据?有哪些方法值得参考借鉴?

备份电脑所有数据是防护数据丢失和泄密的重要一项措施,备份数据也有不同的方式和工具,正确的工具能帮你省时省力,下面盘点了几个方法,来看哪一种最适合你。 一、使用专业备份软件 第三方服务器文件自动备份软件:如安企…

AI恶搞《黑神话:悟空》爆火!

黑神话简直太火了,各个热搜榜都有它的身影。 单 Steam 上的销量榜就是榜首,同时在线人数突破 200W。 估计周末在线人数更多,能不能破最高同时在线人数记录,拭目以待。 最近有不少人用清影 AI 生成鬼畜视频,我也用《黑…

【精选】基于大数据的___银行信用卡用户的数仓系统的设计与实现(全网独一无二,最新定制)

目录: 关键技术介绍 PYTHON语言简介 大数据介绍 MySql数据库 DJANGO框架 Hadoop介绍 Scrapy介绍 B/S架构 系统的设计 系统总功能模块设计 系统测试 系统测试的目的 软件测试过程 6.3测试用例 参考代码: 为什么选择我: 博主介绍&am…

Ciallo~(∠・ω・ )⌒☆第二十三篇 python 可迭代,迭代器,生成器,装饰器

Python中的可迭代对象(iterable)是指可以被迭代的对象,例如列表、元组、字符串等。可迭代对象可以通过循环来访问其元素。 迭代器(iterator)是一种能够逐个访问元素的对象,它实现了__iter__()和__next__()方…

C++ TinyWebServer项目总结(1. 配置安装)

语雀文档 项目记录会先更新在我的语雀文档 :Webserver 然后再同步发送到CSDN上,有些格式问题实在是懒得改了,可能会导致大家看的不舒服,建议有需要的大家可以看看我的原文。 安装环境 Ubuntu 20.04 mysql Ver 8.0.39-0ubuntu0…

活动策划必备:活动页面设计全攻略

活动页面是营销策略中的重要环节,它不仅传递活动信息,更是吸引用户参与和转化的关键。设计师需要深入理解活动的核心价值和目标受众的需求,确保设计能够准确传达活动信息,同时激发用户的参与欲望。通过这样的设计,活动…

【AI Agent极限挑战赛】三大赛题揭晓

由AIGC开放社区联合联想拯救者、英特尔共同主办的【2024 AI Agent极限挑战赛】于8月17日在上海中庚聚龙酒店成功举办。赛事全面考察参赛者将AI技术应用于实际问题的能力。比赛内容包括对大语言模型的理解、提示词(Prompt)的结构化调优技术、个人助理Agen…

做谷歌seo如何确保网站的速度快?

想做谷歌seo,网站的快慢也是一个重要因素,至少不能慢的让客户等得不耐烦,以下是一些实用的小建议,帮助你提高页面加载速度,确保用户体验的顺畅。 压缩图片文件大小:图片通常是网页上最占用带宽的资源之一&a…

记一次:Datawhale AI夏令营-第五期-CV-Task01

前言:前面参加了第四期AIGC算是入门了,第五期我又来了,这期我参加了两个,计算机视觉CV所以按照惯例写一个笔记。 学习任务 一、计算机视觉CV的了解 1.1、什么是计算机视觉? 1.2、什么是YOLO?什么是物体…

SAP赋能消费品行业:创新与效率的双重驱动

在快速消费品行业,市场变化如同潮水般汹涌,消费者需求日益个性化,竞争愈发激烈。SAP系统以其先进的企业资源规划技术,为消费品行业提供了强大的数字化解决方案,助力企业在创新与效率的双重驱动下,实现业务的…

上位机图像处理和嵌入式模块部署(linux Qt程序的编译)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 linux上位机写程序,大家都喜欢用designer设计界面,用qt creator编写程序。这样其实也无可厚非。但是从效率和快速开发的角度…

视频智能分析工业排污检测算法及算法源码全套应用方案

工业排污检测算法在环境保护领域发挥着至关重要的作用,其主应用场景可以归纳如下: 应用场景 1、化工厂:监测化工厂的废气、废水排放情况,预防化学品泄漏污染环境。通过实时监测和数据分析,确保化工厂的排放符合环保标…

鸿蒙Harmony开发知识:Arkts函数

函数 函数声明 函数声明引入一个函数,包含其名称、参数列表、返回类型和函数体。 以下示例是一个简单的函数,包含两个string类型的参数,返回类型为string: function add(x: string, y: string): string {let z: string ${x} …

Xinstall:让App下载摆脱注册码的束缚,效率翻倍!

你是否曾经因为繁琐的注册码而放弃了某个App的下载?或者在安装过程中因为邀请码填写错误而功亏一篑?这些问题,相信很多人都曾遇到过。今天,我要为大家介绍一个神奇的品牌——Xinstall,它凭借强大的免注册码下载技术&am…

二叉树练习

1.认识树 树的根节点及其子树,都是相对的概念。在任何一棵树中都有一个根节点,而这棵树本身又可以是别的树的子树。树的基本概念有: A)双亲和孩子:一个节点的后继节点被称为该节点的孩子,该节点称为这些孩子的双亲。…

面试车载测试岗位,我们应该如何准备呢?

在进行车载测试方面的简历撰写以及面试时,我们需要注意的几点如下: 01、简历方面 1.没有相关项目怎么办? 要投递和面试的岗位所要参与的项目和做过的项目不可能是完全一样的。招聘企业更关注工作思路以及解决问题的思路。 不同的公司就算是做一样的项…

无人机:航拍书籍推荐

写在前面 学习航拍,整理一些书籍分享理解不足小伙伴帮忙指正 😃,生活加油 99%的焦虑都来自于虚度时间和没有好好做事,所以唯一的解决办法就是行动起来,认真做完事情,战胜焦虑,战胜那些心里空荡荡的时刻&…

JavaWeb基础 -- Servlet

JavaWeb基础 – Servlet 1.Servlet简介 1.1 Servlet是什么 Servlet本身是用Java编写的,运行在Web服务器上的应用程序,并作为Web浏览器和其他HTTP客户端的请求和 HTTP 服务器上的数据库或应用程序之间的中间层。Servlet可以收集来自网页表单输入的数据…

iOS 修改 tabbar 图标大小 01

0x00 transform 在点击 tabbar 时,通过修改图片的 transform 属性,来修改图片大小。 遍历 self.tabBar.subviews 来查找 图片。 imageView.transform CGAffineTransformScale(imageView.transform, 4, 4); 你会发现,根本改不动&#xff01…

CSS知识点详解:div盒子模型

盒子模型: 边框: border-color:边框颜色 border-width:边框粗细 1.thin 2.medium 3.thick 4.像素值 border-width:5px ; border-width:20px 2px; border-width:5px 1px 6px; border-width:1px 3px 5px 2px; 这个简写属性…