人工智能在临床应用、药物研发以及患者护理等方面的最新研究进展|顶刊速递·25-02-12

news2025/2/15 7:38:07

小罗碎碎念

推文速览

第一篇文章提出 CRAFT-MD 框架评估临床大语言模型(LLMs)在医患互动任务中的表现,发现其存在局限性,并基于结果给出改进评估的建议。

第二篇文章全面阐述了 2019 年以来人工智能在小分子药物研发全流程(从靶点识别到上市后监测)的应用、取得的进展、面临的挑战(如数据质量、模型设计等),并展望了未来发展方向,强调其虽面临困难,但有望提升药物研发效率、推动医学进步。

第三篇文章通过对 92 名医生进行前瞻性随机对照试验,发现使用 GPT-4 辅助的医生在处理复杂临床病例管理推理任务上得分显著高于仅使用传统资源的医生,虽花费时间更多,但 GPT-4 辅助提升表现的效果明显,不过该结论还需在真实临床实践中验证。


背景补充

  1. 用于评估临床大语言模型(Clinical LLM)的CRAFT - MD框架示例
  2. 人工智能在药物研发流程中的应用
  3. 医生在患者护理任务中使用GPT - 4辅助效果的随机对照试验流程

知识星球

如需获取推文中提及的各种资料,欢迎加入我的知识星球!


一、评估大语言模型临床应用:CRAFT-MD 框架揭示局限与方向

https://doi.org/10.1038/s41591-024-03328-5

一作&通讯

作者身份姓名单位
第一作者Shreya Johri、Jaehwan Jeong哈佛医学院生物医学信息学系(Department of Biomedical Informatics, Harvard Medical School);斯坦福大学计算机科学系(Department of Computer Science, Stanford University)
通讯作者Roxana Daneshjou、Pranav Rajpurkar斯坦福大学皮肤科(Department of Dermatology, Stanford University);斯坦福大学生物医学数据科学系(Department of Biomedical Data Science, Stanford University);哈佛医学院生物医学信息学系(Department of Biomedical Informatics, Harvard Medical School)

文献概述

《An evaluation framework for clinical use of large language models in patient interaction tasks》发表于Nature Medicine,提出CRAFT-MD框架评估临床大语言模型(LLMs),发现其在临床对话推理、病史采集和诊断准确性方面存在局限,并给出改进建议。

  1. 研究背景:患者数量增加、咨询时间缩短及远程医疗普及,给传统病史采集带来挑战。LLMs在医疗领域有应用潜力,但评估其在真实临床场景的适用性研究不足,现有评估方法多依赖结构化医学检查,无法考察其互动对话能力。
  2. CRAFT-MD框架:通过模拟医患对话评估临床LLMs的对话推理能力,包含临床LLM、患者AI代理、评分AI代理和医学专家四个组件。使用2000个病例 vignettes对多种模型评估,相比传统方法,该框架效率更高、规模更大。
  3. 实验结果
    • 对话交互降低诊断准确性:在四选一选择题(MCQs)设置中,所有评估的LLMs(GPT-4、GPT-3.5、Mistral-v2-7b和LLaMA-2-7b)在对话情境下的诊断准确性均低于静态 vignettes。多轮对话中,GPT-4、GPT-3.5和LLaMA-2-7b的诊断准确性因后续问题而下降,Mistral-v2-7b有所上升,但总体低于预期。
    • 对话总结提高推理能力:将多轮对话转换为类似vignettes的总结形式后,所有模型在MCQs设置中的准确性均有所提高,表明这种转换有助于更准确的诊断。
    • 开放式诊断和跨专科趋势:在开放式诊断(FRQs)场景下,所有模型的准确性显著下降,且对话交互的表现仍不如vignettes。在12个医学专科中,不同对话格式的诊断准确性趋势一致。
    • 皮肤病案例研究:在皮肤病相关评估中,vignettes的准确性高于对话格式。医学专家评估发现,患者AI代理和评分AI代理可靠性较高,但临床LLMs在引导临床对话和收集完整病史方面存在差异。
    • 多模态模型的图像理解局限:评估GPT-4V发现,移除图像后,其在所有实验设置中的诊断准确性均有下降,但差异不显著,表明多模态模型在图像理解方面存在局限。
    • 模型持续监测:对Mistral两个版本评估发现,不同版本在不同格式下表现不同,强调在训练LLMs时全面评估的重要性。
  4. 研究建议:提出10条建议,包括通过真实医患对话评估诊断准确性、采用开放式问题、评估全面病史采集能力、提高信息整合能力、整合多模态信息、持续评估对话能力、优化提示策略、使用模拟AI代理进行测试、结合自动和专家评估、收集多样化公共数据集等。
  5. 研究结论:当前LLMs在临床对话情境下表现较差,CRAFT-MD框架有助于揭示其局限性。未来应改进评估方法,开发更可靠的AI代理,鼓励数据集和模型的透明度,使LLMs更好地辅助医疗实践。

用于评估临床大语言模型(Clinical LLM)的CRAFT - MD框架示例

图片展示了各组件的提示(Prompt)、病例简介(Case vignette)、医患对话(Doctor - patient conversation)以及医学专家评估(Expert evaluation)的内容。

image-20250212091525373

组件及任务介绍

  1. Clinical LLM:根据提示对病例进行提问,直至确定诊断,提示内容为询问病史、当前症状、用药情况、家族病史等。
  2. Patient - AI agent:根据病例简介以通俗易懂的语言回答Clinical LLM的问题。
  3. Grader - AI agent:根据提示判断两个疾病名称是否为正确诊断,以“是”或“否”回答。
  4. Medical expert:从以下方面进行评估:
    • Clinical LLM是否收集到相关病史。
    • Patient - AI agent是否恰当地回答问题。
    • 描述症状的技术术语是否准确。
    • Grader - AI agent在评估诊断等效性方面是否可靠。

病例相关信息

  • 病例简介:一名55岁男性,入住重症监护病房,突发躯干和手臂水疱性皮疹,之前接受过小肠切除手术,术后病程因败血症、发热和呼吸衰竭而复杂化,检查时水疱在轻度触诊下破裂。
  • 最终诊断:晶痱(miliaria crystallina) 。

二、人工智能在药物研发中的多元应用及前景展望

https://doi.org/10.1038/s41591-024-03434-4

一作&通讯

作者类型姓名单位
第一作者Kang Zhang
Xin Yang
Yifei Wang
Yunfang Yu
温州医科大学眼视光医院、眼健康与疾病高级研究院、临床数据科学研究所;
四川大学华西医院癌症中心生物治疗科、生物治疗国家重点实验室;
四川大学华西医院癌症中心生物治疗科、生物治疗国家重点实验室;
中山大学孙逸仙纪念医院;澳门科技大学医学院医学人工智能研究所
通讯作者Kang Zhang
Shengyong Yang
温州医科大学眼视光医院、眼健康与疾病高级研究院、临床数据科学研究所;
四川大学华西医院癌症中心生物治疗科、生物治疗国家重点实验室

文献概述

文章综述2019年以来人工智能在小分子药物研发中的应用,探讨其在靶点识别、药物发现、临床试验等阶段的作用、面临挑战及未来方向,认为人工智能可提升药物研发效率,但仍需克服数据、模型等问题,前景值得期待。

  1. 药物研发现状与人工智能的作用:药物研发复杂、耗时、成本高且成功率低。人工智能技术,如大语言模型和生成式人工智能,能够处理海量数据,加速和改进药物研发过程,在靶点识别、药物发现、临床前和临床试验以及上市后监测等方面均有应用潜力。
  2. 人工智能在药物研发各阶段的应用
    • 靶点识别:人工智能通过构建多组学数据网络、挖掘文献和整合知识图谱等方式,识别疾病相关分子模式和因果关系,助力发现候选药物靶点,但面临数据整合和模型可解释性挑战。
    • 药物发现:在虚拟筛选中,人工智能预测配体 - 受体相互作用,但存在预测不精确等问题;从头设计可自主创建新化学结构,面临生成有效分子的挑战;ADMET预测可评估药物性质,深度学习推动其发展,但数据稀缺和模型可解释性待解决;合成规划和自动化合成可辅助化学家,提高研发效率,但技术仍处于起步阶段。
    • 临床试验和实际应用:在生物标志物发现方面,人工智能能识别诊断、预后和预测性生物标志物,但面临数据异质性等挑战;预测药物代谢动力学性质可优化治疗方案;药物再利用可挖掘现有药物新用途,但面临数据和模型相关问题;改善试验效率和预测结果可优化试验设计,但存在计算成本高等挑战 。
  3. 面临的挑战:高质量训练数据缺乏、数据存在缺陷,药物设计难以平衡多目标,分子表示难以兼顾复杂性和可合成性,“不可成药”靶点难以攻克,算法和计算能力存在局限,同时还面临人才短缺和投资风险。
  4. 未来方向:开发新策略解决数据稀缺问题,建立多模态融合方法,将物理定律融入算法,开发可解释的人工智能模型,发挥人工智能在医学建模和模拟中的作用,推动药物研发和医疗服务发展。
  5. 结论:人工智能技术推动药物研发进步,但并非万能,仍需湿实验验证和人类指导。鉴于人工智能的发展态势,其有望加速药物研发、造福人类健康。

人工智能在药物研发流程中的应用

这张图展示了药物研发的各个阶段、主要任务以及人工智能在每个阶段的具体应用。

image-20250212091710550

  1. 药物研发流程(Pipeline of drug development):涵盖靶点识别、药物发现、临床前研究(动物)、临床试验(人类)、审批/上市和上市后监测六个关键阶段。
  2. 主要任务(Main tasks)
    • 靶点识别:确定新靶点。
    • 药物发现:发现活性化合物(苗头/先导化合物),进行候选药物的先导优化以及化学制造和控制(CMC)。
    • 临床前研究:生物标志物发现、药物代谢动力学(DMPK)评估、安全性评估、药效学评估和制定用药方案。
    • 临床试验:无具体列出主要任务。
    • 审批/上市:推出新药。
    • 上市后监测:评估或监测疗效、副作用、药物稳定性、用药计划、失败分析和假药分析。
  3. 人工智能应用(AI - powered applications)
    • 靶点识别:多组学数据分析、生物网络构建与分析、文献和真实世界数据挖掘、知识图谱构建和靶点验证。
    • 药物发现:虚拟筛选、配体 - 受体相互作用预测、分子生成、ADMET(吸收、分布、代谢、排泄和毒性)预测、先导优化、合成路线规划和自动化合成。
    • 临床前研究:诊断性、预测性和预后性生物标志物发现、药代动力学性质预测、临床试验成功预测、药物副作用预测、临床试验设计中的数字孪生、药物再利用和监管审批支持。
    • 临床试验:无具体列出应用。
    • 审批/上市:无具体列出应用。
    • 上市后监测:个性化疗效评估、个性化患者护理、安全问题早期检测、自动化不良反应报告、持续安全监测、药物效益 - 风险评估和加强药物警戒合规性。

注意,结构图使用UCSF ChimeraX 1.7.1软件创建,个人觉得比较精美,大家若有需求,可以借鉴一下


三、GPT-4 能否优化医生在患者护理任务中的表现?

https://doi.org/10.1038/s41591-024-03456-y

一作&通讯

作者身份姓名单位
第一作者Ethan Goh1. 斯坦福大学生物医学信息学研究中心;2. 斯坦福大学临床卓越研究中心
通讯作者Jonathan H. Chen1. 斯坦福大学生物医学信息学研究中心;2. 斯坦福大学临床卓越研究中心;3. 斯坦福大学医院医学科

文献概述

“GPT-4 assistance for improvement of physician performance on patient care tasks: a randomized controlled trial”发表于Nature Medicine,通过前瞻性随机对照试验,探究大语言模型(LLMs)辅助对医生在患者护理任务中管理推理能力的影响,发现GPT-4辅助能提升医生表现,但仍需在真实临床环境中验证。

  1. 研究背景:LLMs在诊断推理方面表现出色,但在管理推理(涉及治疗决策、检测策略权衡及风险管控等)上的作用未知。管理推理研究相对较新,现有框架包含多种情境相关概念,与诊断推理有明显差异。
  2. 研究方法
    • 参与者:招募92名内科、家庭医学或急诊医学领域的执业主治医生和住院医生,随机分为GPT-4加传统资源组和传统资源组。
    • 临床病例构建:依据美国医师学院播客“Core IM”的“Grey Matters”系列构建病例,经专家小组改编,确保研究前GPT-4和参与者均未接触过。
    • 评分规则制定:针对每个病例,由5人专家小组通过迭代修正的德尔菲法制定评分规则,并在两个试点组测试和完善。
    • 研究设计:采用前瞻性、随机、单盲(评分者盲法)设计。参与者接受与临床实际部署相当的GPT-4培训,可使用常用临床资源,按要求在1小时内完成5个病例,优先保证回答质量。
    • LLM单独作答提示设计:为LLM单独作答组设计零样本提示,每个提示运行5次,结果与医生作答一同进行盲法评分。
    • 评分规则验证:收集两组初步数据,由3名评分者独立评分,出现分歧时讨论达成共识,并计算加权Cohen’s kappa系数评估一致性。
    • 研究结果指标:主要指标为每组的平均得分,次要指标包括评分规则预定义领域的得分、病例特异性或一般性决策得分以及完成病例的时间。
    • 统计方法:基于预研究数据进行功效分析,预设84名参与者为最小样本量,采用广义混合效应模型分析数据,以P<0.05为有统计学意义。
  3. 研究结果
    • 管理表现:使用GPT-4的医生组总得分显著高于传统资源组(差异=6.5%,95%CI=2.7% - 10.2%,P<0.001);GPT-4单独作答得分与使用GPT-4的医生组相近,且高于传统资源组。
    • 问题领域分组:在管理决策、诊断决策和特定情境问题上,使用GPT-4的医生组得分更高;在事实回忆和一般管理知识方面,虽未达显著差异,但趋势相似。
    • 时间:使用GPT-4的医生组每个病例花费时间更长(差异=119.3秒,95%CI=17.4 - 221.2秒,P=0.022),且调整时间后,GPT-4组得分仍有显著提升。
    • 回答长度:调整回答长度后,GPT-4组得分仍比传统资源组高3.7个百分点(95%CI=0.7 - 6.7,P=0.02)。
    • 伤害可能性和程度:两组在潜在伤害的可能性和程度上相似。
  4. 研究结论:LLMs可辅助提升医生管理推理能力,在某些临床场景中有望成为医生决策的有益补充,但本研究存在局限性,如使用临床 vignettes而非真实病例、评分规则缺乏外部有效性验证等,LLMs在实际临床应用中需进一步考量潜在问题,其在真实临床环境中的效果仍需严格验证 。

医生在患者护理任务中使用GPT - 4辅助效果的随机对照试验流程

image-20250212092212908

  1. 资格评估:共有92名在内科、家庭医学或急诊医学领域接受培训的执业主治医生和住院医生接受资格评估。
  2. 随机分组:这92名医生被随机分为两组,每组46人。
  3. 干预措施:一组(46人)接受使用GPT - 4(通过ChatGPT)加上传统资源(如UpToDate、Google)的干预;另一组(46人)仅接受传统资源的干预。
  4. 数据分析:对两组各46名医生的数据进行分析。

结束语

本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2298397.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【物联网】电子电路基础知识

文章目录 一、基本元器件1. 电阻2. 电容3. 电感4. 二极管(1)符号(2)特性(3)实例分析5. 三极管(1)符号(2)开关特性(3)实例6. MOS管(产效应管)(1)符号(2)MOS管极性判定(3)MOS管作为开关(4)MOS管vs三极管7. 门电路(1)与门(2)或门(3)非门二、常用元器件…

辛格迪客户案例 | 钥准医药科技GMP文件管理(DMS)项目

01 创新药企&#xff0c;崛起于启东 在我国医药行业蓬勃发展的浪潮中&#xff0c;钥准医药科技&#xff08;启东&#xff09;有限公司&#xff08;以下简称“钥准医药”&#xff09;犹如一颗冉冉升起的新星&#xff0c;闪耀着创新与活力的光芒。成立于2015年&#xff0c;钥准医…

Day65_20250213图论part9_dijkstra(堆优化版)|Bellman_ford算法精讲

Day65_20250213图论part9_dijkstra(堆优化版)|Bellman_ford算法精讲 dijkstra(堆优化版) 题目 https://www.programmercarl.com/kamacoder/0047.%E5%8F%82%E4%BC%9Adijkstra%E5%A0%86.html 小明参加科学大会 思路 思路 朴素版的dijkstra&#xff0c;时间复杂度为O(n^2)&am…

w208基于spring boot物流管理系统设计与实现

&#x1f64a;作者简介&#xff1a;多年一线开发工作经验&#xff0c;原创团队&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取&#xff0c;记得注明来意哦~&#x1f339;赠送计算机毕业设计600个选题excel文…

望远镜成像系统--科学评价光学镜头

望远镜是一种利用透镜或反射镜以及其他光学器件观测遥远物体的光学仪器。其原理是通过透镜的折射或反射镜的反射&#xff0c;将光线聚焦成像&#xff0c;再经过一个放大目镜进行观察。日常生活中的光学望远镜又称“天文望远镜”。1608年&#xff0c;荷兰的一位眼镜商汉斯利伯希…

产品更新 | 华望M-Design 平台的AI 建模功能即将上线

前言 在 AI 技术加速发展的背景下&#xff0c;杭州华望系统科技有限公司在⼤语⾔模型与 SysML 标准进行深度结合的基础上&#xff0c;强力推出AI建模功能。该功能⽀持⽤户通过上传⽂档或对话交互等⽅式完成需求智能增强、模型动态构建与细节补充、实时获取结构化反馈等业务。⽬…

RabbitMQ 在 Spring Boot中使用方式

文章目录 作用MQ docker 安装MQ使用RabbitMQ的整体架构及核心概念&#xff1a;RabbitMQ的整体架构及核心概念&#xff1a;消费者消息推送限制交换机与队列## 项目使用MQDirect: 直连模式Fanout: 广播模式Topic: 主题模式Headers: 头信息模式 使用DEMO地址异常问题记录 作用 Ra…

HAL库框架学习总结

概述&#xff1a;HAL库为各种外设基本都配了三套 API&#xff0c;查询&#xff0c;中断和 DMA。 一、HAL库为外设初始化提供了一套框架&#xff0c;这里以串口为例进行说明&#xff0c;调用函数 HAL_UART_Init初始化串口&#xff0c;此函数就会调用 HAL_UART_MspInit&#xff0…

深入解析系统调用接口(System Call Interface, SCI)

在操作系统的世界中&#xff0c;用户态应用程序无法直接访问内核态资源&#xff0c;而必须通过一种受控的方式进行交互。这种方式就是系统调用&#xff08;System Call&#xff09;。系统调用接口&#xff08;System Call Interface, SCI&#xff09;是用户程序与操作系统内核之…

深入理解Linux网络随笔(一):内核是如何接收网络包的(下篇)

3、接收网络数据 3.1.1硬中断处理 数据帧从网线到达网卡时候&#xff0c;首先到达网卡的接收队列&#xff0c;网卡会在初始化时分配给自己的RingBuffer中寻找可用内存位置&#xff0c;寻找成功后将数据帧DMA到网卡关联的内存里&#xff0c;DMA操作完成后&#xff0c;网卡会向…

《只狼》运行时提示“mfc140u.dll文件缺失”是什么原因?要怎么解决?

《只狼》运行时提示“mfc140u.dll文件缺失”是什么原因&#xff1f;要怎么解决&#xff1f; 宝子们&#xff0c;是不是在玩《只狼》的时候&#xff0c;突然弹出一个提示&#xff1a;“找不到mfc140u.dll文件”&#xff1f;这可真是让人着急上火&#xff01;别慌&#xff0c;今…

SSM开发(十二) mybatis的动态SQL

目录 一、为什么需要动态SQL? Mybatis 动态 sql 是做什么的? 二、多种动态 SQL 元素 三、示例 1、model定义 2、数据库定义 3、UserMapper接口及UserMapper.xml内容定义 if标签 choose/when/otherwise 标签 foreach标签 trim 标签 四、动态SQL注意 一、为什么需…

基于LVS负载均衡练习

对比 LVS 负载均衡群集的 NAT 模式和 DR 模式&#xff0c;比较其各自的优势。 NAT模式&#xff0c;全称是网络地址转换模式。NAT模式下&#xff0c;负载均衡器&#xff08;Director&#xff09;会修改请求和响应的IP地址。客户端的请求先到达Director&#xff0c;Director将请…

FreeRTOS低功耗总结

前言 Cortex-M核的MCU一般支持以下三种低功耗方式&#xff1a; ● 睡眠(Sleep)模式 ● 停止(Stop)模式 ● 待机(Standby)模式 睡眠模式 进入睡眠模式有两种指令&#xff1a;WFI(等待中断)和WFE(等待事件)&#xff0c; WFI进入睡眠模式后&#xff0c;任意中断都可唤醒。 WFE进…

【IC】AI处理器核心--第二部分 用于处理 DNN 的硬件设计

第 II 部分 用于处理 DNN 的硬件设计 第 3 章 关键指标和设计目标 在过去的几年里&#xff0c;对 DNN 的高效处理进行了大量研究。因此&#xff0c;讨论在比较和评估不同设计和拟议技术的优缺点时应考虑的关键指标非常重要&#xff0c;这些指标应纳入设计考虑中。虽然效率通常…

【python】向Jira测试计划下,附件中增加html测试报告

【python】连接Jira获取token以及jira对象 # 往 jira 测试计划下面&#xff0c;上传测试结果html def put_jira_file(plain_id):# 配置连接jiraconn ConnJira()jira conn.jira_login()[2]path jira.issue(O45- plain_id)attachments_dir os.path.abspath(..) \\test_API…

STM32自学记录(九)

STM32自学记录 文章目录 STM32自学记录前言一、DMA杂记二、实验1.学习视频2.复现代码 总结 前言 DMA 一、DMA杂记 DMA&#xff08;Direct Memory Access&#xff09;直接存储器存取 DMA可以提供外设和存储器或者存储器和存储器之间的高速数据传输&#xff0c;无须CPU干预&…

【C++】C++-教师信息管理系统(含源码+数据文件)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;专__注&#x1f448;&#xff1a;专注主流机器人、人工智能等相关领域的开发、测试技术。 【C】C教师信息管理系统&#xff08;含源码&#x…

Java Swing-5.jar 使用 jpackage 打包成 windows 可安装应用(exe,msi,免安装版exe)

环境 jdk17 (jdk14 以后自带将jar 打安装包工具 jpackage&#xff0c;版本从1.8调整到17) Maven&#xff1a;3.2.5 效果 对比 exe4j :免费版在启动的时候总是先弹出一个弹框&#xff0c;告诉用户你在用他们的免费版Launch4j:无法把jre环境打到exe文件中&#xff0c;用户需要单独…

ADC入门准备(十):信号与系统知识回顾

4.7系统函数零极点分布决定时域特性 4.7.1 H(s)极点分布与h(t)的对应图解 4.7.2 H(s)、E(s&#xff09;极点分布与自由响应、强迫响应特征的对应 4.8 H(s)零极点分布决定频域特性 4.8.1 s平面几何分析法 4.8.2 高通滤波器的频率特性 4.8.3 低通滤波器的频率特性 4.9 二阶谐振系…