AIDD-人工智能药物设计-大语言模型在医学领域的革命性应用

news2025/4/14 23:34:46

Nat. Rev. Bioeng. | 大语言模型在医学领域的革命性应用

大型语言模型(LLMs),如 ChatGPT,因其对人类语言的理解与生成能力而备受关注。尽管越来越多研究探索其在临床诊断辅助、医学教育等任务中的应用,但关于其发展、实际应用与成效的系统评估仍然缺失。因此,研究人员在本综述中系统梳理了LLMs在医学领域的发展与部署现状,探讨其面临的机遇与挑战。在发展方面,研究人员介绍了现有医学LLMs的构建原理,包括模型结构、参数规模及训练数据来源与规模;在部署方面,研究人员比较了不同LLMs在多种医学任务中的表现,并与先进的轻量级模型进行对比。

Image

近年来,通用大语言模型(LLMs)如 PaLM、LLaMA、GPT 系列与 ChatGLM,在文本生成、摘要、问答等自然语言处理任务中取得了显著进展,并逐步拓展至医学领域。例如,部分模型在美国医学执照考试(USMLE)中已接近甚至超过人类专家的表现。基于开源LLMs(如LLaMA),研究人员构建了多种医学专用模型,如 ChatDoctor、MedAlpaca、PMC-LLaMA、BenTsao 和 Clinical Camel,以支持临床诊疗和患者管理。

尽管这些模型取得了初步成果,但仍存在诸多限制。例如,大多数模型集中于医学对话与问答场景,实际临床应用中的任务(如电子病历分析、出院小结生成、健康教育与照护计划)尚未被充分挖掘。此外,当前模型在提供实际操作建议方面仍显不足,且测试人群规模有限。

因此,研究人员在本综述中,首先分析了现有医学LLMs的构建原理,详细介绍其模型结构、参数规模及训练数据集;随后评估其在十类生物医学任务中的表现,涵盖判别与生成两类任务;接着,探讨其在七类临床场景中的部署与应用;最后,研究人员指出模型存在幻觉生成、伦理与安全隐患等挑战,并提出未来研究方向。为促进医学LLMs的可信与高效应用,研究人员倡导构建系统性的评估框架,并提供了持续更新的实用指南(https://github.com/AI-in-Health/MedLLMsPracticalGuide)。

医学大语言模型的构建原理

医学LLMs主要通过三种方式构建:从头预训练、基于通用模型微调,以及使用提示对齐通用模型。

Image

预训练

预训练阶段通常使用大规模医学语料(如电子病历、临床记录和医学文献),以掩码语言建模、下一句预测和下一个词预测等目标进行训练。研究人员常用的语料库包括 PubMed、MIMIC-III 和 PMC 等。通过预训练,模型能够学习丰富的医学语言和知识,为后续任务打下基础。

微调

由于从零训练成本高昂,研究人员倾向于在通用模型基础上进行微调,方式包括监督微调(SFT)、指令微调(IFT)和参数高效微调(PEFT)等。SFT通常利用医生与患者对话、医学问答或知识图谱进行继续训练;IFT则使用“指令-输入-输出”三元组提高模型对任务指令的理解;PEFT通过引入轻量参数模块(如 LoRA、Prefix Tuning、Adapter)大幅降低计算开销。

提示学习

提示学习(Prompting)可无需更新模型参数,仅通过设计输入方式(如上下文学习、思维链提示、检索增强生成等)引导模型执行任务。这一策略灵活高效,尤其适用于缺乏训练资源或对实时响应要求较高的医学场景。

医学任务分类

Image

判别式任务

这类任务旨在对医学文本进行分类、抽取或推理,典型包括问答、命名实体识别、关系抽取、自然语言推理和语义相似度计算。研究人员展示了模型在电子病历、临床记录、文献等文本中提取症状、药物、疾病等实体,并能对其进行标准化映射(如 SNOMED、ICD)。

生成式任务

生成任务要求模型依据输入自动撰写医学文本,包括病历摘要、出院指导、医学科普等。相比判别任务,生成任务更具开放性,考验模型语言生成能力和医学知识表达的准确性。

Image

临床应用

医疗决策支持

LLMs可协助医生进行诊断、风险预测、治疗推荐和临床试验匹配。如模型可整合患者病史、检查结果和文献证据,为复杂临床决策提供支持。但目前仍缺乏大规模临床验证。

临床编码

LLMs能自动读取临床文本并生成标准化编码(如 ICD、药物代码、手术代码),大幅提高信息管理效率。研究人员展示了多个模型在真实病历数据上的强编码表现。

报告生成

在放射学、出院记录等任务中,LLMs可生成结构化或摘要报告。部分模型结合图像分析模块,进行多模态报告生成,如 ChatCAD、MAIRA-1 等。尽管在自动评估指标(如ROUGE、BLEU)上表现良好,但临床可接受性仍需进一步评估。

医学机器人

LLMs与机器人系统结合,赋能手术操作、超声控制等任务,提升医疗自动化水平。如 GPT-4 控制的 SuFIA、UltrasoundGPT 等模型,在实验环境中展示了较强的规划与交互能力,但实地部署仍有挑战。

医学语言翻译

医学LLMs可实现跨语言术语转换及面向大众的语言简化,提升医学沟通的可达性。研究人员强调需在医学语义保持、术语准确性和语言平衡间寻求最佳策略,避免误译或信息丢失。

医学教育

研究人员探索了LLMs在医学教育中的应用,包括答疑、教材生成、个性化辅导、病例分析等。部分模型(如 Med-Gemini)结合图像能力,支持多模态教学交互。已在部分高校与医院试点使用。

精神健康支持

专为心理健康设计的LLMs(如 PsyChat、ChatCounselor)可进行文本情绪理解与辅助疏导,辅助心理咨询和早期筛查。但研究人员也指出需关注其伦理边界与应答安全性。

医疗咨询应答

研究人员构建的模型已可应对患者提出的常见问题,涵盖疾病管理、用药建议等场景。部分模型在回答准确性、连贯性及安全性评估中取得较好结果,具备向实际应用过渡的潜力。

Image

面临的挑战

幻觉生成(Hallucination)

幻觉是指模型生成了不准确或虚构的信息,分为内源性幻觉和外源性幻觉。前者表现为逻辑错误(如错误计算),后者则包括编造引文、回避问题等。在医学应用中,这类看似流畅但事实错误的内容可能误导诊断与治疗,带来严重后果。

研究人员将应对幻觉的策略分为三类:

  • 训练阶段修正:通过一致性强化学习或对比学习等方法优化模型权重。
  • 生成阶段修正:在推理时加入“推理”机制,如多样输出采样或可信度评分筛查错误。
  • 检索增强修正:结合外部文献作为提示,如使用真实资料或链式检索策略。

针对不同场景,这些方法各有优势,例如:训练修正适合结构化任务如影像报告;生成修正适用于多观点医疗问诊;检索增强对需要实时知识更新的任务如治疗建议尤为关键。

缺乏评估基准与指标

现有评估多集中于问答准确性,难以全面衡量医学LLMs的可信度、解释性与有用性。即便有部分数据集对真实健康问询进行了模拟,但仍缺乏系统的评价体系。研究人员呼吁建立覆盖真实性、解释性、专业度等维度的新型评估标准。

医学数据资源受限

当前医学训练数据规模远小于通用语料,导致模型在开源测试集上表现优异,却难以胜任真实任务(如鉴别诊断、个体化治疗)。此外,医学数据通常因伦理、法律和隐私限制而难以获取,多数数据未标注,人力标注与无监督学习受限于专家资源和误差容忍度低。

研究人员通常选择使用少量开源数据对通用模型微调,或尝试使用模型自身生成高质量合成数据。然而,合成数据因上下文单一易导致“灾难性遗忘”,使模型丧失原始知识能力。

新知识适配困难

医学知识更新频繁,训练后的模型难以高效注入新知识。一方面,旧知识难以完全删除,新旧信息的冲突可能引发错误关联;另一方面,新知识更新需具备实时性。

当前的应对策略包括:

  • 模型编辑:直接修改模型参数,但通用性和稳定性较差;
  • 检索增强生成(RAG):通过外部知识库引入新信息,实现快速更新而无需重新训练模型,虽不能清除旧知识,但能缓解更新滞后问题。

行为对齐不足

行为对齐指确保模型输出符合人类行为预期,尤其是在医疗对话中,模型仍难达到医生的专业水平。

研究人员提出三类对齐方法:

  • 指令微调:通过明确任务指令提升模型响应质量;
  • 基于人类反馈的强化学习:利用人类评分优化模型输出,常用于医疗聊天机器人与决策系统;
  • 提示调优:例如“反思式提示”让模型回顾自身回答并自我修正,提升一致性与准确性。

伦理与安全问题

医学LLMs引发的伦理与隐私争议日益受到关注。例如,有研究反对将ChatGPT用于生物医学论文写作;又如,提示注入可能导致模型泄露敏感数据(如邮箱地址)。这一风险来源于安全训练范围不足以覆盖模型所有能力。

研究人员建议扩大安全训练数据规模,建立系统的安全机制,以防模型在医疗场景中引发信任危机。

展望

尽管大语言模型(LLMs)已通过聊天机器人与搜索引擎影响了大众生活,但其在医疗实践中的应用仍处于初级阶段。当前评估基准多集中于医学问答任务,难以覆盖真实临床场景所需的多种能力。研究人员指出,仅依赖标准化考试(如USMLE)并不足以反映LLMs在实际诊疗中的专业表现。

因此,未来需要构建更全面的评估基准,考察模型是否具备以下能力:引用权威医学资料、适应医学知识不断更新、明确表达不确定性,以及接受临床反馈并持续迭代。同时,公平性、伦理性与健康公平性等因素也应纳入评价,不能仅依赖基础指标(如人口统计学一致性),而应结合情境进行精细化评估。例如,AMIE模型引入了医生对模型的多维度评价(包括临床推理、医患沟通和专业行为),但仍存在可扩展性和适应性不足的问题。

研究人员建议,未来评估体系可融合真实与合成数据,参照临床指南与患者安全标准,开发交互式评估平台,让临床专家实时参与反馈与模型协同测试。

多模态模型(MLLMs)与时序数据挑战

尽管现有LLMs主要针对文本任务,融合视觉、语言甚至音频的多模态大模型(MLLMs)已初现成效。例如,Med-Flamingo、LLaVA-Med、Med-Gemini等模型通过图文数据联合微调,具备放射影像理解能力。一些探索性研究还尝试将音频、图像与文本融合,用于自动牙科诊断,显示出良好潜力。

然而,医学中常见的时间序列数据(如心电图、血压监测)仍很少被有效集成至模型中。未来可探索更高效的多模态数据建模与学习方式,特别是高资源消耗模态(如视频、医学影像)下的成本优化训练方法,同时解决多模态临床数据的采集与访问难题。

基于LLMs的智能代理系统

研究人员提出,结合LLMs与外部工具、环境交互能力的“LLM智能代理”将是重要方向。这类代理可整合多种模态输入,具备推理、学习和反馈能力,能通过类人行为(如角色扮演、沟通协作)解决复杂问题。

例如,Chat-Orthopedist 可通过访问专业数据库(如 UpToDate)获取最新脊柱侧弯知识,向患者提供清晰准确的问答服务。在医疗场景中,智能代理可模拟多个医学角色,协同完成诊断任务,实现从影像到报告的整合与决策。

未来研究可探索:

  • 构建兼容LLMs的数据接口,整合来自多设备的监测数据;
  • 优化多代理间沟通、真实度控制与安全权限;
  • 强化远程实时决策与适应性学习机制,以应对突发医疗情境。

目前医疗LLMs研究主要集中于通用医学领域,导致康复、运动医学等专科领域的研究仍相对缺乏。

医学界的主动参与

至今,大多数医学LLMs由科技公司主导开发,医学界对其训练数据来源、伦理流程与隐私保护关注不足。研究人员呼吁临床专家积极参与LLMs的构建与测试过程,包括:

  • 提供高质量医学数据;
  • 明确设定模型的期望目标;
  • 在真实场景中检验其效益与风险。

通过这些方式,医疗界可以更好地识别与规避潜在法律和临床风险,提升LLMs在医疗中的信任度与实用性。

此外,培养“医学+技术双语人才”也至关重要。未来可探索跨学科培训框架,如在高校建立“双语教育项目”,推动基层诊所数据共享,同时加强隐私保护机制,帮助医院和医生在保障数据安全的前提下引入创新。

参考资料

Liu, F., Zhou, H., Gu, B. et al. Application of large language models in medicine. Nat Rev Bioeng (2025).

https://doi.org/10.1038/s44222-025-00279-5

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2333931.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows 系统中安装 Git 并配置 GitHub 账户

由于电脑重装系统,重新配置了git. 以下是在 Windows 系统中安装 Git 并配置 GitHub 账户的详细步骤: 1. 安装 Git 访问 Git 官网下载页面下载 Windows 版本的 Git 安装程序运行安装程序,使用默认选项即可 2. 配置 Git 用户信息 打开命令…

QQ风格客服聊天窗口

QQ风格客服聊天窗口 展示引入方式 展示 引入方式 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title&g…

MCU刷写——Hex文件格式详解及Python代码

工作之余来写写关于MCU的Bootloader刷写的相关知识,以免忘记。今天就来聊聊Hex这种文件的格式,我是分享人M哥,目前从事车载控制器的软件开发及测试工作。 学习过程中如有任何疑问,可底下评论! 如果觉得文章内容在工作学习中有帮助到你,麻烦点赞收藏评论+关注走一波!感谢…

汇舟问卷:国外问卷调查技巧有哪些,具体该怎么操作

大家好&#xff0c;我是汇舟问卷&#xff0c;今天咱们就聊聊国外问卷答题的技巧和操作步骤&#xff0c;保你听完立马能上手&#xff01; 一、答题前先创建人设 1&#xff0c;进题时先瞄两眼问题&#xff0c;快速判断问卷主题&#xff0c;再定人设。比如遇到奶粉问卷&#xff…

C++标识符:检查是否和保留字冲突

1. 基础知识 最基本的要求&#xff1a; 字母、数字、下划线组成&#xff0c; 并且不能是数字开头。 禁忌1&#xff1a; C 关键字不能用做标识符。 它们是&#xff1a; alignas alignof asm auto bool break case catch char char16_t char32_t class const constexpr const_…

《Python星球日记》第27天:Seaborn 可视化

名人说&#xff1a;路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原《离骚》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 专栏&#xff1a;《Python星球日记》&#xff0c;限时特价订阅中ing 目录 一、Seabor…

自动驾驶技术-相机_IMU时空标定

自动驾驶技术-相机_IMU时空标定 时间延迟 时间延迟 参考链接1、2 相机主要分为全局和卷帘快门相机&#xff0c;从触发到成像的过程包括&#xff1a;复位时间、AE()曝光时间、读出时间 全局快门如下图所示 卷帘快门如下图所示 相机录制视频时&#xff0c;为了保持固定频率&am…

”插入排序“”选择排序“

文章目录 插入排序1. 直接插入排序(O(n^2))举例1&#xff1a;举例2&#xff1a;直插排序的"代码"直插排序的“时间复杂度” 2. 希尔排序(O(n^1.3))方法一方法二(时间复杂度更优) 选择排序堆排序直接选择排序 我们学过冒泡排序&#xff0c;堆排序等等。&#xff08;回…

Python深度学习基础——卷积神经网络(CNN)(PyTorch)

CNN原理 从DNN到CNN 卷积层与汇聚 深度神经网络DNN中&#xff0c;相邻层的所有神经元之间都有连接&#xff0c;这叫全连接&#xff1b;卷积神经网络 CNN 中&#xff0c;新增了卷积层&#xff08;Convolution&#xff09;与汇聚&#xff08;Pooling&#xff09;。DNN 的全连接…

MTK7628基于原厂的mtk-openwrt-sdk-20160324-8f8e4f1e.tar.bz2 源代码包,配置成单网口模式的方法

一、配置. 在SDK工程下&#xff0c;运行make kernel_menuconfig&#xff0c;如下图所示&#xff1a; Ralink Module --->选上“One Port Only”&#xff0c;如下图所示&#xff1a; 如果P0网口实现WAN口&#xff0c;就配置成W/LLLL,否则就配置成LLLL/W. 二、修改网口的原代…

艾伦·图灵:计算机科学与人工智能之父

名人说&#xff1a;路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原《离骚》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 艾伦图灵&#xff1a;计算机科学与人工智能之父 一、天才的诞生与早期生涯 1912年6月…

策略模式实现 Bean 注入时怎么知道具体注入的是哪个 Bean?

Autowire Resource 的区别 1.来源不同&#xff1a;其中 Autowire 是 Spring2.5 定义的注解&#xff0c;而 Resource 是 Java 定义的注解 2.依赖查找的顺序不同&#xff1a; 依赖注入的功能&#xff0c;是通过先在 Spring IoC 容器中查找对象&#xff0c;再将对象注入引入到当…

React九案例中

代码下载 地图找房模块 顶部导航栏 封装NavHeader组件实现城市选择&#xff0c;地图找房页面的复用&#xff0c;在 components 目录中创建组件 NavHeader&#xff0c;把之前城市列表写过的样式复制到 NavHeader.scss 下&#xff0c;在该组件中封装 antd-mobile 组件库中的 N…

第一期:[特殊字符] 深入理解MyBatis[特殊字符]从JDBC到MyBatis——持久层开发的转折点[特殊字符]

前言 &#x1f31f; 在软件开发的过程中&#xff0c;持久层&#xff08;或数据访问层&#xff09;是与数据库进行交互的关键部分。早期&#xff0c;开发者通常使用 JDBC&#xff08;Java Database Connectivity&#xff09;来实现与数据库的连接与操作。虽然 JDBC 在一定程度上…

Adobe Photoshop 2025 Mac中文 Ps图像编辑

Adobe Photoshop 2025 Mac中文 Ps图像编辑 一、介绍 Adobe Photoshop 2025 Mac版集成了多种强大的图像编辑、处理和创作功能。①强化了Adobe Sensei AI的应用&#xff0c;通过智能抠图、自动修复、图像生成等功能&#xff0c;用户能够快速而精确地编辑图像。②3D编辑和动画功…

用纯Qt实现GB28181协议/实时视频/云台控制/预置位/录像回放和下载/事件订阅/语音对讲

一、前言 在技术的长河中探索&#xff0c;有些目标一旦确立&#xff0c;便如同璀璨星辰&#xff0c;指引着我们不断前行。早在2014年&#xff0c;我心中就种下了用纯Qt实现GB28181协议的种子&#xff0c;如今回首&#xff0c;一晃十年已逝&#xff0c;好在整体框架和逻辑终于打…

让你方便快捷实现主题色切换(useCssVar)

文章目录 前言一、useCssVar是什么&#xff1f;二、使用步骤1.安装依赖2.实现主题色切换 总结 前言 使用 CSS 变量&#xff08;CSS Custom Properties&#xff09;实现主题色切换是一种高效且易于维护的方法。通过将主题颜色定义为 CSS 变量&#xff0c;你可以轻松地在不同主题…

面试之《websocket》

配置环境 mkdir express cd express npm init npm install express ws// index.js var app require("express")(); var WebSocket require("ws");var wss new WebSocket.Server({ port: 8888 });wss.on(connection, function connection(ws) {ws.on(m…

L36.【LeetCode题解】查找总价格为目标值的两个商品(剑指offer:和为s的两个数字) (双指针思想,内含详细的优化过程)

目录 1.LeetCode题目 2.分析 方法1:暴力枚举(未优化的双指针) 方法2:双指针优化:利用有序数组的单调性 版本1代码 提问:版本1代码有可以优化的空间吗? 版本2代码 提问:版本2代码有可以优化的空间吗? 版本3代码(★推荐★) 3.牛客网题目:和为s的数字 1.LeetCode题目 …

英语学习4.9

cordial 形容词&#xff1a; 热情友好的&#xff0c;诚恳的 表示一个人态度温和、亲切&#xff0c;给人温暖和善的感觉。 令人愉快的&#xff0c;和睦的 形容关系融洽、氛围和谐。 例句​​&#xff1a; The two leaders had a ​​cordial​​ but formal discussion. &am…