大模型进军医疗行业：实验揭示LLMs在临床建议中的表现

news2025/7/8 6:59:08

在这里插入图片描述

近年来，大型语言模型（LLMs）如GPT-4等以其强大的自然语言处理能力，引发了科技界和公众的广泛关注。随着技术的不断进步，越来越多的人开始探索将LLMs应用于医疗行业，以期提高医疗服务的效率和质量。然而，LLMs在医疗领域的实际应用效果究竟如何？近期，一项发表在《Nature Communications》上的研究为我们提供了一些洞见。

实验背景与目的

随着LLMs的兴起，研究者们开始尝试将这些模型应用于临床决策支持系统中。然而，现有研究大多基于模拟数据或标准化测试，缺乏对真实世界临床笔记的评估。为了填补这一空白，研究人员开展了一项实验，旨在评估GPT-3.5-turbo和GPT-4-turbo在急诊科临床建议中的表现，并与住院医师的建议进行对比。

实验设计与方法

研究者们从加州大学旧金山分校（UCSF）的急诊科随机选取了10,000次就诊记录，并使用电子健康记录中的真实结果作为地面真实值。他们通过API接口向LLMs提供了患者的病史和体格检查信息，并请求模型为三个任务提供建议：入院状态、放射学检查请求状态和抗生素处方状态。此外，研究者们还采用了四种不同的提示策略来优化模型的输出。

为了评估模型的性能，研究者们计算了敏感性和特异性等指标，并与一名住院医师的表现进行了比较。住院医师对每个任务标注了200个样本，以确保对比的公平性。

实验结果与发现

实验结果显示，GPT-3.5-turbo和GPT-4-turbo在提供急诊科临床建议方面的表现均不佳。尽管GPT-4-turbo在抗生素处方任务上的表现略优于GPT-3.5-turbo，但其整体准确性仍显著低于住院医师。模型倾向于推荐干预措施，导致假阳性率高，这可能不利于医院资源的管理和患者安全。

通过改变提示策略，研究者们发现可以在一定程度上提高模型的特异性，但对整体准确性的提升有限。这表明，仅凭提示策略的改进可能不足以使LLM在临床决策任务中达到可接受的性能水平。

在这里插入图片描述

讨论与展望

这项研究揭示了LLMs在临床建议中的局限性，强调了临床决策制定的复杂性。研究者们指出，尽管LLMs在某些任务中表现出一定的潜力，但在复杂临床决策任务中仍需要显著的改进。未来研究应探索如何结合LLM与人类专家的知识，以提高临床决策的质量和效率。

此外，研究者们还提醒道，在部署LLM作为临床决策支持系统之前，必须仔细评估其潜在的风险和局限性。需要制定适当的监管措施，以确保LLM的安全性和有效性，并保护患者的权益。

结语

随着LLMs技术的不断发展，其在医疗领域的应用前景日益广阔。然而，这项研究提醒我们**，在追求技术创新的同时，必须保持谨慎和客观的态度**。只有充分了解LLM的能力和局限性，并结合人类专家的知识和经验，才能真正实现医疗服务的智能化和个性化。我们期待未来能够看到更多关于LLMs在医疗领域应用的研究和探索，为医疗行业的发展注入新的活力。

Code availability

作者将代码也放在了GitHub上
The code accompanying this manuscript is available at https://github.com/cykwilliams/GPT-3.5-Clinical-Recommendations-in-Emergency-Department/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2208328.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！