生物医学信息学杂志
链接:https://www.sciencedirect.com/science/article/abs/pii/S1532046424001254?via%3Dihub
On the role of the UMLS in supporting diagnosis generation proposed by Large Language Models
Author links open overlay panelMajid Afshar a, Yanjun Gao a 1, Deepak Gupta b 1, Emma Croxford a, Dina Demner-Fushman b
亮点
- •
使用 UMLS 概念和关系探究 LLM 可揭示其内部的医学知识。
- •
将 LLM 预测与 UMLS 路径结合起来可以提高诊断的准确性。
- •
当前的指标表明,与人类对 LLM 输出的判断相关性较弱。
- •
将 UMLS 纳入 LLM 工作流程可以提高性能和评估。
摘要
客观的:
传统知识型和机器学习型诊断决策支持系统受益于整合统一医学语言系统 (UMLS) 中编码的医学领域知识。大型语言模型 (LLM) 的出现取代了传统系统,提出了模型内部知识表示中医学知识的质量和范围以及对外部知识源的需求的问题。本研究的目标有三个方面:探究流行
亮点
- •
使用 UMLS 概念和关系探究 LLM 可揭示其内部的医学知识。
- •
将 LLM 预测与 UMLS 路径结合起来可以提高诊断的准确性。
- •
当前的指标表明,与人类对 LLM 输出的判断相关性较弱。
- •
将 UMLS 纳入 LLM 工作流程可以提高性能和评估。
抽象的
客观的:
传统知识型和机器学习型诊断决策支持系统受益于整合统一医学语言系统 (UMLS) 中编码的医学领域知识。大型语言模型 (LLM) 的出现取代了传统系统,提出了模型内部知识表示中医学知识的质量和范围以及对外部知识源的需求的问题。本研究的目标有三个方面:探究流行 LLM 中与诊断相关的医学知识,研究向 LLM 提供 UMLS 知识(为诊断预测奠定基础)的好处,并评估 LLM 生成过程中人类判断与基于 UMLS 的指标之间的相关性。
方法:
我们使用 ConsumerQA 和 Problem Summarization 数据集评估了 LLM 根据消费者健康问题和电子健康记录中的日常护理记录生成的诊断。通过提示 LLM 完成与诊断相关的 UMLS 知识路径来探测 LLM 的 UMLS 知识。在提示 LLM 时,我们采用一种整合 UMLS 图形路径和临床记录的方法检查预测的基础。将结果与没有 UMLS 路径的提示进行比较。最后的实验检查了基于 UMLS 和非 UMLS 的不同评估指标与人类专家评估的一致性。
结果:
在探索 UMLS 知识时,GPT-3.5 的表现明显优于 Llama2 和简单基线,在完成给定概念的单跳 UMLS 路径时,F1 得分为 10.9%。使用 UMLS 路径作为诊断预测的基础可改善两个模型在两个任务上的结果,其中 SapBERT 得分的提高幅度最大(4%)。广泛使用的评估指标(ROUGE 和 SapBERT)与人类判断之间的相关性较弱。
结论:
我们发现,虽然流行的 LLM 在其内部表示中包含一些医学知识,但使用 UMLS 知识进行增强可以提高诊断生成方面的性能。UMLS 需要针对任务进行定制,以改进 LLM 的预测。寻找比传统的 ROUGE 和基于 BERT 的分数更符合人类判断的评估指标仍然是一个悬而未决的研究问题。
图解摘要
,研究向 LLM 提供 UMLS 知识(为诊断预测奠定基础)的好处,并评估 LLM 生成过程中人类判断与基于 UMLS 的指标之间的相关性。
介绍
生物医学语言处理始终严重依赖于统一医学语言系统® (UMLS®) [1];主要使用其知识源作为提取和规范化医学术语的词汇表 [2]。我们还彻底分析了 UMLS 中捕获的医学实体之间的关系,以提高 UMLS 质量 [3] 并从文本中提取关系和事件 [4]。大型语言模型 (LLM) 在医学语言处理任务中表现出色,例如问答 [5]、决策支持 [6] 和临床文本生成 [7],目前尚不清楚 UMLS 中捕获的领域知识是否仍然相关且可以提高 LLM 的性能,以及减轻其有据可查的偶尔有害建议 [5]。为此,我们分析了 UMLS 知识图在支持 LLM 提出的诊断生成中的作用。
我们专注于对临床医生和公众具有实际重要性的诊断生成任务。医学信息学先驱开发的一些首批应用是医学诊断决策支持系统 [8]。这项任务仍然具有现实意义,最近对现有诊断支持系统的分析得出结论,虽然此类系统可以防止错误并提高护理质量,但证据不允许推荐临床医生常规使用这些系统 [9]。另一项研究表明,诊断支持系统的未来使用部分取决于它们是否包含开源词库 [10]。
为了评估 UMLS 在 LLM 处理和结果评估中的潜在作用,我们回答了以下问题:
- 1.
探究: LLM 已经掌握了多少诊断性 UMLS 知识?
- 2.
基础:增加的 UMLS 知识是否可以改善 LLM 建议的诊断?
- 3.
评估:基于 UMLS 的评估指标是否近似于人类对建议诊断的判断?
为了回答第一个问题,我们通过要求模型根据目标实体和感兴趣的实体之间的 UMLS 路径预测目标实体(但保留目标实体)来探测 LLM 的知识。对于第二个问题,我们从输入的病例描述中呈现的相关症状和主观医疗数据中包含了最可能的 UMLS 路径,同时提示模型根据提供的知识进行预测。最后,虽然开发准确预测模型执行给定任务的成功率的评估指标的研究从未停止,但由于 LLM 能够生成流畅且符合语法的文本,因此它变得更加重要。过去,模型的流畅度接近其准确性,而现在流畅的响应可能不准确且具有误导性。最终,由主题专家进行手动评估是可取的,但并不总是负担得起 [11]。虽然由主题专家(例如临床医生)进行的手动评估可以直接衡量用户需求,但它非常耗时,并且需要临床医生通常无法承受的努力程度。相比之下,使用自动化指标进行系统评估不仅可以降低成本,还可以消除与组织人类参与相关的后勤挑战。此外,它还增强了比较实验的可扩展性,从而可以更广泛、更严格地测试系统功能。因此,我们研究了可用的评估指标,看看将 UMLS 知识运用到指标中是否比非 UMLS 指标更能提高它们与人类判断的一致性。