【2024.09】关于 UMLS 在支持大型语言模型提出的诊断生成中的作用

news2024/9/24 5:03:57

生物医学信息学杂志

链接:https://www.sciencedirect.com/science/article/abs/pii/S1532046424001254?via%3Dihub

On the role of the UMLS in supporting diagnosis generation proposed by Large Language Models

Author links open overlay panelMajid Afshar a, Yanjun Gao a 1, Deepak Gupta b 1, Emma Croxford a, Dina Demner-Fushman b

亮点

  • 使用 UMLS 概念和关系探究 LLM 可揭示其内部的医学知识。

  • 将 LLM 预测与 UMLS 路径结合起来可以提高诊断的准确性。

  • 当前的指标表明,与人类对 LLM 输出的判断相关性较弱。

  • 将 UMLS 纳入 LLM 工作流程可以提高性能和评估。

 

摘要

客观的:

传统知识型和机器学习型诊断决策支持系统受益于整合统一医学语言系统 (UMLS) 中编码的医学领域知识。大型语言模型 (LLM) 的出现取代了传统系统,提出了模型内部知识表示中医学知识的质量和范围以及对外部知识源的需求的问题。本研究的目标有三个方面:探究流行

亮点

 

  • 使用 UMLS 概念和关系探究 LLM 可揭示其内部的医学知识。

  • 将 LLM 预测与 UMLS 路径结合起来可以提高诊断的准确性。

  • 当前的指标表明,与人类对 LLM 输出的判断相关性较弱。

  • 将 UMLS 纳入 LLM 工作流程可以提高性能和评估。

 

抽象的

客观的:

传统知识型和机器学习型诊断决策支持系统受益于整合统一医学语言系统 (UMLS) 中编码的医学领域知识。大型语言模型 (LLM) 的出现取代了传统系统,提出了模型内部知识表示中医学知识的质量和范围以及对外部知识源的需求的问题。本研究的目标有三个方面:探究流行 LLM 中与诊断相关的医学知识,研究向 LLM 提供 UMLS 知识(为诊断预测奠定基础)的好处,并评估 LLM 生成过程中人类判断与基于 UMLS 的指标之间的相关性。

方法:

我们使用 ConsumerQA 和 Problem Summarization 数据集评估了 LLM 根据消费者健康问题和电子健康记录中的日常护理记录生成的诊断。通过提示 LLM 完成与诊断相关的 UMLS 知识路径来探测 LLM 的 UMLS 知识。在提示 LLM 时,我们采用一种整合 UMLS 图形路径和临床记录的方法检查预测的基础。将结果与没有 UMLS 路径的提示进行比较。最后的实验检查了基于 UMLS 和非 UMLS 的不同评估指标与人类专家评估的一致性。

结果:

在探索 UMLS 知识时,GPT-3.5 的表现明显优于 Llama2 和简单基线,在完成给定概念的单跳 UMLS 路径时,F1 得分为 10.9%。使用 UMLS 路径作为诊断预测的基础可改善两个模型在两个任务上的结果,其中 SapBERT 得分的提高幅度最大(4%)。广泛使用的评估指标(ROUGE 和 SapBERT)与人类判断之间的相关性较弱。

结论:

我们发现,虽然流行的 LLM 在其内部表示中包含一些医学知识,但使用 UMLS 知识进行增强可以提高诊断生成方面的性能。UMLS 需要针对任务进行定制,以改进 LLM 的预测。寻找比传统的 ROUGE 和基于 BERT 的分数更符合人类判断的评估指标仍然是一个悬而未决的研究问题。

图解摘要

,研究向 LLM 提供 UMLS 知识(为诊断预测奠定基础)的好处,并评估 LLM 生成过程中人类判断与基于 UMLS 的指标之间的相关性。

bdc892906ccd470988dcba57a83d530c.png

介绍

生物医学语言处理始终严重依赖于统一医学语言系统® (UMLS®) [1];主要使用其知识源作为提取和规范化医学术语的词汇表 [2]。我们还彻底分析了 UMLS 中捕获的医学实体之间的关系,以提高 UMLS 质量 [3] 并从文本中提取关系和事件 [4]。大型语言模型 (LLM) 在医学语言处理任务中表现出色,例如问答 [5]、决策支持 [6] 和临床文本生成 [7],目前尚不清楚 UMLS 中捕获的领域知识是否仍然相关且可以提高 LLM 的性能,以及减轻其有据可查的偶尔有害建议 [5]。为此,我们分析了 UMLS 知识图在支持 LLM 提出的诊断生成中的作用。

我们专注于对临床医生和公众具有实际重要性的诊断生成任务。医学信息学先驱开发的一些首批应用是医学诊断决策支持系统 [8]。这项任务仍然具有现实意义,最近对现有诊断支持系统的分析得出结论,虽然此类系统可以防止错误并提高护理质量,但证据不允许推荐临床医生常规使用这些系统 [9]。另一项研究表明,诊断支持系统的未来使用部分取决于它们是否包含开源词库 [10]。

为了评估 UMLS 在 LLM 处理和结果评估中的潜在作用,我们回答了以下问题:

 

  • 1.

    探究: LLM 已经掌握了多少诊断性 UMLS 知识?

  • 2.

    基础:增加的 UMLS 知识是否可以改善 LLM 建议的诊断?

  • 3.

    评估:基于 UMLS 的评估指标是否近似于人类对建议诊断的判断?

 

为了回答第一个问题,我们通过要求模型根据目标实体和感兴趣的实体之间的 UMLS 路径预测目标实体(但保留目标实体)来探测 LLM 的知识。对于第二个问题,我们从输入的病例描述中呈现的相关症状和主观医疗数据中包含了最可能的 UMLS 路径,同时提示模型根据提供的知识进行预测。最后,虽然开发准确预测模型执行给定任务的成功率的评估指标的研究从未停止,但由于 LLM 能够生成流畅且符合语法的文本,因此它变得更加重要。过去,模型的流畅度接近其准确性,而现在流畅的响应可能不准确且具有误导性。最终,由主题专家进行手动评估是可取的,但并不总是负担得起 [11]。虽然由主题专家(例如临床医生)进行的手动评估可以直接衡量用户需求,但它非常耗时,并且需要临床医生通常无法承受的努力程度。相比之下,使用自动化指标进行系统评估不仅可以降低成本,还可以消除与组织人类参与相关的后勤挑战。此外,它还增强了比较实验的可扩展性,从而可以更广泛、更严格地测试系统功能。因此,我们研究了可用的评估指标,看看将 UMLS 知识运用到指标中是否比非 UMLS 指标更能提高它们与人类判断的一致性。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2159380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

线上搭子小程序:随时随地找搭子!

搭子作为当下流行的一种社交方式,受到了年轻人的讨论关注,不管做什么都可以找不同的“搭子”。追剧、考试、健身、减肥、旅游等都可以找到志趣相投的搭子,满足年轻人的社交需求。 在互联网的发展下,年轻人找搭子也逐渐倾向于线上…

ubuntu22 解决docker无法下载镜像问题

参考在 Ubuntu 中安装 Docker_ubuntu安装docker-CSDN博客 安装docker完成后,运行如下命令验证 Docker 服务是否在运行: systemctl status docker 运行(sudo docker run hello-world)例子报错: 问题:Docker…

ubuntu内网穿透后在公网使用ssh登录

需求: 我有一台内网可以通过ssh 22端口访问的设备操作系统是ubuntu server我还有1台拥有公网IP的服务器,IP地址是 6.66.666.6666我想随时从其他网段通过ssh访问我的ubuntu server设备 实现: 工具准备:frp 网址:https…

一看就会!PS2024下载安装教程详解

PS2024下载方法: PS2024安装教程: 1、右击【PS2024.zip】,选择【解压到PS2024】 2、右击【Set-up.exe】,选择【以管理员身份运行】 3、点击右下角灰色的小文件夹图标,选择【更改位置】 4、选择安装路径后,…

【每日刷题】Day130

【每日刷题】Day130 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 144. 二叉树的前序遍历 - 力扣(LeetCode) 2. 94. 二叉树的中序遍历 - 力扣…

注册安全分析报告:闪送

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…

C#测试调用Ghostscript.NET浏览PDF文件

Ghostscript.NET是针对Ghostscript的C#封装库,支持解析PostScript语言、操作PDF文件等。使用Ghostscript.NET的GhostscriptViewer 模块可以以图片形式查看PDF文档。本文学习并测试调用Ghostscript.NET模块打开及浏览PDF文件的基本用法。   Ghostscript.NET目前主要…

.NET 6.0 WebAPI 使用JWT生成Token的验证授权

1.引入相关程序包JwtBearer注意版本: 2.配置文件appsettings.json写相关配置参数(也可不写,写在程序里面,数据库读取也是一样的) , //JWT加密"JWTToken": {"SecretKey": "jsaduwqe6asdjewejdue7dfmsdfu0sdfmwmsd8wfsd6",…

洛谷-P3916 图的遍历

题目描述 给出 N 个点,M 条边的有向图,对于每个点 v,求A(v) 表示从点 v 出发,能到达编号最大的点。 思路 既然是要找到最大的点,那么我从最大的点开始DFS是否可以? 于是可以反向建图,然后从最…

HTML图片标记(四)配图详解

目录 1.HTML图片的基础语法 2.设置图片大小 3.改变图片边距 4.图片对齐方式 1.HTML图片的基础语法 <img src"图片路径"> 2.设置图片大小 <img src"图片路径" width"" length""> 3.改变图片边距 <img src"…

Python 二次开发金橙子打印软件:开启高效打印新旅程

目录 一、准备工作&#xff1a;搭建系统环境 二、二次开发流程详解 结合一个实例来讲解如何进行二次开发。 三、Python 二次开发关键要素 &#xff08;一&#xff09;源码示例与解读 &#xff08;二&#xff09;二次开发文档指引 四、问题汇总与解决方案 &#xff08;一…

【HTML5】html5开篇基础(2)

1.❤️❤️前言~&#x1f973;&#x1f389;&#x1f389;&#x1f389; Hello, Hello~ 亲爱的朋友们&#x1f44b;&#x1f44b;&#xff0c;这里是E绵绵呀✍️✍️。 如果你喜欢这篇文章&#xff0c;请别吝啬你的点赞❤️❤️和收藏&#x1f4d6;&#x1f4d6;。如果你对我的…

Spring Boot 学习之路 -- 配置项目

前言 最近因为业务需要&#xff0c;被拉去研究后端的项目&#xff0c;代码基于 Spring Boot&#xff0c;对我来说完全小白&#xff0c;需要重新学习研究…出于个人习惯&#xff0c;会以 Blog 文章的方式做一些记录&#xff0c;文章内容基本来源于「 Spring Boot 从入门到精通&…

【一起学NLP】Chapter2-学习神经网络

目录 学习神经网络损失函数Tip:One-hot向量导数与梯度Tip:严格地说链式法则计算图反向传播其他典型的运算结点乘法结点分支节点Repeat节点Sum节点MatMul节点 Tip:浅拷贝和深拷贝的差异梯度的推导和反向传播的实现Sigmoid层Affine层Softmax with Loss层 权重的更新——随机梯度下…

[PICO VR]Unity如何往PICO VR眼镜里写持久化数据txt/json文本

前言 最近在用PICO VR做用户实验&#xff0c;需要将用户实验的数据记录到PICO头盔的存储空间里&#xff0c;记录一下整个过程 流程 1.开启写入权限 首先开启写入权限&#xff1a;Unity->Edit->Player->安卓小机器人->Other Settings->Configuration->Wri…

大数据毕业设计选题推荐-网络电视剧收视率分析系统-Hive-Hadoop-Spark

✨作者主页&#xff1a;IT毕设梦工厂✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、PHP、.NET、Node.js、GO、微信小程序、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇…

数据库主备副本物理复制和逻辑复制对比

数据库主从节点的数据一致性是保证数据库高可用的基本要求&#xff0c;各个数据库在实现方式上也各有异同。而主备复制的方式无外乎两种&#xff1a;物理复制和逻辑复制&#xff0c;本文简要对比下两种方式的不同&#xff0c;并分析下国产数据库是如何实现的。 1、数据库复制基…

中国中车在线测评考的啥?大易题库如何通过|附真题型国企题库通关秘籍和攻略

言语理解题目&#xff1a;这类题目主要考察你的语言理解和表达能力&#xff0c;例如&#xff0c;给你一个段落&#xff0c;让你根据段落内容选择最合适的答案。要点是快速捕捉文段中的关键信息&#xff0c;理解作者的意图和观点 逻辑推理题目&#xff1a;这类题目需要你从一组…

Java面试篇基础部分- 锁详解

可重入锁 可重入锁也叫作递归锁,是指在同一个线程中,在外层函数获取到该锁之后,内存的递归函数还可以获取到该锁。在Java语言环境下,ReentrantLock和Synchroinzed都是可重入锁的代表。 公平锁与非公平锁 公平锁(Fair Lock)是指在分配锁之前检查是否有线程在排队等待获取…

CICD从无到会

一 CICD是什么 CI/CD 是指持续集成&#xff08;Continuous Integration&#xff09;和持续部署&#xff08;Continuous Deployment&#xff09;或持续交付&#xff08;Continuous Delivery&#xff09; 1.1 持续集成&#xff08;Continuous Integration&#xff09; 持续集成是…