利用大规模语言模型提高生物医学 NER 性能的新方法

news2024/12/26 14:32:05

概述

论文地址:https://arxiv.org/pdf/2404.00152.pdf
大规模语言模型在零拍摄和四拍摄任务中表现出色,但在生物医学文本的独特表达识别(NER)方面仍有改进空间。例如,Gutiérrez 等人(2022 年)的一项研究表明,即使使用相同数量的数据,采用上下文学习(In-Context Learning)的 GPT-3 的性能也不如小型微调模型。生物医学文本充满了专业术语,需要专业知识才能解读。然而,标注任务成本高、耗时长、难度大,而且标注数据的可用性有限。

在此背景下,本文旨在利用一种新颖的生物医学专用知识扩展方法来提高大规模语言模型的性能。该方法的重点是动态纳入相关生物医学概念的定义,使模型能够在推理过程中纠正实体提取错误。我们还试用了两种方法,即单转和迭代提示,结果发现扩展定义有助于提高各种模型的性能。例如,GPT-4 的性能平均提高了 15%。

它还利用大规模语言模型评估了经人工整理的信息源和自动生成的定义的有效性,并发现经人工整理的信息能带来更高的性能提升。这些结果引发了新的争论,即在数据有限的各种任务和领域中,定义知识如何有助于提高大规模语言模型的性能。

下图概述了使用零样本的方法。根据提取实体的定义(黄色),可以看出错误提取(红色)和正确提取(绿色)。

实验概述

实验中使用了多个模型,包括可通过 API 访问的封闭模型(如 OpenAI 的 GPT-3.5 和 GPT-4、Anthropic 的 Claude 2)和开源的 Llama 2。谷歌的 PaLM 则被排除在外,因为它在早期测试中表现不够出色。请注意,评估是基于实体级别的 F1 分数。

实验中使用的数据集也选自 BigBIO 基准,来自广泛的生物医学学科。该基准包含 100 多个数据集,涵盖 12 种任务类型和 10 多种语言;NER 是 BigBIO 的主要任务类别,包含 76 个数据集。首先排除临床数据和非英语数据集,为每种实体类型选择具有代表性的数据集。这样就将选择范围缩小到包含特别有趣的信息提取现象或具有挑战性案例的 16 个数据集。这些选定的数据集包含在最常见的生物医学基准中,是提供新见解的理想基础。通过这些努力,我们深入了解了大规模语言模型如何满足生物医学领域的特定需求。

实验结果

首先,研究了大型语言模型在零拍和四拍 NER 任务中的性能。此外,还报告了一个较小的微调模型(Flan-T5 XL)的性能。

零镜头评估侧重于两个要素:输入格式和输出格式。输入格式定义了如何向模型提供任务描述和预期类别。输出格式控制模型如何构建结果。

输入格式也有两种方法:文本(Text)和模式定义(Schema Def)。文本(Text)使用标准提示,包含任务简要说明和有效目标实体类型列表。模式定义使用的提示包含对所有目标实体类型的额外详细描述,以先前的研究为基础。

输出格式还包括两种结构化格式,即JSON 和代码片段;JSON 有助于数据的结构化,便于后期处理和评估。代码片段使用具体的编程示例来表示结果。事实证明,这种格式可以提高模型的零点信息提取(IE)性能。通过这些设置,我们对除 GPT-4 之外的所有模型的性能进行了评估。

此外,"四拍 "评估采用在 "零拍 "中表现最佳的输入/输出格式,并在特定数据集(如 CDR)上进行验证。最后,对专门针对每个数据集进行微调的小规模模型的性能进行评估。

下表显示了 GPT-3.5、Claude 2 和 Llama 2 所有数据集的结果。下表列出了按文本输入和 JSON 输出、文本输入和代码输出、定义输入和 JSON 输出以及定义输入和代码输出分列的零点得分。

我们发现,对于所有模型和数据集,添加模式定义的提示都会降低性能。在输出格式方面,除 PICO 和 CHIA 外,JSON 是大多数数据集的首选输出格式。这一观察结果在所有模型中都是一致的。

不出所料,随着拍摄次数的增加,füshot 的性能也趋于改善(见下表)。最后,我们发现在相同的五个实例中,使用经过调整的大规模语言模型进行的 füshot 训练明显优于经过微调的小规模语言模型。

然后再进行用定义扩展提示的实验。语境中学习(In-Context Learning)利用大规模语言模型通过先前学习获得的知识。然而,这些知识有时会包含错误或缺失。为了解决这个问题,人们尝试了用相关事实知识立即扩展提示语的方法,以提高语言理解任务的准确性。

特别是,在 NER 任务的提示中动态添加文本中生物医学概念的定义有望提高模型的性能。在生物医学领域,重要的是在测试时提供特定信息,以弥补大型语言模型普遍不足的地方。

实验的第一步是创建知识库。我们建立了一个生物医学概念定义知识库,并使用商业实体链接器对文本中的概念进行了映射。接下来是提示推理。在初始实体提取之后,包含概念定义的提示会要求对模型进行修改。在这一阶段,实体被添加、删除或重新分配到类型中。

使用了统一医学语言系统(UMLS)中的概念定义,但并非所有概念都有用。属于宽泛类别的概念被排除在外,重点放在更精细的类别上。

Zero-shot 还尝试用单个定义的提示来修改实体。Few-shot 的目标是通过包含多个示例和概念定义的提示进行更高级的修改,但采用的是单轮方法,而不是一次性处理大量信息,以避免增加成本。

这种方法以模型修改自身输出结果的能力为基础,旨在通过自我验证提取更准确的信息。它探索了通过提供上下文知识来支持自我验证过程的潜力,从而提高临床信息提取的准确性。

为了保持一致性,所有实验都以 JSON 格式输出,并在所有数据集的统一设置下进行。特别值得注意的是 “少数镜头”,每个测试实例都使用了随机选择的五个镜头;每个实验都使用了三个不同的随机种子,并报告了它们的平均性能。

该实验还包括对 GPT-4 的评估;鉴于 API 成本较高,测试集的子样本为 100 个实例。

下面两个表格显示了 GPT-3.5、Claude 2、Llama 2 和所有使用 GPT-4 定义扩展的数据集在零次和四次拍摄设置下的性能。在零镜头设置中,Llama 2 和 GPT-4 在单圈和迭代提示策略中都持续实现了显著的性能提升。相反,Claude 2 和 GPT-3.5仅在使用迭代提示时有所改进,平均性能分别提高了 12% 和 29.5%。

在 fuchsot 设置中,Claude 2 和 GPT-4 也在六个数据集中的五个数据集上取得了进步;Llama 2 和 GPT-3.5 也分别在三个和四个数据集上表现出色。总体而言,采用迭代提示的 GPT-4 表现最佳。这些结果证实,使用扩展概念定义进行提示可提高 NER 性能。

此外,我们还测试了单独使用实体链接器模型是否会带来很大的增益。结果表明,在相同的测试集上,单独使用实体链接器的性能较低,平均 F1 为 1.05,这并不是因为使用了实体链接器。下表中的结果表明,在没有概念定义的情况下添加候选实体的方法效果有限,在某些情况下,其性能还不如零镜头基线。

总结

本文利用大规模语言模型广泛评估了上下文学习(In-Context Learning)的有效性,重点关注生物医学土著表达识别(NER)领域。对不同形式的输入和输出进行了比较,以确定这些模型所犯的主要错误类型。它还提出了一种新方法,通过动态提供来自外部知识库的概念定义,快速调整通用大规模语言模型,使其适应生物医学 NER 任务,并测试了这种方法的有效性。

该过程使用一系列提示让模型修正其预测,并使用关键概念的定义来提高准确性。首先,要求模型提取实体,然后添加生物医学概念定义,促使模型修改预测。

对六个数据集进行的评估显示,与基线相比,特别是在零注射设置中,该模型有了持续而显著的改进。消融研究表明,模型利用概念定义的能力是改进的关键驱动力,如果没有这些定义,就无法实现有意义的预测改进。

虽然只考虑了生物医学专业领域的数据集,但研究表明,这种方法也可应用于维基数据等更广泛的知识库。这表明这种方法在其他领域也有潜在的优势,并可在未来的研究中进一步应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2195760.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Chrome浏览器调用ActiveX控件--allWebOffice控件功能介绍

allWebOffice控件概述 allWebOffice控件能够实现在浏览器窗口中在线操作文档的应用(阅读、编辑、保存等),支持编辑文档时保留修改痕迹,支持书签位置内容动态填充,支持公文套红,支持文档保护控制等诸多办公功…

医院伤病员食堂批量打印—未来之窗行业应用跨平台架构

一、订单后厨打印批量 在医院伤员管理中,预约订单现场打印的方式往往不太合适。现场打印可能会导致效率低下,尤其在伤员较多、情况紧急的时候,容易造成混乱和延误。 采用统一打印的方式具有诸多优势。首先,能够集中处理打印任务&…

猴子吃桃-C语言

1.问题: 猴子第一天摘下若干个桃子,当即吃了一半,还不过瘾,又多吃了一个。 第二天早上又将剩下的桃子吃掉一半,又多吃一个。以后每天早上都吃了前一天剩下的一半零一个。 到第N天早上想再吃时,见只剩下一个…

ctf.bugku - SOURCE

题目来源: source - Bugku CTF 首先,访问页面, 得到的是假的 flag , 查看前端页面、代码、response返回; 没有有用信息; 查后端: git泄露 下载git文件 # wget -r http://114.67.175.224:156…

SIE将使用AI和机器学习加速游戏开发

索尼在一份新的索尼公司报告中透露,PlayStation将利用人工智能和机器学习来加快游戏开发速度。在报告的第16页,索尼表示:“加强能够帮助创作者以高效、高质量的方式最大化其IP价值的技术,包括传感和捕捉以及实时3D处理、人工智能和…

IDM6.42免费安装破解注册(Internet Download Manager)

01 到官网或者网盘下载安装包 中文官网链接: https://souurl.cn/9nbWw2 优惠码:WMHRDIDM5 夸克网盘:https://pan.quark.cn/s/885c8a9e487e​​​​​​​ 02 Powershell脚本使用: 总的来说,这段代码的目的是通过管理员身份下…

Spring Boot助力医院数据管理

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适…

SolidWorks零件图到工程图标记尺寸

SolidWorks零件图,生成工程图后,自动标注尺寸;(在零件图中尺寸做了标注,导出成工程图后,尺寸不一定合适,需要手动挪一下位置)

solidity中的函数详解

1.概念 在Solidity中,函数是智能合约的基本构建块,用于实现特定的业务逻辑。以下是Solidity函数的一些关键特性和详细解释: 函数定义; 函数由 function 关键字开始,后跟函数的名称、参数列表和返回值。函数可以是内部的&#xff…

PHP变量(第④篇)

本栏目教学是php零基础到精通,如果你还没有安装php开发工具请查看下方链接: Vscode、小皮面板安装-CSDN博客 今天来讲一讲php中的变量,变量是用于存储信息的"容器",这些数据可以在程序执行期间被修改(即其…

【自动驾驶】《Planning-oriented Autonomous Driving》UniAD论文阅读笔记

1.参考 论文:https://arxiv.org/pdf/2212.10156 代码:https://github.com/OpenDriveLab/UniAD 2.摘要 原来的自动驾驶任务都是分为模块化的,感知,预测,规划等。每个独立的任务可能都优化得很好,但可能会…

NR工作频段

NR定义了两个频率范围,FR1和FR2。在很多场景下,对于不同的频率范围(FR),射频规范是单独定义的。NR可以工作的频率范围,即FR1和FR2的频率范围,如下表所示。 FR频率范围FR1410 MHz – 7125 MHzFR…

苍穹外卖学习笔记(十五)

文章目录 一. 缓存菜品缓存菜品DishController.java清除缓存数据 缓存套餐Spring Cachemaven坐标常用注解 入门案例springcachedemo.sqlpom.xmlapplication.ymlCacheDemoApplication.javaWebMvcConfiguration.javaUserController.javaUser.javaUserMapper.java 套餐管理SkyAppl…

大模型之大模型压缩(量化、剪枝、蒸馏、低秩分解),推理(vllm)

目录 前言 一、模型量化(quantization) 1. 量化概念 2. 模型量化优点 3. 什么情况下应该/不应该使用模型量化 4. 落地挑战 5. 量化方法 5.1 量化训练(Quant Aware Training, QAT) 原理 [伪量化节点(fake quant)](https://blog.csd…

241007深度学习之LeNet

目录 1.LeNet介绍2.组成3.代码实现 1.LeNet介绍 LeNet是最早发布的卷积神经网络之一,他是由AT&T贝尔实验室的研究员Yann LeCun在1989年提出的(并且以其命名),目的是识别图像中手写数字.当时,Yann LeCun发表了第一篇通过反向传播成功训练卷积神经网络的研究论文,这项工作代…

macOS Sequoia 15.0.1 (24A348) 正式版 ISO、IPSW、PKG 下载

macOS Sequoia 15.0.1 (24A348) 正式版 ISO、IPSW、PKG 下载 iPhone 镜像、Safari 浏览器重大更新和 Apple Intelligence 等众多全新功能令 Mac 使用体验再升级 请访问原文链接:https://sysin.org/blog/macOS-Sequoia/ 查看最新版。原创作品,转载请保留…

Qt源码-Qt多媒体音频框架

Qt 多媒体音频框架 一、概述二、音频设计1. ALSA 基础2. Qt 音频类1. 接口实现2. alsa 插件实现 一、概述 环境详细Qt版本Qt 5.15操作系统Deepin v23代码工具Visual Code源码https://github.com/qt/qtmultimedia/tree/5.15 这里记录一下在Linux下Qt 的 Qt Multimedia 模块的设…

性能测试学习6:jmeter安装与基本配置/元件/线程组介绍

一.JDK安装 官网:https://www.oracle.com/ 二.Jmeter安装 官网:http://jmeter.apache.org/download_jmeter.cgi 下载zip包,zip后缀那个才是Windows系统的jmeter 三.Jmeter工作目录介绍 四.Jmeter功能 1)修改默认配置-汉化 2&am…

51 单片机最小系统

一、51 单片机最小系统概述 51 单片机最小系统是一个基于 51 单片机的最小化电路系统,它包含了使单片机能够正常工作的最少元件。这个系统主要用于学习和实验目的,帮助学习者在没有复杂电路的情况下快速了解 51 单片机的工作原理,其重要性不…

TryHackMe 第7天 | Web Fundamentals (二)

继续介绍一些 Web hacking 相关的漏洞。 IDOR IDOR (Insecure direct object reference),不安全的对象直接引用,这是一种访问控制漏洞。 当 Web 服务器接收到用户提供的输入来检索对象时 (包括文件、数据、文档),如果对用户输入数据过于信…