BERN2(生物医学领域)命名实体识别与命名规范化工具

news2024/9/20 20:49:03

BERN2: an advanced neural biomedical named entity recognition and normalization tool

《Bioinformatics》2022

1 摘要

NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。

BERN2:BERN2是一个工具,它通过使用多任务NER模型和基于神经网络的NEN模型,提高了之前基于神经网络的NER工具的速度和准确性。

2 引言

生物医学文本挖掘的重要性:随着生物医学文本量的不断增长,NER和NEN工具变得越来越重要,它们可以自动注释文本中的实体,并将它们链接到唯一的概念ID(CUIs)。

3 BERN2工具介绍

支持的实体类型:BERN2支持九种生物医学实体类型,包括基因/蛋白质疾病药物/化学物质物种突变细胞系细胞类型DNARNA

性能提升:BERN2通过使用单一的多任务NER模型和结合规则和神经网络的NEN模型,显著减少了注释时间并提高了实体规范化的质量。

4 材料与方法

4.1 多任务命名实体识别 (Multi-task Named Entity Recognition)

  • 模型结构:BERN2的多任务NER模型由一个共享的骨干模型和为每种实体类型设置的特定任务层组成。
  • 骨干模型:使用Bio-LM,一个先进的预训练生物医学语言模型。
  • 任务特定层:每个任务特定层由两层MLP(多层感知机)和ReLU激活函数组成,输出每个标记是否是命名实体的开始、内部或外部(BIO)的概率。
  • 训练数据集:合并了五种实体类型的五个训练集,包括BC2GM、NCBI-disease、BC4CHEMD、Linnaeus和JNLPBA。
  • 推理过程:输入文本后,NER模型并行输出所有任务特定层的预测。

4.2 混合命名实体规范化 (Hybrid Named Entity Normalization)

  • 规则基础NEN模型:传统方法,无法处理所有形态变化。
  • BioSyn:基于神经网络的生物医学NEN模型,利用实体的向量表示来覆盖这些变化。
  • 工作流程:先(1)后(2),流水线。
  • 混合NEN模型的应用:用于三种实体类型(基因/蛋白质、疾病和药物/化学物质),其中BioSyn已进行微调。

5 结果

5.1 命名实体识别 (NER) 性能

  • 评估数据集:包括BC2GM、NCBI-disease、BC4CHEMD、tmVar2、Linnaeus、JNLPBA等。
  • 评估指标:使用F1分数(精确度和召回率的调和平均值)来衡量性能。
  • 结果对比:BERN2在大多数实体类型上的性能超过了其他工具,如PTC、HUNFLAIR和BERN。

5.2 命名实体规范化 (NEN) 准确性

  • 评估数据集:BC2GN(基因/蛋白质)和BC5CDR(疾病和药物/化学物质)。
  • 评估指标:使用准确率来衡量性能。
  • 结果对比:BERN2使用混合NEN模型(规则基础 + BioSyn)在规范化准确性方面超过了其他工具,如PTC和BERN。

表:生物医学NER基准测试结果

数据集(类型)

PTC

HUNF

LAIR

BERN

BERN2

BC2GM (基因/蛋白质)

78.8

77.9

83.4

83.7

NCBI-disease (疾病)

81.5

85.4

88.3

88.6

BC4CHEMD (药物/化学物质)

86.7

88.9

91.2

92.8

tmVar2 (突变)

93.7

N/A

93.7

93.7

Linnaeus (物种)

85.6

93.2

88.0

92.7

JNLPBA (细胞系)

N/A

64.9

N/A

78.6

JNLPBA (细胞类型)

N/A

N/A

N/A

80.7

JNLPBA (DNA)

N/A

N/A

N/A

77.8

JNLPBA (RNA)

N/A

N/A

N/A

76.5

表:生物医学NEN基准测试结果

数据集(类型)

PTC

BERN

BioSyn

BERN2

BC2GN (基因/蛋白质)

93.8

93.8

91.3

95.9

BC5CDR (疾病)

88.9

90.7

93.5

93.9

BC5CDR (药物/化学物质)

94.1

92.8

96.6

96.6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2114239.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

modelsim仿真流程

modelsim仿真流程 1、建立工程 project new "../prj" test.mpf2、添加rtl文件 project addfile "../test.v" verilog3、建立仿真库 vlib work4、编译rtl到仿真库中 vlog -sv -sv09compat defineT133 incdir"../rtl" test.v -work work5、加载…

【Python】6.基础语法(6)文件

文章目录 1. 文件是什么2. 文件路径3. 文件操作3.1 打开文件3.2 关闭文件3.3 写文件3.4 读文件 4. 关于中文的处理5. 使用上下文管理器 1. 文件是什么 变量是把数据保存到内存中。如果程序重启/主机重启, 内存中的数据就会丢失。 要想能让数据被持久化存储, 就可以把数据存储…

openGauss 之索引回表

一. 前言 ​ 在openGauss中如果表有索引信息,查询的谓词条件中又包含索引列,openGauss支持通过索引信息快速拿到需要访问元组的位置信息,然后直接到该位置上取出元组数据,称之为回表查询。如下所示,利用索引索引…

JS中this指向问题

首先,this的绑定和定义的位置无关,它的指向只和调用方式有关,this只有在运行时才知道指向谁。 一,默认绑定 默认绑定,也可以说是独立函数调用,这时this指向window。 function foo() {console.log(this) …

DataGrip数据迁移

第一步 第二步 第三步 第四步 选择你刚刚到处的文件即可

海信发布以旧换新举措,补贴力度、补贴链路、服务体验全面升级

9月7日,由中国家用电器商业协会主办的“海信全国十城联动以旧换新”发布会在北京举行。 据「TMT星球」了解,活动以“品质换新就选海信”为主题,旨在贯彻政府加大消费品以旧换新的战略部署,为我国家电行业绿色化、智能化、高端化高…

知名AIGC人工智能专家培训讲师唐兴通谈AI大模型数字化转型数字新媒体营销与数字化销售

在过去的二十年里,中国企业在数字营销领域经历了一场惊心动魄的变革。从最初的懵懂无知到如今的游刃有余,这一路走来,既有模仿学习的艰辛,也有创新突破的喜悦。然而,站在人工智能时代的门槛上,我们不禁要问…

最厉害顶尖新媒体营销专家培训讲师唐兴通谈数字营销社群营销私域运营大客户销售AIGC大模型创新思维数字化转型商业模式短视频内容社私域数字经济人工智能

​数字人工智能时代的营销进化:从临摹到自我革新 引言:从模仿到变革的时代拐点 中国企业在过去的几十年里,经历了从电子商务的初兴到搜索引擎营销,再到微博、微信以及短视频等多种数字营销形式的迅速发展。在这个过程中&#xf…

力扣最热一百题——最大子数组和

目录 题目链接:53. 最大子数组和 - 力扣(LeetCode) 题目描述 示例 提示: 解法一:动态规划 举例分析 时间复杂度 Java写法: C写法: 优化 总结 题目链接:53. 最大子数组和 …

「数学::质数」试除法 / Luogu P5736(C++)

概述 在质数的第一节我们来讲解试除法。 质数是指在大于1的自然数中只能被1和它自己整除的数。 我们可以利用这一除法性质对质数进行判定。 Luogu P5736: 输入 n 个不大于 10^5 的正整数。要求全部储存在数组中,去除掉不是质数的数字,依…

012.Oracle-索引

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉&…

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群

828华为云征文|华为云Flexus X实例docker部署rancher并构建k8s集群 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Nginx等服务的需求,一定…

Differential Diffusion,赋予每个像素它应有的力量,以及在comfyui中的测试效果

🥽原论文要点 首先是原论文地址:https://differential-diffusion.github.io/paper.pdf 其次是git介绍地址:GitHub - exx8/differential-diffusion 感兴趣的朋友们可以自行阅读。 首先,论文开篇就给了一个例子: 我们的方…

SpringBoot2:请求处理原理分析-RESTFUL风格接口

一、RESTFUL简介 Rest风格支持(使用HTTP请求方式,动词来表示对资源的操作) 以前:/getUser 获取用户 /deleteUser 删除用户 /editUser 修改用户 /saveUser 保存用户 现在: /user GET-获取用户 DELETE-删除用户 PUT-修改…

自定义TextView实现结尾加载动画

最近做项目,仿豆包和机器人对话的时候,机器人返回数据是流式返回的,需要在文本结尾添加加载动画,于是自己实现了自定义TextView控件。 源码如下: import android.content.Context import android.graphics.Canvas imp…

Java小程序案例:电子日历记事本

要点 菜单栏中提供编辑(剪切、复制、粘贴)、保存、打开等功能。使用类组件实现图形界面设计。基于图形界面的日历,用户可编辑或查看指定日期的日志内容。提供按钮实现月份的前后翻动。事件持久化到文件,可再次编辑保存 效果 程序…

【工具】使用 Jackson 实现优雅的 JSON 格式化输出

说明 在 Java 开发中,我们经常需要处理 JSON 数据。无论是从服务器端返回的数据,还是本地存储的数据,JSON 格式都因其轻量级和易于解析的特点而被广泛使用。当我们需要查看或调试 JSON 数据时,优雅、格式化的输出将大大提高我们的…

风控系统之指标回溯,历史数据重跑

个人博客:无奈何杨(wnhyang) 个人语雀:wnhyang 共享语雀:在线知识共享 Github:wnhyang - Overview 回顾 默认你已经看过之前那篇风控系统指标计算/特征提取分析与实现01,Redis、Zset、模版方…

C++万字解读类和对象(上)

1.类的定义 class为定义类的关键字,Stack为类的名字,{}中为类的主体,注意类定义结束时后面分号不能省略。类体中内容称为类的成员:类中的变量称为类的属性或成员变量; 类中的函数称为类的方法或者成员函数。 为了区分成员变量&…

SprinBoot+Vue应急信息管理系统的设计与实现

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 application.yml3.5 SpringbootApplication3.5 Vue 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍:CSDN认证博客专家,CSDN平台Java领域优质…