一文详解常见医学自然语言理解任务和算法

news2024/12/26 13:43:37

enter image description here

1. 引言

随着人工智能(AI)技术的不断发展,越来越多的研究者开始关注AI技术在医学健康领域的研究应用,其中加速AI技术产业落地的一个重要环节就是标准数据集和科学评估体系的建立。由中国中文信息学会医疗健康与生物信息处理专业委员发起的中文医疗信息处理挑战榜CBLUE[1]于今年4月份上线,该benchmark覆盖了8种经典的医学自然语言理解任务,是业界首个公开的中文医疗信息领域的公开评测基准,上线后受到了广泛关注,目前已经吸引了100多支队伍参与打榜。 近日,CBLUE工作组公开了论文[2]并开源了评测基准baseline[3],希望对中文医疗AI社区的技术发展起到促进作用。本文对常见的医学自然语言理解任务以及模型方法做一个全面介绍。

2.任务介绍

CBLUE的全称是Chinese Biomedical Language Understanding Evaluation Benchmark,包括医学文本信息抽取、医学术语标准化、医学文本分类和医学问答4大类常见的医学自然语言处理任务。CBLUE为研究者们提供真实场景数据的同时,也为多个任务提供了统一的测评方式,目的是促进研究者们关注AI模型的泛化能力。

enter image description here

下面是各个子任务的简单介绍:

(1) 医学信息抽取:

  • CMeEE(Chinese Medical Entity Extraction dataset):医学实体识别任务, 识别出医学文本中的关键术语,如“疾病”、“药品”、“检查检验”等。任务聚焦于儿科类常见疾病,数据来源于权威的医学教科书和专家指南。
  • CMeIE(Chinese Medical Information Extraction dataset):医学关系抽取任务,用于判定医学文本中两个实体之间的关系,如“类风湿性关节炎”与“关节压痛计数” 之间存在“疾病-检查”的关系,数据源同CMeEE。实体识别和关系抽取是医学自然语言处理中非常基础的技术,可应用于电子病历结构化、医学知识图谱建设等。

(2)医学术语归一化:

  • CHIP-CDN(CHIP - Clinical Diagnosis Normalization dataset):医学临床术语标准化任务。 临床上,关于同一种诊断、手术、药品、检查、症状等往往会有成百上千种不同的写法(如:“Ⅱ型糖尿病”、“糖尿病(2型)”和“2型糖尿病”均表示同一个概念), 标准化要解决的问题就是为临床上各种不同的写法找到对应的标准说法(如“ICD编码”)。在真实应用中,术语标准化技术在医保结算、DRGs(诊断自动分组)产品中发挥着重要作用。数据集来源于真实的医生书写的“诊断”条目,不涉及患者隐私。

(3)医学文本分类:

  • CHIP-CTC(CHIP - Clinical Trial Criterion dataset):临床试验筛选标准分类任务。临床试验是指通过人体志愿者也称为受试者进行的科学研究,目的是确定一种药物或一项治疗方法的疗效、安全性以及存在的副作用,对促进医学发展和提高人类健康都起着关键的作用。筛选标准是临床试验负责人拟定的鉴定受试者是否满足某项临床试验的主要指标(如“年龄”),临床试验的受试者招募一般是通过人工比较病历记录表和临床试验筛选标准完成,这种方式费时费力且效率低下。本数据集建设的目的就是为了促进使用AI技术来自动做临床试验筛选分类,提升科研效率。数据集来源于公开的中文临床试验注册网站,均有真实临床试验构成。
  • KUAKE-QIC(KUAKE - Query Intention Classification dataset),医疗搜索用户查询意图识别任务,目标是为了提高搜索结果相关度。如用户查询“糖尿病该做什么检查?”的意图是想搜索相关的“治疗方案”。数据来源于搜索引擎的用户检索词条。

(4)医学检索和问答:

  • CHIP-STS(CHIP - Semantic Textual Similarity dataset):医学句子语义匹配任务。给定来自不同病种的问句对,判定两个句子语义是否相近,如“糖尿病吃什么?”和“糖尿病的食谱?”是语义相关的;“乙肝小三阳的危害”和“乙肝大三阳的危害”是语义不相关的。数据来源于脱敏过的互联网在线问诊数据。
  • KUAKE-QTR(KUAKE – Query/Title Relevance dataset):医学搜索“检索词-页面标题”相关度匹配任务,用于判定搜索引擎场景中用户检索词与返回页面的标题之间的相关度,目标是提升搜索结果的相关度。
  • KUAKE-QQR(KUAKE – Query/Query Relevance dataset):医学搜索“检索词-检索词”相关度匹配任务,同QTR任务,用于判定两个检索词之间的语义相关度,目标是提升搜索场景中经典的用户检索长尾词的召回率。

3.任务特点

CBLUE工作组对评测基准包含的8个任务做了特点总结:

  1. 数据匿名且保护隐私: 生物医学数据通常包含敏感信息,因此对这些数据的利用可能侵犯个人隐私。对此,我们在发布基准之前对数据进行不影响数据有效性的匿名化,并逐一进行了人工检查。
  2. 任务数据来源丰富: 如“医学信息抽取”大类的任务来源于医学教科书和专家权威指南;“医学文本分类”任务来源于真实开放的临床试验数据;“医学问答”类任务来源于搜索引擎或者互联网在线问诊语料。这些丰富的场景和数据多样性为科研人员提供了研究AI算法最重要的宝矿,同时也对AI算法模型的通用性提出了更高的挑战。
  3. 任务分布真实: CBLUE榜单中的所有数据都来自现实世界,数据真实且有噪音,因此对模型的鲁棒性提出了更高的要求。以“医学信息抽取”大类任务为例:数据集遵循长尾分布,如图(a)所示;此外,一些数据集(如CMeIE)具有粗粒度和细粒度关系标签的层次结构,这是符合医学常识逻辑和人类认知的,如图(b)所示。真实世界数据分布为AI模型的泛化能力和拓展性提出了更高的要求。

查看本文全部内容,欢迎访问天池技术圈官方地址:一文详解常见医学自然语言理解任务和算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1543144.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

力扣---完全平方数---动态规划

思路: 还是比较好想的,g[i]定义为和为 i 的完全平方数的最少数量。那么递推关系式是g[i]min(g[i-1],g[i-4],g[i-9],...)1,数组初始化是g[0]0,g[1]1。注意这里要对g[0]初始化,(举个例子)因为在遍历到g[4]时&…

34双体系Java学习之对象的创建和引用

创建对象 ★小贴士 当声明一个引用变量时,要求Java虚拟机分配空间给引用变量,并将此变量命名为myCar。 此引用变量将永远被固定为Car类型。 当创建对象时,要求Java虚拟机分配堆空间给新建立的Car对象。 关键字 new 通常称为创建运算符&#x…

redis在springboot项目中的应用

一,将查询结果放到redis中作为缓存,减轻mysql的压力。 只有在数据量大的时候,查询速度慢的时候才有意义。 本次测试的数据量为百万级别。 测试代码: 功能为根据昵称进行模糊匹配。 GetMapping("/get-by-nick")public String get…

基于K-近邻的PLOSAR图像分类

🎀个人主页: https://zhangxiaoshu.blog.csdn.net 📢欢迎大家:关注🔍点赞👍评论📝收藏⭐️,如有错误敬请指正! 💕未来很长,值得我们全力奔赴更美好的生活&…

无代码平台开发AI已经被实现了吗?

一、背景 无代码平台AI开发是一种新兴的开发方式,它允许非程序员或低代码开发者通过图形化界面、拖拽组件和预设模版等方式,无需编写传统的程序代码就能创建、训练和部署AI模型。这种方式极大地降低了AI技术的使用门槛,让更多不具备编程背景…

2024年第14届生物医学工程与技术国际会议(ICBET 2024)即将召开!

2024年第14届生物医学工程与技术国际会议(ICBET 2024)将于2024年6月14日至17日在韩国首尔举行。 会议旨在汇聚来自世界各地的研究人员、工程师、院士和行业专业人士,展示他们在生物医学工程与技术领域的最新研究成果和进展。 会议以“生物医学…

轻松应对城市内涝:慧天排水数字化分析平台,城市内涝模拟新利器

​在城市排水防涝规划过程中,水文水动力耦合模型已经成为一种不可或缺的分析工具。在模型建立、城市内涝风险评估、排水系统性能诊断以及海绵城市规划等方面,内涝耦合模型提供了相应的模拟及分析工具: 1.1 丰富的数据处理功能,兼…

C语言中如何动态分配内存并进行操作

C语言文章更新目录 C语言学习资源汇总,史上最全面总结,没有之一 C/C学习资源(百度云盘链接) 计算机二级资料(过级专用) C语言学习路线(从入门到实战) 编写C语言程序的7个步骤和编程…

Redis分布式锁—SETNX+Lua脚本实现

使用redis实现分布式锁,就是利用redis中的setnx,如果key不存在则进行set操作返回1,key已经存在则直接返回0。 优点: 设置expiretime过期时间,可以避免程序宕机长期持有锁不释放。redis作为一个中间服务,所…

成都百洲文化传媒有限公司引领电商服务新潮流

在当今数字化时代,电商行业日新月异,竞争激烈。然而,在这个浪潮中,成都百洲文化传媒有限公司凭借其专业的电商服务,脱颖而出,成为了行业中的新领军者。今天,我们就来探讨一下这家公司如何在这个…

详解mysql安装与配置,及Mac中常见的安装问题

目录 1 数据库介绍 什么是数据库 数据库分类 2 MySQL服务器安装 2.1 Windows绿色安装 2.2 Windows中重装MySQL 3 Mac中常见的安装问题 4 客户端连接MySQL服务器 5 SQL分类 1 数据库介绍 什么是数据库 存储数据用文件就可以了,为什么还要弄个数据库? 文件…

面试算法-103-对链表进行插入排序

题目 给定单个链表的头 head ,使用 插入排序 对链表进行排序,并返回 排序后链表的头 。 插入排序 算法的步骤: 插入排序是迭代的,每次只移动一个元素,直到所有元素可以形成一个有序的输出列表。 每次迭代中,插入排序…

下载的音频转换成mp3怎么转?4个好用简单的方法

不同音乐平台下载的音频格式文件不同,比如网易云的ncm格式、酷狗的kgm格式、B站的m4s格式、微信语音的silk格式、手机录音的amr、m4a格式,这些音频一旦脱离了原本的平台便无法播放,那么如何把下载的音频转换成兼容性高的MP3格式以便于我们在更…

BoostSeacher

前言: 基于Boost库的搜索引擎 为何基于Boost库? 从技术上说:这个项目用了很多Boost库的接口从搜索引擎存储内说:存储的内容是Boost库的内容预期效果 预期效果:用户在浏览器输入关键词,浏览器显示相关结果 STEP1&#x…

问题记录:idea中的目标字节码版本总是自动更改为1.5

问题描述&#xff1a; 图中画圈的地方应该是1.8 但是总是自动被还原到1.5 解决方法&#xff1a;在pom文件中加入,注意加入到内中&#xff0c;作为子节点 <build><plugins><plugin><artifactId>maven-compiler-plugin</artifactId><version…

Python编程异步爬虫实战案例

aiohttp异步爬取实战 案例介绍 链接为https://spa5.scrape.center&#xff0c;页面如下图所示&#xff1a; 这是一个图书网站&#xff0c;整个网站包含数千本图书信息&#xff0c;网站数据是JavaScript渲染而得的&#xff0c;数据可以通过Ajax接口获取&#xff0c;并且接口没…

关于YOLOv9项目中使用已有模块自由改进的教程

专栏介绍&#xff1a;YOLOv9改进系列 | 包含深度学习最新创新&#xff0c;助力高效涨点&#xff01;&#xff01;&#xff01; 1. 文件说明 在YOLOv5-v9&#xff0c;模型的结构是以yaml文件的存储。我们可以在原有的yaml基础上增、减、改模块&#xff0c;创作我们自己的模型。 …

蓝桥杯刷题-串的处理

串的处理 代码 s input().split() l_new [] for i in s:i list(i)new""for j in range(len(i)-1): # 遍历newi[j]if i[j].isdigit() and i[j1].isalpha(): # 在字母和数字之间添加“_”new_if i[j].isalpha() and i[j1].isdigit(): # 同上new_newi[-1]l_new.appe…

高德地图加遮罩灯光效果

最近做大屏展示&#xff0c;UI突然有一个大胆的想法&#xff0c;他想把地图做成那种有点灯光照在上面的感觉&#xff0c;经过几番尝试后终于实现了相关效果&#xff0c;特此分享&#xff1b; 效果图 实现方式-css /* 高德地图加载成功有一个amap-layers类名的标签&#xff0c;…

论文不再难写:ChatGPT带你飞

目录 一、ChatGPT&#xff1a;您的个人写作顾问 1.打造个性化的论文框架 2.提升写作质量与效率 3.丰富表达方式&#xff0c;增强文章吸引力 二、结语&#xff1a;开启写作新篇章 在这个信息迅速发展、日新月异的时代里&#xff0c;写作已成为我们表达自我、在学术界或职场…