Span-based Named Entity Recognitionby Generating and Compressing Information

news2024/11/27 18:31:30

原文链接:https://aclanthology.org/2023.eacl-main.146.pdf

EACL 2023

介绍

         对于information bottleneck (IB) principle信息瓶颈原理,要么使用生成模型,要么使用信息压缩模型来提高在目标任务上的性能,因此作者将这两种模型进行结合来提高模型在NER任务上的表现。

        对于其中一种IB模型VAE(其实不太懂这个是啥?),将span重构和同义词生成这两个部分整合到一个span-based的NER模型中,用来更新span representation。对于另一种IB模型VIB(也不知道这个是啥),添加了一个有监督的IB层,对信息进行压缩以便在生成的span表征中保留对NER有用的信息。

方法

        整体结构如下图所示:

         encoder输出的span embedding用于三个任务:1)实体的分类(分为实体类和非实体类两类);2)span的重构,用于recover gold 实体的input span(???为啥要recover?好像是因为要训练VAE??瞎猜的);3)生成gold 实体的同义词;在训练中三部分同时进行,但在推理阶段只应用第一部分来预测实体。

Span Reconstruction and Synonym Generation

Encoder

         将句子\left \{ w_{0},w_{1},,,,,w_{n} \right \}输入到基于多层transformer的encoder中,得到每个token向量\left \{ v_{0}, v_{1}, ,,,v_{m} \right \},枚举在最大长度以内的所有span,每个span的embedding表示为:

        得到的span embedding后再经过两个线性层得到q(z|s) 的分布(利用重参数化技巧,通过潜变量 z 逼近后验分布),

        其中 µ 和 σ 是多元高斯参数,代表span的特征空间。由于这里要训练两个任务:span 重构和生成同义词,因此σ1和σ2是两个独立的参数。但为了引导这两个任务分布密切,对µ进行共享。

Decoders

         decoder使用LSTM,在encoder给定latent z的情况下,首先使z通过一个线性层变换来初始化decoder的隐藏状态。然后,用teacher forcing策略(可以参考这里)来得到decoder的输入,比如:将z和gold span或者gold 同义词的每个单词进行concat。

Learning 

        为了训练VAEs,使用重构损失(使用交叉熵损失)和KL散度作为损失函数。

        重构span任务的损失函数如下所示:

        同义词生成的损失函数如下:

        参数中的下标表示该参数属于span重建部分或者同义词生成部分之一。

Entity Classification with Supervised IB

         有监督的IB任务主要目标是保留与目标类别中相关的信息,并过滤掉输入中的无关消息。目标损失函数主要包括compression损失和预测损失:

         其中r\left ( z_{3} \right )是先验概率p_{\theta 3}\left ( z_{3} \right )的估计。

        使用两层的MLP来计算压缩后的span的表征( compressed representation of a span),使用另一个线性层来估计,并使用一个sigmoid函数来对输入的span进行二分类预测其类别。

Training Objective

         总的训练损失如下所示:

        r是值为0-1之间的超参数,在训练期间,L_{VIB}在所有的span上进行计算,而L_{SR}L_{SG}只在gold span上进行计算。

实验

对比实验

         在所有语料库中,将本文提出的jointly模型和使用sciBert并基于span的模型进行了比较,实验结果如下所示:

        在BC5数据集上的效果没有baseline好,作者认为是因为对该数据集中的span进行重构和找到正确的同义词比较复杂。 

         在GENIA数据集上的结果如下所示:

         可以看出作者提出的模型虽然比基于实例和边界敏感的模型效果要好,但是却没有BENSC和MHSA的效果好,作者认为这是因为这两个模型是专门解决嵌套ner的,但我们的模型并没有对嵌套ner做任何特俗的处理。另外,作者强调他们的目标不是提高SOTA,而是研究NER的联合模型,并且作者提出的模型是可以纳入SOTA中的。

消融实验 

        作者对模型的重要模块进行了消融实验,结果如下所示:

        将验证集中预测错误的span数量进行统计,如下所示: 

         GENIA和MM数据集中类别预测错误和span预测错误的统计结果如下:

        计算了在每个语料库的验证集上重建的gold entity的 BLEU-2 分数:

总结 

        这篇论文没有看得很明白,文中作者还做了很多实验,由于看不太懂,就没有细究放上来。最开始还以为是一个two-stage的结构(先训练VAE那两部分的任务,再来训练实体的分类) ,但是文中提到只是提前几个epoch训练VAE中两个任务,再联合实体分类进行训练。不过还是没看懂这里VAEs的目的是什么?文中说是用于update span的表征,还是不太明白怎么去update的,

参考:

直观理解 VAE(译文) - 简书

Information Bottleneck 信息瓶颈_whatever?picky?的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/793672.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringMVC框架搭建

SpringMVC框架搭建 快速开启SpringMVC&#x1f680;&#x1f680; 步骤 1、新建模块 2、引入相关依赖 <dependency><groupId>org.springframework</groupId><artifactId>spring-webmvc</artifactId><version>5.3.1</version> &…

科大讯飞-旋转机械故障诊断挑战赛2023-测试【1】

引言 旋转机械故障诊断挑战赛是一项旨在提高旋转机械故障检测和识别能力的竞赛活动。旋转机械是工业生产中广泛应用的设备&#xff0c;其运行状态直接影响着生产效率和安全性。然而&#xff0c;由于各种原因&#xff0c;旋转机械可能会出现不同类型的故障&#xff0c;如轴承损坏…

玩转Python 秒懂python

解析器&#xff1a; 数据结构&#xff1a; 变量运算&#xff1a; 文件处理&#xff1a; 输入输出&#xff1a; 异常处理&#xff1a; 函数模块&#xff1a; 面向对象&#xff1a; 多线程&#xff1a; 三方库&#xff1a;

菜鸡shader:L13 渐隐渐显的UV动画

文章目录 SD部分Shader代码部分 呃呃&#xff0c;这是目前我学习庄懂AP01课程的最后一节了&#xff0c;我看了一下21集之后的内容是关于LightingMap&#xff0c;目前感觉还用不到&#xff0c;加上之前参与过一个项目里面也有用到LightingMap&#xff0c;也算了解过&#xff0c;…

多模态自监督学习 + 下游任务介绍

自监督学习 意义 经过海量无标签数据的学习后可以习得一个强大的特征提取器&#xff0c;在面对新的任务&#xff0c;尤其是医疗影像等小样本任务时,也能提取到较好的特征。 常见用途 相对位置预测:预测一张图像中随机选择的两个图像块之间的相对位置 图像修复:预测一张图像…

项目管理的最佳选择:最简单的项目管理系统

作为一名项目经理&#xff0c;你是否曾经或正面临过这些麻烦&#xff1a;你一上班就开始了解项目计划的完成情况和工作进展情况。在检查和填补工作空白的同时&#xff0c;你必须面对各种报告和清单。仅仅找到各种材料和文件就需要很多时间。不仅如此&#xff0c;我们还需要出身…

git拉取项目报错:fatal: remote error: Service not enabled

一般是git地址错误&#xff0c;如果是原本就有的项目&#xff0c;看看是不是代码库移动到其他地方了&#xff0c;这个库已经被删除了

辐射定标高精度积分球均匀光源

近一二十年&#xff0c;在环境科学、太阳物理、大气物理、气候学及气象学等研究的推动下&#xff0c;高精度太阳/大气定量光谱遥感技术发展十分迅速。空间定量光谱遥感数据的获取精度很大程度上取决于遥感仪器的定标精度。所谓遥感仪器定标&#xff0c;即指建立仪器输出电信号与…

ADS仿真低噪声放大器学习笔记

ADS仿真低噪声放大器 设计要求&#xff1a; 工作频率&#xff1a;2.4~2.5GHz ISM频段 噪声系数&#xff1a;NF < 0.7 增益&#xff1a;Gain > 15 输入驻波输出驻波&#xff1a;&#xff1c;1.5 这里重点是ADS操作流程 1. 安装晶体管的库文件 1、 下载ATF54143晶体管的…

mybatisPlus基础篇

文章目录 通用Mapper接口简单插入数据-insert简单删除数据-deleteById简单修改数据-updateById简单查询数据-selectById 通用service接口Service接口-插入数据Service接口-删除数据Service接口-修改数据Service接口-查询数据自定义接口方法自定义Mapper接口方法 通用Mapper接口…

milvus: 专为向量查询与检索设计的向量数据库

1. 什么是milvus&#xff1f; milvus docs milvus release Milvus的目标是&#xff1a;store, index, and manage massive embedding vectors generated by deep neural networks and other machine learning (ML) models. Milvus 向量数据库专为向量查询与检索设计&#xf…

vue项目开发环境和生产环境代理的配置问题

1.跨域 跨域解决方案&#xff1a; 1.JSONP 通过动态 script标签跨域 2.document.domain iframe跨域 3.location.hash iframe 4.window.name iframe跨域 5.postMessage 跨 window 通信 6.跨域资源共享&#xff08;CORS&#xff09; 7.nginx代理跨域 8.nodejs中间件代理跨域 9…

基于光子实验的指数级加速的量子同态加密理论

前言 量子计算机不仅有望在某些重要任务上超越经典计算机&#xff0c;而且还能保护计算的隐私。例如&#xff0c;盲量子计算协议支持安全委托量子计算&#xff0c;其中客户端可以保护其数据和算法的隐私&#xff0c;不受分配来运行计算的量子服务器的影响。然而&#xff0c;这…

NOI Linux 2.0 CSP奥赛复赛环境安装使用指南

新人旧人区别 以下是可能导致你在老版 NOI Linux 系统下形成的习惯在新版下翻车的改动。 移除了 GUIDE从 32bit 变为了 64bit 系统&#xff0c;需要注意指针现在占 8 字节而不是 4 字节更新了编译器版本默认情况下右键没了【新建文件】的选项桌面目录改为中文&#xff0c;可能…

【3519AV200】AI算法承载硬件平台_双目IMX334视频通道接入硬件方案开发

Hi3519AV200内置四核A55&#xff0c;提供高效且丰富和灵活的CPU资源&#xff0c;以满足客户计算和控制需求。集成单核MCU&#xff0c;以满足某些低延时要求较高场景。 Hi3519AV200集成了高效的神经网络推理单元&#xff0c;支持2.5Tops INT8 &#xff0c;并支持业界主流的神经网…

【监控系统】可视化工具Grafana简介及容器化部署实战

1.什么是Grafana 官网地址&#xff1a;https://grafana.com/ Grafana用Go语言开发的开源数据可视化工具&#xff0c;可以做数据监控和数据统计&#xff0c;带有告警功能。支持快速灵活的客户端图表&#xff0c;面板插件有许多不同方式的可视化指标和日志&#xff0c;官方库中…

【MySQL】索引与B+树

【MySQL】索引与B树 索引概念前导硬件软件方面 索引的理解单个page多个page引入B树B树的特征为什么B树做索引优于其他数据结构&#xff1f;聚簇索引与非聚簇索引辅助索引 索引的创建主键索引的创建和查看唯一键索引的创建和查看普通索引的创建和查看复合索引全文索引索引的其他…

2.java语法

文章目录 2.1. 字符型常量和字符串常量的区别?2.2. 关于注释&#xff1f;2.3. 标识符和关键字的区别是什么&#xff1f;2.4. Java 中有哪些常见的关键字&#xff1f; 2.5. 自增自减运算符2.6. continue、break、和 return 的区别是什么&#xff1f; 2.1. 字符型常量和字符串常…

Java编译器中的优化技术

一、JIT技术 Java中的热点代码主要有两类&#xff0c;包括&#xff1a;1、被多次调用的方法。 2、被多次执行的循环体。 前者很好理解&#xff0c;一个方法被调用得多了&#xff0c;方法体内代码执行的次数自然就多&#xff0c;它成为 “ 热点代 码 ” 是理所当然的。而后者则…

《零基础入门学习Python》第068讲:GUI的终极选择:Tkinter5

这节课的主要内容为 Listbox 组件、Scrollbar 组件 和 Scale 组件 在之前的学习中&#xff0c;我们已经知道了&#xff0c;如果说提供选项给客户选择&#xff0c;那么有两种情况&#xff0c;单选的话&#xff0c;我们用 Radiobutton&#xff0c;多选的话&#xff0c;用Checkb…