A Span-based Multi-Modal Attention Network for joint entity-relationextraction

news2024/11/26 2:32:35

原文链接:

https://www.sciencedirect.com/science/article/pii/S0950705122013247?via%3Dihub

Knowledge-Based Systems 2023

介绍

         作者认为当前基于span的关系提取方法都太关注于span内部的语义,忽略了span与span之间以及span与其他模态之间(比如tokens和labels)的交互。

        因此作者提出了SMAN结构,该结构使用了cloze mechanism(完型机制)来同时提取上下文和span位置的信息,并在关系提取阶段对span和标签进行建模。

方法

         SMAN模型的整体结构如下图所示:

        输入文件D=\left \{ w_{1},w_{2},,,,w_{N} \right \}E = BERT(D) = \left \{ e_{1},e_{2},,,e_{N}\right \}。在NER阶段,每个句子中枚举出的span set(最大长度设定为K的情况下)表示为:

        在NER阶段,整个句子以枚举出的span为界分为3部分,以span s_{4}^{3}={e4、e5、e6}为例,则ctx_up={e1、e2,e3},ctx_down={e7,e8}。

        在RE阶段,以span pair为界,分为5个子序列(如图b所示):

Modal-Enhanced Attention

         该模块用于提取输入序列的高维特征,针对单模态和多模态序列提出了两种模式。结构如下图所示:

        第一层是一个多头注意力块,对输入序列的全局信息进行编码。第二层是BiLSTM,重建第一层的输出并提取高维度特征,同时在每一层的后面都会使用残差连接和归一化。

Single-modal input sequence

        该模块级联一个多头注意力模块和BiLSTM网络,同时加入残差连接和层归一化,来防止模型在训练过程中退化。具体的计算过程如下所示,给定输入E={e1,e2,,,eN},

Multi-modal input sequence

         输入多模态的数据时,输入就不再是单一的序列,而是具有相同形状表示不同模态特征的多个序列:Sseq表示语义特征、Lseq表示label特征、SLseq由这两种特征concate通过一个BiLSTM得到。注意这里的多头注意力层只将SLseq进行了残差连接

        同样在多头注意力中,Ssqe、Lseq和SLseq分别用特征矩阵Q、K、V进行矩阵变换,完成多模态联合建模。

NER

         如上所示,s={e4、e5、e6}是枚举出的一个实体span,为了保持word之间的顺序,同时获取到整个句子的全局和局部特征,这里就使用一个单模型的MEA来得到span表征。

        具体的,先将句子以span为界分为三个部分:ctx_up、s、ctx_down,然后对ctx_up和ctx_down分别进行最大池化,得到粗粒度的表征。

        最后将c_{up}c_{down}s_{4}^{3}进行concate作为MEA模块的输入,另外作者对span的表征还考虑了span大小的embedding size_{emb}

         在NER阶段,引入了完型机制来充分利用上下文信息来进行辅助。如图左边部分,即将枚举的span进行maks,来使模型在上下文特征建模过程中更多的关注剩余token组成的上下文序列。

        同样使用单一模型的MEA来实现,将枚举的span使用一个特殊标记SEP代替,并将最后一层中SEP的隐藏状态作为输出,最后与span的表征相结合,使用NER分类器进行分类:

Relation extraction with multi-modal information 

          假设句子中存在两个实体分别是s_{3}^{1}s_{6}^{2},同样的使用最大池化来获取两个span上下文的粗粒度特征,用于构建Seq,然后将每个span预测的label embedding与上下文的label embedding(non-entity)得到Lseq,如图中绿色框所示。

        具体计算过程如下: 

        使用多模态的MEA对span pair的label和语义进行建模,将最后一层的隐藏状态{h}'_{5}作为关系过滤向量rel_{emb},进入sigmoid函数(不使用softmax的原因是因为:实体对之间可能存在多种关系)来得到span之间的关系)来得到span之间的关系:

Training 

         主要由两部分的loss组成:NER的交叉熵损失和关系提取的二值交叉熵损失。

实验

对比实验

         在SciERC数据集上进行实验,结果如下所示:

        在CoNLL04数据集上的结果:

        在ADE数据集上的结果:

分析

        由于模型在RE阶段是将预测的label与span的语义进行交互,作者为了探究他提出的这种label与语义的交互的效果,在CoNLL04数据集上进行了实验,即将gold label与span的语义信息进行交互(要是这个span不是真是的span 哪里去找它的gold label?分配一个?),实验结果如下所示:

        可以看出使用gold label对NER任务有副作用,但是在RE任务上有一个较大的提升,表示实体label在RE上起着重要的作用,同时作者提出的这种多模态信息交互也能提升RE任务的效果。

         作者探究了该模型在不同长度句子上的表现,结果如下所示:

        可以看出句子越长的情况下,SMAN模型的效果更好,作者认为这不仅得益与多模态之间的交互,还得益于注意力机制,使模型能够注意到全局的一个信息。

        为了探究模型在不同size的span上的表现,在CoNLL04数据集上进行了实验,结果如下:

        作者认为这是MAE模块中多级级联BiLSTM的效果,在捕获span表征的同时也会注意到单词顺序信息。

消融实验 

         作者对主要模块进行了消融实验,结果如下所示:

结论

         作者提出了SMAN结构,主要创新点在于对上下文新的建模方式,充分利用了文本中的多模态信息。1)完型机制使得模型更好的关注于上下文信息;2)两种形式的MEA用于获取不同模态之间的信息。

        将span进行mask得到上下文表征,来辅助进行NER任务,还挺有意思的,但是从消融实验的结果来看,对于NER任务的提升并不是很大(≈0.4%)。现在很多基于span的NER任务都是在丰富Span表征这一块做工作,有用到上下文表征的,有去构建句法树的。作者还使用用残差和多头注意力,根据实验结果也能看出来这两者对于长句有一定的优势,另外使用BiLSTM是一个比较普遍的方法,消融实验也可以看出来这个网络对于NER还比较有帮助的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1029316.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

腾讯云服务器16核 32G 28M带宽租用价格、性能测评及配置大全

腾讯云轻量应用服务器16核32G28M配置优惠价3468元15个月(支持免费续3个月/送同配置3个月),轻量应用服务器具有100%CPU性能,系统盘为380GB SSD盘,28M带宽下载速度3584KB/秒,月流量6000GB,折合每天…

C语言入门Day_23 指针的使用

目录 前言: 1.指针运算符 2.指针的运算和使用 3.易错点 4.思维导图 前言: 上一篇博客中我们了解到指针的两个运算符号": 一个是星号*,一个是&,他们的名字分别是指针运算符和取地址运算符。 1.指针运算…

【JAVA】关于抽象类的概念

个人主页:【😊个人主页】 系列专栏:【❤️初识JAVA】 前言 在Java中,抽象类是一种特殊的类,它无法被实例化。它只能被用作其他类的基类,以便子类可以继承它的属性和方法。今天我们就来谈谈JAVA中的抽象类。…

爬虫 — App 爬虫(一)

目录 一、介绍二、APP 爬虫常见反爬三、APP 抓包常用工具四、模拟器五、安装 APP1、下载 APP2、安装 APP 六、fiddler1、工作原理2、安装3、基本介绍 七、环境配置1、fiddler 的配置2、夜神模拟器的配置 八、案例 一、介绍 爬虫分类——数据来源 1、PC 端爬虫(网页…

IP风险查询:抵御DDoS攻击和CC攻击的关键一步

随着互联网的普及,网络攻击变得越来越普遍和复杂,对企业和个人的网络安全构成了重大威胁。其中,DDoS(分布式拒绝服务)攻击和CC(网络连接)攻击是两种常见且具有破坏性的攻击类型,它们…

十、阶段实践练习

阶段实践练习 1.阶段实践练习1.1.练习1~~~~象棋口诀1.2.练习2~~~~输出汇款单1.3.练习3~~~~输出个人信息1.4.练习4~~~~计算月收入1.5.练习5~~~~计算商和余数1.6.练习6~~~~判断成绩能否及格1.7.练习7~~~~话费充值1.8.练习8~~~~货车装西瓜 ———————————————————…

一百八十一、Hive——海豚调度HiveSQL任务时当Hive的计算引擎是mr或spark时脚本的区别(踩坑,附截图)

一、目的 当Hive的计算引擎是spark或mr时,发现海豚调度HQL任务的脚本并不同,mr更简洁 二、Hive的计算引擎是Spark时 (一)海豚调度脚本 #! /bin/bash source /etc/profile nowdatedate --date0 days ago "%Y%m%d" y…

[Git入门]---gitee注册及代码提交

文章目录 1.Gitee是什么2.gitee注册3.git工具及图形化界面工具安装4.gitee仓库创建5.进行本地仓库与远端gitee仓库的链接6.git三板斧addcommitpush 7.gitee提交代码常见问题 1.Gitee是什么 gitee是基于git代码托管和研发协作的国内平台,在上面可以托管个人或公司代…

XSS-labs1-20关通过手册

目录 XSSlabs1-20关通关手册第一关level-1(无任何过滤)第二关level-2(闭合标签)第三关level-3(单引号闭合js事件函数绕过)第四关level-4(双引号闭合js事件函数绕过)第五关level-5&am…

Excel 拆分单元格数据(公式拆分、智能填充、分列)

将姓名工号拆分成 姓名 和 工号 方法1 在 B2 单元格输入 LEFT($A2, FIND(":", $A2) - 1)在 C2 单元格输入 RIGHT($A2, LEN($A2) - FIND(":", $A2))然后 ctrl d 向下填充即可 方法2 在 B2 单元格输入 李金秀,然后选中 B3 单元格&#xff0c…

LeetCode 753. 破解保险箱【欧拉回路,DFS】困难

本文属于「征服LeetCode」系列文章之一,这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁,本系列将至少持续到刷完所有无锁题之日为止;由于LeetCode还在不断地创建新题,本系列的终止日期可能是永远。在这一系列刷题文章…

实现AIGC更好的数据存力,这家科技巨头为我们指明了方向

存力即数据存储能力 蕴藏着巨大的发展机会 【全球存储观察 | 热点关注】 2023年,全球被ChatGPT的热潮席卷,拥抱AIGC的创新赛道成为众多企业的新选择。 全球存储观察分析指出,影响AIGC发展的三大因素也日益凸显,即算…

ROS之创建第一个程序

打开终端 创建工作空间 mkdir ros_ws进入工作空间 cd ros_ws创建src文件夹(放源程序) mkdir src编译工作空间 catkin_make打开vscode(从终端打开此工程) code .进入src文件夹 cd src创建功能包demo1,并加载依赖…

[Linux入门]---Linux编译器gcc/g++使用

文章目录 1.背景知识2.gcc如何完成编译运行工作预处理(进行宏替换)编译(生成汇编)汇编(生成机器可识别代码)链接(生成可执行文件) 3.函数库动态库静态库动静态库的区别 4.gcc选项 1.…

一键自助建站系统源码带安装教程 傻瓜式部署搭建,让您的建站更高效

在这个数字时代,网站已成为企业或个人展示形象、推广业务的重要工具。为了满足这一需求,许多自助建站系统应运而生,大大降低了用户建站的门槛。给大家分享一款傻瓜式部署搭建的一键自助建站系统源码,让您轻松拥有高效建站能力。 …

虹科教您 | 可实现带宽计量和延迟计算的时间敏感网络测试工具RELY-TSN-LAB操作指南与基本功能测试

1. RELY-TSN-LAB产品概述 时间敏感网络(TSN)能够合并OT和IT世界,这将是真正确保互操作性和标准化的创新性技术。这项技术的有效开发将显著降低设备成本、维护、先进分析服务的无缝集成以及减少对单个供应商的依赖。为了在这些网络中实现确定性,需要控制…

[LLM+AIGC] 01.应用篇之中文ChatGPT初探及利用ChatGPT润色论文对比浅析(文心一言 | 讯飞星火)

近年来,人工智能技术火热发展,尤其是OpenAI在2022年11月30日发布ChatGPT聊天机器人程序,其使用了Transformer神经网络架构(GPT-3.5),能够基于在预训练阶段所见的模式、统计规律和知识来生成回答&#xff0c…

【Linux操作系统实战】Linux基础命令面试必备(二)

😄作者简介: 小曾同学.com,一个致力于测试开发的博主⛽️,主要职责:测试开发、CI/CD 如果文章知识点有错误的地方,还请大家指正,让我们一起学习,一起进步。😊 座右铭:不想…

【rabbitMQ】-延迟队列-模拟控制智能家居的操作指令

这个需求为控制智能家居工作,把控制智能家居的操作指令发到队列中,比如:扫地机、洗衣机到指定时间工作 一.什么是延迟队列? 延迟队列存储的对象是对应的延迟消息,所谓“延迟消息” 是指当消息被发送以后,并…

数据中心中什么最重要?

在数据中心中,最重要的要素可以总结为以下几点: 数据安全:数据中心是存储和处理大量敏感数据的关键设施,因此数据安全是最重要的要素之一。数据中心必须采取严格的物理安全措施,如门禁、监控和防火措施,以确…