【GMNER】Grounded Multimodal Named Entity Recognition on Social Media

news2025/1/18 6:47:25

Grounded Multimodal Named Entity Recognition on Social Media

  • 动机
  • 解决方法
    • 特征抽取
    • 多模态索引设计
    • 索引生成框架
      • Encoder
      • Decoder
    • 实体定位、
    • 实体-类型-区域三元组重建

出处:ACL2023
论文链接:https://aclanthology.org/2023.acl-long.508.pdf
code链接:https://github.com/NUSTM/GMNER
在这里插入图片描述

动机

目前的MNER任务主要把视觉特征作为额外的线索来帮助提升纯文本任务的性能,但是这有三点问题:一是MNER任务只提取实体-类型对,忽略了他们对应的目标框;二是提取的内容仅仅对构建纯文本的知识图谱有用,但是去无法建立多模态知识图谱;三是只识别实体类型对难以有效的进行试题消歧

解决方法

在这里插入图片描述

特征抽取

文本特征直接通过BART得到

对于图像特征,首先利用VinVL识别出所有候选物体,通过对这些候选物体排序后,选择top-k个物体并且将这些区域的平均池化特征作为嵌入特征,最后用线性层将特征维度映射到隐层维度

多模态索引设计

本任务的词表经过特殊设计,前两位1,2代表是否包含定位目标(yes1no2),3-6代表person、location、organization、MISC,从7往后则是跟文本相关的token

预测过程中,模型预测一个三元组,包含<entity,if_groundable, type>,其中entity可能包含不止一个索引,所以在预测的过程中三元组的长度是大于等于3的,例如原文中提到的

The first triple [7,8,1,3]refers to {Michael Jordan, groundable, PER}, the second triple [12,2,4] denotes {Toronto, ungroundable, LOC}, and the third triple [19,20,21,1,5]refers to {the Fields Institute, groundable, ORG}.

索引生成框架

Encoder

将经过特征抽取后得到的文本特征和视觉特征拼接起来,得到编码器的输入,文本特征的维度为nxd,视觉特征的维度为Kxd,拼接后的输入维度为(n+K)xd

Decoder

在第i个时间步的解码过程中,解码器利用输入特征以及前i个输出作为输入,来预测第i个输出

在这里插入图片描述

其中

C= TokenEmbed (c) refers to the embeddings of two indicator indexes, four entity type indexes, and special tokens such as the “end of sentence” token

三个公式说明了两个问题:

1.解码器是自回归生成的过程,虽然要预测三元组,但是也要逐个预测,而不是三个一股脑输出

2.解码器在预测过程中将特殊的token C直接与文本输入进行拼接与隐层状态点乘,[C;H_T^e]所对应的token其实就代表了这里最终分类完要预测的目标,也就是只预测特殊token(定位、类型)和文本(实体),而视觉特征虽然被拼接到输入中,但是输出的时候不做任何预测,而要通过groundable token进行后续的实体定位

在这里插入图片描述

N=n+c,n表示文本分词后的token数量,c表示特殊token的数量

实体定位、

首先看原文这里的公式:

在这里插入图片描述

也是融合原始特征和经过编码器后的特征,而后预测当前肾蕨特征在所有预先提取的区域上的概率分布,通过h_k来控制当前实体是否要进行实体定位操作

对于预测有实体的输出,要接着级联一个MLP来进行进一步的定位判定,注意这个定位不是visual grounding中的坐标预测,而是利用视觉特征预先提取好的特征来匹配的操作,这个下面会详细说明:

正如图三中所展示的,视觉区域特征是提前用大模型抽取好的,那么这些抽取到的区域跟实体对应的真实区域可能不会完全重合,所以要结合二者重新设定预测目标。具体而言,计算预先抽取的区域与真值区域之间的交并比,大于0.5的情况下保留,小于0.5时设为0,这样能得到每个视觉区域与真值区域之间的IoU得分,将IoU得分的序列进行归一化则得到了每个视觉区域的目标分布g(z_k),最后利用KL散度对这个目标分布进行预测(其实就是一个相似度最大化的匹配过程)
在这里插入图片描述

其中E是定位实体的数量。

训练阶段,将Decoder的目标损失LT和实体定位得到目标损失LV相加得到分层索引模型的最终损失。

实体-类型-区域三元组重建

在推理阶段,给定多模态输入,利用模型集合得到自回归的索引预测结果集合,这个集合肯定是比原始输入序列长的,长度范围大概是[原始输入序列长度+2,原始序列长度*3](考虑整个序列为一个实体,以及序列中每个token各成实体的两种极端)

利用输出索引序列,我们首先将每个索引转换为其原始含义,然后根据每个元素的索引跨度重建三元组(实体、可接地/不可接地、类型)。完整的算法如算法 1 所示

在这里插入图片描述

首先注意:E是定位实体的数量,忽略这一点看这个伪代码就很难看明白了

首先,对于输出序列Y,每次取一个索引y_i,每个三元组肯定先取到实体,所以索引长度肯定大于c,也就是执行else的操作,将y_i加入到e中;如果这个实体包含多个token,那么会一直执行这一步,直到都被加入到e中

当遇到特殊token时,y_i<c,也就是当前索引的值小于特殊token的长度,那么会首先判断是否存在于当前区域或类型有关的实体,如果有实体再判断e中的实体索引是否递增。因为默认先预测是否包含实体区域y_i,再预测实体类型y_{i+1},所以只要当前的索引是1 or 2,那么下一个一定是3-6(这个设定不一定合理,但是伪代码就是这样的),所以不用判断,直接将实体e、区域y_i、类型y_{i+1}组成三元组加入到E中。执行完上述操作后,实体序列清空,i跳步

重复上述步骤,直到迭代结束

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2154256.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows安装docker 本地打包代码

参考文章1&#xff1a;https://gitcode.csdn.net/65ea814b1a836825ed792f4a.html 参考文章2&#xff1a; Windows 安装docker&#xff08;详细图解&#xff09;-CSDN博客 一 下载 Docker Desktop 在官网上下载 Docker Desktop&#xff0c;可以从以下链接下载最新版本&#x…

重生之我们在ES顶端相遇第15 章 - ES 的心脏-倒排索引

文章目录 前言为什么叫倒排索引数据结构如何生成如何查询TF、IDF参考文档 前言 上一章&#xff0c;简单介绍了 ES 的节点类型。 本章&#xff0c;我们要介绍 ES 中非常重要的一个概念&#xff1a;倒排索引。 ES 的全文索引就是基于倒排索引实现的。 本章内容建议重点学习&…

基于python的api扫描器系统的设计与实现

&#x1f497;博主介绍&#x1f497;&#xff1a;✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示&#xff1a;文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…

『功能项目』QFrameWork拾取道具UGUI【69】

本章项目成果展示 我们打开上一篇68QFrameWork扔到地上UGUI的项目&#xff0c; 本章要做的事情是实现当物品在地上时&#xff0c;点击物品将对应物品转移到道具栏中 制作一个提示UI界面 添加Button组件设置为点击即将父物体隐藏 拖拽到文件夹中在场景中删除 创建脚本&#xf…

Postman cURL命令导入导出

导入cURL命令 cURL是一种用于发出HTTP请求的流行命令行工具。在测试Web应用程序或API时&#xff0c;cURL使您能够直接从命令行进行交互&#xff0c;使用API开发人员社区中常见的完善语法。如果在不同的地方有多个cURL命令&#xff0c;可以将它们导入Postman。 ​ 将cURL命令导入…

医院伤员消费点餐限制———未来之窗行业应用跨平台架构

一、点餐上限 医院点餐上限具有以下几方面的意义&#xff1a; 1. 控制成本 - 有助于医院合理规划餐饮预算&#xff0c;避免食物的过度供应造成浪费&#xff0c;从而降低餐饮成本。 2. 保障饮食均衡 - 防止患者或陪护人员过度点餐某一类食物&#xff0c;有利于引导合…

游戏淡入淡出效果

一、制作UIdocument 注&#xff1a;是全黑的&#xff1b;并且Picking Mode设置为Igore 通过调节display中的值&#xff0c;实现淡入淡出效果 二、建立空物体 增加uiDocument 拖入相关的物体 注&#xff1a;层级必须设置为最高&#xff0c;此处为20&#xff0c;这个效果必须遮…

(done) 声音信号处理基础知识(5) (Types of Audio Features for Machine Learning)

参考&#xff1a;https://www.youtube.com/watch?vZZ9u1vUtcIA 声学特征描述了声音&#xff0c;不同特征捕捉声音的不同方面性质 声学特征有助于我们构建智能声学系统 声学特征分类有&#xff1a; 1.抽象等级 2.时域视野 3.音乐的部分 4.信号域 5.机器学习方法 如下图展示…

828华为云征文 | 云服务器Flexus X实例:开源项目 LangChain 部署,实例测试

目录 一、LangChain 介绍 二、部署 LangChain 2.1 安装 langchain 2.2 安装 langchain_community 2.3 安装 qianfan 三、实例运行 3.1 Chat Models 3.2 LLMs 3.3 Embedding Models 四、总结 本篇文章主要通过 Flexus云服务器X实例 部署开源项目 LangChain&#xff0c…

【Delphi】通过 LiveBindings Designer 链接控件示例

本教程展示了如何使用 LiveBindings Designer 可视化地创建控件之间的 LiveBindings&#xff0c;以便创建只需很少或无需源代码的应用程序。 在本教程中&#xff0c;您将创建一个高清多设备应用程序&#xff0c;该应用程序使用 LiveBindings 绑定多个对象&#xff0c;以更改圆…

[SAP ABAP] 生成表维护视图

SAP由于数据量较大&#xff0c;很多自定义表都需要通过用户自行去维护&#xff0c;一般可以直接在SE16N对数据字典进行维护数据&#xff0c;但不是每个用户都有其操作权限&#xff0c;而且直接在数据字典上操作数据有很高的风险&#xff0c;因此SAP提供了表维护视图生成器&…

算法学习2

学习目录 一.插入排序 一.插入排序 从数组的第一个元素开始&#xff0c;当前元素与其前一个元素进行比较&#xff1b; 大于&#xff08;或小于时&#xff09;将其进行交换&#xff0c;即当前元素替换到前一位&#xff1b; 再将该元素与替换后位置的前一个元素进行交换&#xf…

【全网最全】2024年华为杯研赛A题保奖思路+matlab/py代码+成品论文等(后续会更新完整

您的点赞收藏是我继续更新的最大动力&#xff01; 一定要点击如下卡片链接&#xff0c;那是获取资料的入口&#xff01; 点击链接加入【2024华为杯研赛资料汇总】&#xff1a;https://qm.qq.com/q/goQLLNwfgQhttps://qm.qq.com/q/goQLLNwfgQ A 风电场有功功率优化分配思路 这是…

分页插件、代码生成器

01-分页插件、代码生成器 分页插件使用 首先在pom.xml文件中导入依赖 然后再mybatis-config.xml文件中写入插件 在测试类中写入方法 在mybatis.xml文件中设置plugins标签里的属性helperDialectkeyi自动检查当前数据库用的什么,不用设置也行,默认就设置了 分页插件里面属性详解…

XXL-JOB分片概念讲解

3. 分片功能讲解 3.1 案例需求&#xff1a; 1.我们现在实现这样的需求&#xff0c;在指定节假日&#xff0c;需要给平台的所有用户去发送祝福的短信 3.2.编码实现&#xff1a; a.初始化数据 1.在数据库中导入xxl_job_demo.sql数据 b.集成Druid&MyBatis 1.添加依赖 &…

VisualPromptGFSS

COCO-20 i ^i i太大&#xff0c;不建议复现

利士策分享,华为三折叠手机:重塑未来科技生活的里程碑

利士策分享&#xff0c;华为三折叠手机&#xff1a;重塑未来科技生活的里程碑 在这个日新月异的科技时代&#xff0c;华为再次以惊人的创新力&#xff0c;引领我们迈向智能设备的全新纪元——华为三折叠手机&#xff0c; 不仅是技术的飞跃&#xff0c;更是对未来生活方式的一次…

初识set,map

已知快速查找&#xff1a; 1.暴力查找 2.排序二分查找&#xff08;插入删除麻烦&#xff09; 3.搜索树->二叉搜索树&#xff08;极端情况n&#xff09;->平衡树(AVL树&#xff0c;红黑树&#xff09;(logn高度太高&#xff0c;搜索次数多&#xff09;->多叉平衡搜索…

发现编程的全新境界——明基RD280U显示器使用体验

前言 在大学的四年里&#xff0c;我几乎每天都泡在实验室&#xff0c;盯着电脑屏幕&#xff0c;一行行地码代码。那时&#xff0c;学校提供的显示器是非常基础的款式&#xff0c;功能简单&#xff0c;几乎没有任何特别之处&#xff0c;甚至配置也比较低。那个时候&#xff0c;…

【MySQL 01】数据库基础

目录 1.数据库是什么 2.基本操作 数据库服务器连接操作 数据库和数据库表的创建 服务器&#xff0c;数据库&#xff0c;表关系 数据逻辑存储 3.MySQL架构 4.SQL分类 5.存储引擎 1.数据库是什么 mysql&&mysqld&#xff1a; mysql&#xff1a;这通常指的是 MySQL …