【必知必懂论文】之多模态实体识别

news2024/11/27 8:40:04

引言

命名实体识别(NER)是自然语言处理(NLP)领域中的最基础、最核心的任务之一,该任务旨在识别出文本中的命名实体(通常指特定类型事物的名称或符号,一般是一个名词或者短语),并将识别出的实体分类到预先定义好的实体类别中。它的任务形式非常简单,它的输入就是需要识别的文本,输出就是识别出的实体及其对应的类型。例如,在下面这个示例中,第13个单词被识别为Person(人名),第7个单词和第910个单词被识别为Location(地名)。
在这里插入图片描述

NER在学术界和业界的都具有非常广泛的应用,比如,它可以作为关系抽取、事件抽取、机器翻译、情感分析、问答系统、知识图谱等众多NLP任务的基础,同时可以借助NER技术,实现快速、高效、精准的产品属性抽取、产品推荐、人物画像等等,因此NER任务受到学术界和业界的广泛关注。

然而,随着互联网技术和信息存储技术的发展,互联网中的信息形态已从传统的纯文本模态转变为涵盖文本、图像、视频等多模态形式,这给传统的面向纯文本的命名实体识别任务带来巨大的挑战,本篇文章就想带领大家学习一下,多模态命名实体识别(MNER)的几篇必知懂论文。这几篇论文是小编根据多模态命名实体识别方法的类别,从主要的几类方法中挑选出几篇代表性工作,希望能够给大家带来帮助。

(1)(NAACL-2018) Multimodal Named Entity Recognition for Short Medical Posts

论文:https://aclanthology.org/N18-1078/

代码:未开源

简介:针对含有噪音的,短文本数据,传统的NER模型性能表现并不是很好,之前的方法会通过引入外部数据(例如字符信息、本体库),而本文通过进入图像模态来提升模型性能,为了这个目的,本文构建了一个图像-文本模态数据集(SnapCaption),提出了基于注意力的交互模块,在进行信息融合的时候,有选择的选择不同的模态信息。

模型和方法:本文提出的模型结构如下图所示,该模型引入三种模态信息:词语(token embeddings)、字符(character embeddings)、图像(visual features)。整体的模型框架采用BiLSTM+CRF的序列标注模型,输入是一个包含了三种模态信息的序列,在每一步解码时,都会通过注意力模块,将三者的信息进行融合,基于该融合后的信息为每个token预测类型标签。
在这里插入图片描述

(2)(ACL-2018)《Visual Attention Model for Name Tagging in Multimodal Social Media》

论文:https://acl2018.org/paper/866

代码:未开源

简介:这篇论文的动机其实和上一篇论文动机非常相似,都是针对传统的NER技术无法很好的适应于多模态环境,由此提出新的数据集和模型来应对新的任务——多模态命名实体识别。本文又提出两个新的数据集Snapchat和Twitter17。

模型和方法:本文提出一种基于视觉注意力的多模态NER模型,通过视觉注意力机制,可以为模型提供视觉辅助信息,从而帮助模型更好地理解文本内容,从而做出更加准确的决策,模型结构如下图所示。该模型的输入共包含两种模态信息:文本、图像。给定一个文本句和图片对,该模型针对图片提取区域视觉特征,然后计算每个图像区域特征与文本的相关性获得权重,将加权求和后的区域视觉特征作为最终的视觉编码向量。基于视觉编码向量和文本编码向量,使用BiLSTM+CRF框架进行文本的序列标注,在输入到CRF层之前,使用门控机制来控制文本编码向量和视觉编码向量的融合。因为有些视觉特征能与某些文中中词想匹配,有一些视觉特征是找不到相匹配的词的,因此,本文引入了词级别的门控机制,来控制文本和视觉信息的融合。
在这里插入图片描述

(3)(AAAI-2021)Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance

论文:https://ojs.aaai.org/index.php/AAAI/article/view/17687

代码:https://github.com/MANLP-suda/UMGF

简介:上述两篇论文在考虑视觉信息的时候,都是从图像的整体语义出发,而没有充分挖掘图文模态之间的细粒度语义单元的对齐,导致之前的模型容易引入过多的视觉噪音,从而影响模型的性能。为了解决这个文本,本篇论文的工作就是从图像和文本的细粒度语义对齐出发,通过对齐图像和文本间的细粒度语义,学习更好地多模态表征,进而提升模型的性能。

模型和方法:为了解决上述问题,本篇工作提出了一种统一的多模态图融合方法(UMGF),具体的模型结构如下图所示。该方法将输入的文本和图像构建成一个统一的多模态图,通过这个图可以捕获图像中目标与文本中的词(或字)之间的关联关系;然后通过堆叠多个基于图的多模态融合层(包含模态间的融合和模态内的融合)来实现节点之间的迭代语义交互,以学习到更好的节点表示,基于该节点表示进行基于CRF的序列标注。
在这里插入图片描述

(4)(AAAI-2021)RpBERT: A Text-image Relation Proragation-base BERT Model for Multimodal NER

论文:https://ojs.aaai.org/index.php/AAAI/article/view/17633

代码:https://github.com/Multimodal-NER/RpBERT

简介:虽然第三篇工作考虑了文本与图像之间的细粒度语义对齐,但是图像和文本之间的语义单元并不是完全相关的,现有的方法大部分都是基于图文相关的假设,然后基于注意力机制捕获图像和文本之间的相关程度,这样就会不可避免的引入视觉噪音。本篇工作就是显示地考虑图像和文本之间的相关性,基于图文之间的相关性有选择地引入视觉信息。

模型和方法:为了考虑图文之间的相关性,本篇工作提出了一种基于图文关系传播的MNER方法,具体的模型结构如下图所示。本文模型的骨架是BERT,使用[CLS]和[SEP]两个特殊字符将文本和图像两种序列进行拼接,送入到BERT模型中。为了捕获图像和文本之间的关联性,本文通过引入Text-Image relation classification任务,并设计了软关系传递和硬关系传递两种策略,将图文之间的关联性引入到多模态命名实体识别任务中。因此,本文的模型实质上是一个多任务联合学习的模型。
在这里插入图片描述

(5)(WSDM-2023)Reducing the Bias of Visual Objects in Multimodal Named Entity Recognition

论文:https://dl.acm.org/doi/10.1145/3539597.3570485

代码:https://github.com/xinzcode/DebiasCL

简介:最后,我们给出一篇当前最新的一篇工作,该工作也主要是解决视觉信息偏置问题。虽然现有的方法要么考虑图像的粗粒度特征,要么考虑图像的细粒度特征,但是这些方法常常忽略了图像的信息偏置问题。本篇工作主要考虑了图像中的两种偏置:实体的数量和实体类型,即图像中的实体数据或者实体类型可能与文本中的不一致。

模型和方法:不同于之前的模型,通过各种策略实现图像和文本之间的显式对齐,本文方法任务图文之间的隐式对齐能够更好地优化图文之间的共享语义空间学习。本文提出了一种基于对比学习的去偏置多模态实体识别方法,该方法通过难样本挖掘策略和去偏置对比损失,学习到更加鲁棒的文本序列表示,进而基于该表示进行基于CRF的序列标注。
在这里插入图片描述

如果想要了解更多的论文细节,可以移步到我们的《论文研读系列》,我们会不定期分享详细的论文细节,欢迎大家关注我们!欢迎大家微信搜索公众号“CS助研帮”关注起来吧~让我们一起成长。

 所谓的不平凡就是平凡的N次幂!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/513267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【这七款网工在线画拓扑工具,你会用几个呢?】

其实绘制拓扑图的工具有很多,今天主要推荐给大家7款在线的绘图软件,不仅好用,不占内存,而且功能强大。 看看有没有你种草的那一款哈,当然,如果有其他更好用的工具,也欢迎留言区告诉其他网工朋友…

apifm-wxapi

文章目录 apifm-wxapi介绍为什么要用 apifm-wxapi使用1. 项目导入 apifm-wxapi2. 平台注册3. 平台配置4. 用户注册5. 用户登录6. 使用其他API 【参考】 apifm-wxapi 介绍 “微信小程序接口工具包,无需服务器,无需开发后台,开箱即用&#xf…

(四)运行微信小程序:在主页加入表单组件实现提交功能

我们在上个小练习的基础上,继续在主页添加功能——使用表单组件form。 根据微信官方文档: https://developers.weixin.qq.com/miniprogram/dev/component/form.html 当需要获取用户提交的信息时,可以使用表单组件form。当用户点击表单中fo…

从 0~1 创建 Vue3项目(Vue3 + JS)

前言 我目前还是在用 JavaScripr开发项目,后面会学习 TypeScript ,也会专门写一篇《从 0~1 创建Vue3 TS 项目》。求关注😭 一、创建项目前的准备工作 1.1 安装Node 创建项目需要使用 npm 或 yarn 可以去看我的另一篇文章:《…

免费开源的Umi-OCR 文字识别工具

大家好,我是小寻,欢迎关注公众号:工具优选,免费领取优质项目源码和常用工具,还可以加入我的交流群! 如今,在日常生活和工作中,我们经常需要捕捉屏幕截图并识别其中的文本信息。比如别人给你发资料时直接发…

Git详细用法:Git概述 安装 常用命令 分支操作 团队协作 、GitHub、idea集成Git、idea集成GitHub、码云、GitLab

课程介绍 学习目标 第1章 Git 概述 Git 是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目。 Git 易于学习,占地面积小,性能极快。 它具有廉价的本地库,方便的暂存区域和多个工作流分支等特性…

跟着LearnOpenGL学习3--四边形绘制

文章目录 一、前言二、元素缓冲对象三、完整代码四、绘制模式 一、前言 通过跟着LearnOpenGL学习2–三角形绘制一文,我们已经知道了怎么配置渲染管线,来绘制三角形; OpenGL主要处理三角形,当我们需要绘制别的图形时,…

切记:缺少进项利用这个方法!增值税高也不怕!

切记:缺少进项利用这个方法!增值税高也不怕! 业务是流程,财税是结果,税收问题千千万,《税算盘》来帮你找答案。 企业缺少进项,这个问题是所有企业和财务都无法回避的问题,让企业非…

实用篇 | huggingface的简单应用

本文主要介绍hugging Face(拥抱脸)的简单介绍以及常见用法,用来模型测试是个好的工具~ 如下图所示左边框是各项任务,包含多模态(Multimodal),计算机视觉(Computer Vision),自然语言处理(NLP)等,…

强人工智能时代,区块链还有戏吗?

最近很多人都在问我,ChatGPT 把 AI 又带火了,区块链和 Web3 被抢了风头,以后还有戏吗?还有比较了解我的朋友问,当年你放弃 AI 而选择区块链,有没有后悔? 这里有一个小背景。2017 年初我离开 IBM…

uni-app两个入口模块(客户端和用户端)

思路:使用vuex对小程序进行登录状态管理,采用集中式存储管理应用的登录状态 Vuex 是什么? | Vuex 效果: 新建store文件夹,在文件夹中新建一个index.js文件和一个modules文件夹,modules文件夹中新建一个st…

【历史上的今天】5 月 11 日:Dijkstra 算法开发者诞生;电子表格软件的开山鼻祖;机器狗 AIBO 问世

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 11 日,在 1995 年的今天,我国成为第六个研制成功磁悬浮列车的国家。磁悬浮列车利用“同性相斥,异性相吸”的原理&…

Linux基础学习---2、系统管理、帮助命令、文件目录类命令

1、系统管理 1.1 Linux中的进程和服务 计算机中,一个正在执行的程序或命令。被叫做“进程”(Process)。 启动之后一直存在、常驻内存的进程,一般称做“服务”(Service)。1.2 systemctl(CentOS…

以playwright脚本为例,详解Python with as处理异常的原理

大家在做playwright自动化测试时,一定会遇到下面的写法 with sync_playwright() as p:自动化代码 很多同学可能只是按照这种写法来编写项目的自动化测试代码,对于具体细节可能并不了解,今天我来结合playwright讲解一下 Python中的 with ...…

大咖齐聚CCIG论坛——文档图像智能分析的产业前沿

目录 1 文档图像智能分析技术2 大咖齐聚CCIG20233 议题介绍3.1 从模式识别到类脑研究3.2 视觉-语言预训练模型演进及应用3.3 篡改文本图像的生成和检测3.4 智能文档处理在工业界的应用与挑战 4 观看入口&议程 1 文档图像智能分析技术 文档图像智能分析是指使用计算机视觉和…

推荐一款支持多种存储的程序AList(附上个人站点)

1、安装部署 1、一键脚本 仅适用于 Linux amd64/arm64 平台。 #安装 curl -fsSL "https://alist.nn.ci/v3.sh" | bash -s install#更新 curl -fsSL "https://alist.nn.ci/v3.sh" | bash -s update#卸载 curl -fsSL "https://alist.nn.ci/v3.sh&qu…

【react】特种兵之react.tsx列表页面搭建

目录 背景了解工程架构我可开始了啊新建一个页面怎么写?前端代码编写思路 感触 背景 方便系统运维、不用每次初始化数据都走数据订正 这是第一次毕业之后,用前端语言新建一个页面,过程自然是极其曲折。情绪也是跌宕起伏,从页面显…

无需代理客户端,轻松实现虚拟机备份!

21世纪的虚拟化技术为企业提供了极大的便利和成本节约。它允许企业通过管理程序创建虚拟机以在单个主机上运行多个不同的操作系统,从而充分利用计算资源并节省架构和管理成本。 随着组织将其业务迁移到虚拟化平台,执行数据保护的方法也随之改变。虚拟机…

重视企业缺少成本票问题!合理利用税收优惠政策降低企业所得税!

重视企业缺少成本票问题!合理利用税收优惠政策降低企业所得税! 业务是流程,财税是结果,税收问题千千万,关注《税算盘》来帮你找答案。 很多企业在成立的初期会出现对票据管理不严格的情况,前期影响也不是…

精选博客系列|VMware Tanzu Mission Control增强策略功能,让Kubernetes的安全性更加灵活

随着分布式系统日益复杂,定义和实施 Kubernetes 集群的策略以确保环境的安全性、可靠性和合规性 —— 当然也是为了构建可扩展性的支撑结构,变得至关重要。 因此,我们很高兴宣布 VMware Tanzu Mission Control 现在有了更多的策略相关的改进…