哈工深、NUS等联合提出全新信息抽取基准任务:细粒度定位的统一多模态信息抽取...

news2025/1/11 1:22:41

fb12f31f591e677ae20d3c6454f135e6.gif

00cc8159cb5c202126666576f1a3bf42.png

信息抽取是 NLP 领域长久以来最经典的研究方向之一。信息抽取的研究经历过了多模态抽取阶段,以及大一统的抽取阶段。在大语言模型和多模态时代,信息抽取的发展何去何从,目前社区仍在积极探索中。

近期,由哈工深和新加坡国立大学等团队联合提出一项全新的信息抽取基准任务:细粒度定位的统一多模态信息抽取 grounded MUIE,将三种信息抽取子任务(命名实体识别、关系抽取和事件抽取)在四种典型的模态(文本、图片、视频和音频)下统一起来,同时实现细粒度的跨模态目标定位。

为了实现 MUIE 任务,作者设计了一个多模态大模型 REAMO,实现 UIE 任务的多种模态,一次识别。同时构建了一个 MUIE 基准测试集以评估任务表现。该工作将会为下一阶段的信息抽取奠定一个重要基石。目前该工作被录用到 ACL 2024 (Finding)。

9429edb33841e0df0a42dc94da01e979.png

论文标题:

Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction

论文地址:

https://arxiv.org/abs/2406.03701

项目地址:

https://haofei.vip/MUIE/

42206d66490170c649f603c6782645b6.png

动机介绍

信息抽取(Information Extraction,IE)是自然语言处理领域的经典研究方向之一,旨在从自然语言中提取出结构化信息,包括命名实体识别(Named Entity Recognition, NER)、关系抽取(Relation Extraction, RE)和事件抽取(Event Extraction, EE)等多种子任务。 

然而随着社交网络和多媒体技术的发展,文本不再是信息的唯一载体,海量的图片、音频和视频中同样蕴藏着丰富的信息,因此研究人员开始了多模态信息抽取(multimodal IE, MIE)的探索。 

但是对于 MIE 研究存在以下不足:

首先,目前的 MIE 只是孤立地研究单一模态或特定模态的组合,而不能实现统一、高效的多模态信息抽取。

其次,大多数 MIE 的工作在多种模态之间存在“偏见”,仍然以文本为主要导向,而将其他模态置于从属地位,这表现在信息抽取的结果只包含文本,而忽略了对其他模态信息进行细粒度地提取和定位(fine-grained groundings)。但在现实生活中,每一种模态都应该蕴含着重要的信息。一个简单的例子是,即使是一个不识字的婴幼儿也能通过视觉、听觉识别出物体和事件。

最后,目前的 MIE 模型假设不同模态之间是互相关联的,并倾向于只抽取其中的对齐信息,而在实际场景中不同模态的信息可能相互关联,也有可能相互独立,MIE 应当能够从任意一种模态中灵活地抽取信息。

02c018081c4e67aee8f054294c56a831.png

因此本文首次提出了一种细粒度定位的统一多模态信息抽取(grounded Multimodal Universal Information Extraction,grounded MUIE),尝试将三种信息抽取子任务(命名实体识别、关系抽取和事件抽取)在四种典型的模态(文本、图片、视频和音频)下统一起来,同时实现细粒度的跨模态目标定位。 

与此同时,本工作提出一个配套的 grounded MUIE 基准多模态大模型 REAMO,在对多种模态进行信息抽取的同时灵活地给出静态或动态的细粒度目标定位。REAMO 模型主要由三个模块组成:多模态编码器,LLM 推理器和可细粒度定位的 MUIE 解码器,通过一系列指令微调策略使得 REAMO 具备从各种模态中实现细粒度信息抽取各个子任务的强大能力。 

此外,为了更好地评估提出的 REAMO 模型的性能表现,作者在九个包含不同模态和子任务的信息抽取数据集的基础上,扩展了模态组合类型,通过模态迁移方法,标注构建了六个全新类型的多模态数据集,为 MUIE 任务提供了一个全面的基准测试集。

fb82cd40a79960968dfcc1f145fa4147.png

任务定义

细粒度定位的统一多模态信息抽取(grounded MUIE)是一个全新的任务,旨在将 NER,RE,EE 等各种信息抽取任务统一起来,支持各种模态(包括文本、图片、音频、视频)的输入,并输出结构化的 UIE 结果以及细粒度的多模态目标定位。

如图 1 所示,grounded MUIE 不仅能够从任意模态的组合输入中抽取出结构化的实体、关系、事件信息,而且能够细粒度地分割出对应的实体图像、音频片段,以及对视频中的文本和音频事件信息进行动态追踪。

9a380edcf140a17df7ded6d27b92a3c7.png

▲ 图1. 细粒度定位的统一多模态信息抽取 (grounded MUIE) 示例

38031e0820d22011cd84149c274f0a29.png

REAMO模型架构与微调策略

如图 2 所示,作者为 grounded MUIE 任务设计了 REAMO 多模态大模型,REAMO 主要由三个模块组成:多模态编码器,LLM 推理器和细粒度定位 MUIE 解码器。

96199f73c47cff470363583cefb5994a.png

▲ 图2. REAMO 多模态大模型架构图

3.1 多模态编码器

REAMO 作为多模态大模型,可以接收文本、图片、音频、视频任意组合的模态输入,因此作者使用 ImageBind 对不同模态输入进行编码,然后对图像编码器、视频编码器和音频编码器网络分别设计了投影层将不同模态表征统一映射到 LLM 可以理解的对齐语义空间中。

3.2 LLM推理器

LLM 推理器作为 REAMO 的中心单元,使用 Vicuna 作为 LLM 底座,根据提示词对输入内容进行语义理解和推理决策。LLM 推理器不仅生成 UIE 结构化文本抽取结果,同时负责生成 <Module> 和 <Instruction>,用于为下游解码模块提供激活信号,如图 3 所示。

2f873e5451ea09519c107dcab106b3e8.png

▲ 图3. LLM推理器功能示例

3.3 Grounded MUIE解码器

为了实现细粒度的 groundings 信息识别,MUIE 解码器集成了高性能 SEEEM 模块用于图像分割和视频追踪,SHAS 模块用于音频分割。根据上游传递的元响应信号,激活对应的解码器模块实现 groundings 识别。

3.4 Grounded MUIE微调策略

作者采用了多种微调策略使 REAMO 具备强大的 grounded 跨模态信息抽取能力:

  • UIE 指令微调:使用 UIE 指令微调数据集对 LLM 进行 LoRA 高效微调,使模型具备基本的文本信息抽取能力。

  • 多模态对齐学习:固定 ImageBind 和 LLM 参数,对投影层进行‘X-to-text’微调,实现各种模态与文本的对齐学习。

  • 跨模态细粒度定位微调:通过以上步骤, REAMO 模型已经学习到粗粒度的多模态理解知识,为了实现精确多模态 groundings,使用包含 groundings 标注的‘X-to-text’数据再次微调,使 LLM 获取更强的 grounding 感知理解能力。

  • 基于调用的元响应微调:基于现有的标注数据精心设计了多种指令模板,通过提示 GPT-4 生成对应的指令微调数据,进行元响应微调,使得作为中间推理与决策核心的 LLM 推理器能够准确地生成元响应下游激活信号。

51c905e1af299a87a0cba91b8fd9a427.png

grounded MUIE基准测试集

由于首次提出该任务,社区缺少一个全面的评估测试集。所以作者在现有的九个包含不同模态和子任务的信息抽取数据集的基础上,通过预处理和模态迁移方法(如语音合成技术、语音识别技术),构建了六个全新的多模态信息抽取基准测试集,丰富扩展了信息抽取任务的模态组合类型,标注了 3000 条覆盖 NER, RE, EE 子任务的高质量 MUIE 测试数据。

此外,作者重新标注了组合模态数据集以保证基准测试集中既包含多模态关联信息,也包含特有模态信息,并且还包含了模态对齐和非对齐的情况,从而更加符合实际应用场景。

35b2e57ef563f989231008d9531a6c53.png

▲ 图4. Grounded MUIE 基准测试集

27da3d9f522ad5ad20d25c096a067d81.png

实验和分析

5.1 Zero-shot MUIE实验结果

图 5,图 6,图 7 分别展示了图片、音频、视频单一模态与文本混合双模态下 zero-shot 实验性能对比,图 8 展示了更加复杂的模态混合场景下的实验性能,综合多种实验设置结果可以得出以下结论:

1)端到端模型由于缓解了误差传播问题,比起管线模型展示出更高的性能;


2)REAMO 模型对比其他模型在各种模态和子任务场景下均展现出最佳性能;

3)单一模态相比文本混合双模态展现出显著的性能下降;

4)REAMO 在复杂的多种模态混合场景下相比其他模型提升更为明显。

428fd928439af95520795385ddbd8134.png

▲ 图5. 图像相关MUIE数据集实验结果

9402c36d92e54984d5028d4000153bcd.png

▲ 图6. 音频相关MUIE数据集实验结果

64ea1f0aa7746dfeaeea571ad3f6cfa3.png

▲ 图7. 视频相关MUIE数据集实验结果

dfe5a76d2b63f6eed71e93b415dd7beb.png

▲ 图8. 多种模态混合场景下的实验结果

5.2 模态对齐 vs 非对齐

如前文所述,目前的 MIE 模型假设不同模态之间是互相关联的,并倾向于只抽取其中的对齐信息。作者将数据集划分为两类:模态对齐与模态费对齐,并分别进行了实验测试。图 9 展示了不同模型在模态对齐与非对齐两种场景下的对比试验,可以发现 REAMO 打败了其他基线模型,并在模态非对齐场景下提升尤其显著。

0069112e62c3298dbbc1beab630bc257.png

▲ 图9. 模态对齐与模态非对齐MUIE性能差异

5.3 实体数量的影响

图 10 展示了输入内容中实体数量对 MUIE 性能的影响,可以发现,在文本+图片/文本+音频/文本+视频三种不同场景下,随着输入的实体数量增多,其他模型退化明显,而 REAMO 能够保持相对较优的性能,展示出更好的鲁棒性。

e28191e1a7cf2be49f7a74a62bc1561d.png

▲ 图10. 实体数量的影响

5.4 案例分析

图 11,图 12,图 13 分别给出了 NER,RE,EE 三种不同任务下的 MUIE 系统的可视化实例。在各种场景下,REAMO 不仅给出正确的信息抽取结果,同时可以根据根据提示灵活地提供细粒度的目标定位,具备较好的可解释性。

fa697922373ffe8fa7140f169c29b260.png

▲ 图11. NER 实例

e859401abf8c6b8c2dbe4721717a0f98.png

▲ 图12. RE 实例

4527b75d9f46990c858db197bdb1abe8.png

▲ 图13. EE 实例

9f650045fda7bf7c89be2227f1e1602c.png

错误分析和未来研究方向

本文首次提出一个全新的 grounded MUIE 任务。未来后续研究可以从各个角度进行探索。作者在实验中对提出的模型进行了错误分析,总结了几种重要的错误类型。

1. 内容重复提取:当文本和其他模态的信息不严格一致时,REAMO 模型可能会抽取出含义相似但不同的实体、关系、事件等。所以如何保证不同模态信息抽取的一致性是一个需要思考的方面。

2. 信息提取不完整:信息提取的结果不完整,例如命名实体识别不完整,无法识别涉及深入推理的关系,或事件论元的识别不完整。

3. 错误定位:REAMO 模型可能输出实体或论元,但未能成功定位相应的图像、视频或音频中的对应区域。

4. 错误定位匹配:实体或论元并不总是与定位结果匹配。例如,当文本提到“奥巴马”和“特朗普”,而图像描绘了这两个人时,图像对象分割器未能确定哪个是“奥巴马”和“特朗普”,导致错误的定位匹配。

5. 过度定位/定位幻觉:所提出的 REAMO 模型可能生成多个指令并在图像、视频或音频中进行定位,但视觉或听觉内容中实际上不存在对应的区域。

6. 错误传播:REAMO 模型本质上还是一个流水线式的运作系统,首先产生一个元响应,然后用它来调用功能模块,这种 pipeline 模式可能会引入了错误传播,即如果元响应的内容存在问题,随后模块的输出将是错误的。为了解决这个问题,可以考虑开发更先进的端到端多模态大语言模型。

🌟本文内容已获论文原作者独家授权发布,如需转载请联系PaperWeekly工作人员微信:pwbot02,添加时请备注「转载」

更多阅读

aadc3db425ea8bf635bc5272c1179b9c.png

dbf9bfe01b31cabcfcb451e679fa0c04.png

f1caa8b9efc621b56a874718e8211c1b.png

895b34b44048026323465751631a3209.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

55e1a3376d77c81f0bd020467ccacb13.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

9ab01ddb2a666d32f5250686db464332.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2065189.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

131-横向移动-Kerberos攻击SPN扫描WinRMWinRSRDP

1、RDP协议 Remote Desktop Protocol 远程桌面协议通常开放3389 &#xff0c;Windows上面使用mstsc就可以弹出最常见的远程桌面连接方式&#xff0c;一般都是使用明文进行连接其实还可以使用hash进行 在内网中使用RDP协议一般是需要进行代理转发或者建立节点的 端口扫描 shel…

实现AOP机制 + Spring总结

文章目录 1.目录2.SmartAnimal.java 接口&#xff08;JDK代理必须有接口&#xff09;3.SmartDog.java4.SmartAnimalAspect.java5.SunSpringApplicationContext.java1.在Bean的后置处理器之后使用动态代理2.完整代码 6.测试1.AppMain.java 调用被代理的类的方法2.结果 7.Spring底…

维特——六九轴陀螺仪传感器代码的移植方法

使用的是如图所示的这款陀螺仪&#xff0c;相比MPU6050&#xff0c;它可以做到Z轴不漂的效果。 官方给的代码是使用两个串口&#xff0c;一个用来和上位机通信&#xff0c;一个用来于该模块通信。在实际使用中&#xff0c;我们只需要单片机和该模块通信即可&#xff0c;所以我…

Centos安装Jenkins教程详解版(JDK8+Jenkins2.346.1)

本教程基于 JDK8 和 Jenkins2.346.1 JDK安装 下载OpenJDK8文件 wget https://mirrors.tuna.tsinghua.edu.cn/Adoptium/8/jdk/x64/linux/OpenJDK8U-jdk_x64_linux_hotspot_8u422b05.tar.gz解压到指定目录 # 创建目录 mkdir -p /usr/local/software# 解压文件到指定目录&#…

uniapp点击预览图片,两种效果

背景&#xff1a; 在使用uniapp框架中&#xff0c;我们对图片的展示需要点击放大展示(单张)&#xff1b;如果是多张图片&#xff0c;要支持左右滑动查看多张图片(多张)。 官网链接&#xff1a;点击跳转官网 一、单张&#xff0c;点击放大 代码&#xff1a; <template> …

Spring模块详解Ⅲ(Spring Expression Language (SPEL)和Spring JDBC)

目录 Spring Expression Language&#xff08;SpEL&#xff09;Spring Context 模块详解1. 什么是 Spring Context?2. ApplicationContext 的主要实现3. 国际化支持国际化消息文件使用 MessageSourceXML 配置&#xff1a;Java 配置&#xff1a; 使用国际化消息&#xff1a; 4.…

SwapPrompt(论文解读): Test-Time Prompt Adaptation for Vision-Language Models

2023(Neural IPS) 摘要 测试自适应 &#xff08;TTA&#xff09; 是无监督域自适应&#xff08;UDA&#xff09;中一种特殊且实用的设置&#xff0c;它允许源域中的预训练模型去适应另一个目标域中的未标记测试数据。为了避免计算密集型的骨干网络微调过程&#xff0c;因此利…

【技巧】-DNSlog外带文件

❤️博客主页&#xff1a; iknow181 &#x1f525;系列专栏&#xff1a; 网络安全、 Python、JavaSE、JavaWeb、CCNP &#x1f389;欢迎大家点赞&#x1f44d;收藏⭐评论✍ 1.什么是DNSlog 我们都知道DNS就是将域名解析为ip&#xff0c;用户在浏览器上输入一个域名A.com&#x…

实现Nginx四层负载均衡

Nginx在1.9.0版本开始支持tcp模式的负载均衡&#xff0c;在1.9.13版本开始支持udp协议的负载&#xff0c;udp主要用于 DNS的域名解析&#xff0c;其配置方式和指令和http 代理类似&#xff0c;其基于ngx_stream_proxy_module模块实现tcp 负载&#xff0c;另外基于模块ngx_strea…

vue2版本空目录下创建新项目的方法2024

vue2版本空目录下创建新项目的方法2024 node -v npm -v vue -V 安装vue-cli 2.9版本的命令 npm install vue-cli -g 卸载vue2.x方法&#xff1a; npm uninstall vue-cli -g 设置 NPM 镜像 npm config set registry https://registry.npmmirror.com vue -V 报错时需设置环…

多进程和多线程基础概念LINUX

进程和程序的区别 程序是静态的&#xff0c;它是保存在磁盘上的指令的有序集合&#xff0c;没有任何执行的概念进程是一个动态的概念&#xff0c;它是程序执行的过程&#xff0c;包括了动态创建、调度和销毁的整个过程 并行&#xff1a;在 cpu 多核的支持下&#xff0c;实现物…

Git 的基本使用

1.创建 Git 本地仓库 仓库是进⾏版本控制的⼀个⽂件⽬录。我们要想对⽂件进⾏版本控制&#xff0c;就必须先创建⼀个仓库出来&#xff0c;例如下面代码创建了gitcode_linux的文件夹&#xff0c;之后再对其进行初始化。创建⼀个 Git 本地仓库对应的命令为 git init &#xff0c…

视频项目开发,EasyCVR视频融合平台为何成为关键驱动力

智慧类视频项目是基于多个系统融合&#xff0c;旨在实现更广泛联动功能&#xff0c;以满足智能化应用需求为基石的信息化项目。当前&#xff0c;智慧社区、智慧园区、智慧工厂乃至智慧城市等应用场景的需求日益增长。这些智慧项目的整合进程中&#xff0c;视频融合能力扮演着不…

ASP.NET Core 入门教程一 创建最小 API

构建最小 API&#xff0c;以创建具有最小依赖项的 HTTP API。 它们非常适合需要在 ASP.NET Core 中仅包括最少文件、功能和依赖项的微服务和应用。 本教程介绍使用 ASP.NET Core 生成最小 API 的基础知识。 启动 Visual Studio 2022 并选择“创建新项目”。 在“创建新项目”…

RabbitMQ 最新版 安装,配置,java接入使用(详细教程)

一 RabbitMQ下载 RabbitMQ 官网最新版下载&#xff1a; RabbitMQ: One broker to queue them all | RabbitMQ RabbitMQ依赖erlang-26.2.5.2-1.el7.x86_64.rpm下载&#xff1a; https://github.com/rabbitmq/erlang-rpm/releases/download/v26.2.5.2/erlang-26.2.5.2-1.el7.…

Information Processing Technician

信息处理技术员试题 🔥SeptemberZone 1.信息是一种() A.资源 B.物质 C.能量 D.载体 2.以下关于信息的表达中,不正确的选项是() A.一切数据都能产生信息 B.信息的产生、处理和传递依靠于物质和能量 C.同一信息在不同的时间可能具有不同的价值 D.信息的屡次使用不会使信息…

MD编辑器学习笔记

MD编辑器学习笔记 目录标题文本样式列表图片链接代码片数学公式表格部分总结 目录 目录是使用“[TOC](目录&#xff09;”&#xff0c;记住别忘了加上&#xff08;&#xff09;标题 使用#来确定标题&#xff0c;几个#就是几级标题。记住#后面要加上空格文本样式 tips: 在写正…

什么是制造业项目管理软件?适合制造企业的项目管理软件具备哪些特征

当前&#xff0c;我国的制造业呈现出稳步增长与风险并存的现象。经济构建以国内大循环为主体&#xff0c;国产替代的浪潮正在席卷国内制造业&#xff0c;越来越多的制造领域企业开始启动数字化变革来支撑企业的迅猛发展&#xff0c;进一步优化项目管理流程&#xff0c;促进研发…

Docker的概述及如何启动docker的镜像、远程管理宿主机的docker进程

一、概述&#xff1a; 1、Docker 是什么&#xff1f; Docker 是⼀个开源的应⽤容器引擎&#xff0c;可以实现虚拟化&#xff0c;完全采用“沙盒”机制&#xff0c;容器之间不会存在任何接口。 2、Docker 和虚拟机的区别&#xff1a; 1&#xff09;启动速度&#xff1a;Dock…

使用 Visual Studio 编辑器作为 DailyNotes 的 markdown 编辑器

DailyNotes 是我使用过的最优秀的日常笔记管理工具&#xff0c;为它配置一个好的 markdown 编辑器&#xff0c;可以大幅提升效率。 除了使用 Typora 作为 markdown 编辑器&#xff0c;Visual Studio Code 也是一个非常不错的选择&#xff0c;令人惊喜的是&#xff0c;它也支持…