论文浅尝 | Hybrid Transformer Fusion for Multimodal KG Completion

news2024/11/24 9:56:44

9c5bc60f37035a15929d5a3ed099c8bd.png

笔记整理:陈子强,天津大学硕士,研究方向为自然语言处理

论文链接:https://arxiv.org/pdf/2205.02357.pdf

动机

尽管多模态知识图谱补全较单模态知识图谱补全已经有了很大的改进,但仍然存在两个限制。(1)架构的通用性。不同的多模态知识图谱补全需要在不同的编码器架构之上建立特定的、单独参数化的融合模块。因此需要一个统一的模型用于各个多模态知识图谱补全任务。(2)模态噪声。当前的大部分多模态知识图谱,一个实体对应于多个图像,部分图像与实体无关,甚至包含大量噪声。

方法

针对动机中提到的两点不足,文章的方法分布两部分:

(1)论文提出提出MKGformer框架,用M-Encoder将视觉Transformer和文本Transformer进行多层级融合。可以构建一个通用的多模态知识图谱补全框架。

(2)对于模态包含的噪声信息。首先,在M-Encoder的自注意力模块提出一个粗粒度的前缀引导交互模块,为下一步减小模态异构性做好准备。其次,在M-Encoder的前馈神经网络部分提出关联感知模块,获取细粒度的图文表示,降低对无关图像的错误敏感性。

d26940f1ace97e7af3c49bb7bdca1e2d.png

MKGformer框架

框架包含三个部分:V-Encoder用于从图片块中捕获视觉特征,T-Encoder从文本中获取句法和语法信息,M-Encoder用于建模图像和文本的高层融合特征。

V-Encoder使用在ImageNet上预训练过的ViT,其公式如下,pc和pos分别表示patch embedding和位置编码。LN表示Layer Norm,MHA表示多头注意力。

e30da02d56ac3ec65fe733333af7ea5b.png

T-Encoder使用BERT作为文本编码器,其公式如下,wd和pos表示词嵌入和位置编码。LN表示Layer Norm,MHA表示多头注意力。

73eb26b51e986bddd9be3730f4bbc403.png

M-Encoder

T-Encoder使用BERT作为文本编码器,其公式如下,wd和pos表示词嵌入和位置编码。LN表示Layer Norm,MHA表示多头注意力。

fd81198bcc277d035a8c11fa9e7f63fc.png

5bf97d45886c0958d961f6e09d0529b1.png

Prefix Guided Interaction Module (PGI)

受到prefix tuning的启发,PGI模块中优化了视觉注意力头的计算,将文本的key和value拼接到图像的key和value之后。通过这样的对key和value的处理,从而降低模态间的异构性。

63a1da0fb3d6dfafcb80aeff0e9d7e95.png

Correlation-aware Fusion Module (CAF)

为了缓解噪声的消极影响,用CAF模块捕获两个模态间的交互(token-patch间对齐)。具体地,首先计算text token和visual token的相似度矩阵。

9435ca86f7cfa4b44b82b80fc0dc2fd2.png

然后对相似度矩阵中的第i个text token做softmax再乘图像向量2fafd2b366071a9a2a13aed9491ef437.png得到第i个text token的聚合向量。如此重复,得到相似度感知的聚合图像表示ec7adba293ebb0f08346a465c5e15b4f.png

2d943d8e238e63803f812f68a4445cba.png

最后,在FFN模块中,将949e5ceecc7e4aca723903c50be3022d.png融合到文本表示中。

6c7a4f56d8ae51612222393c96d42f20.png

实验

多模态链接预测

在FB-15k-247-IMG和WN18-IMG数据集上都取得了SOTA性能

bfe49dd91c934fd48228fff8eee91db6.png

多模态关系抽取

f31a8cfdff16e4cbe773b973fc484054.png

多模态关系抽取和命名实体识别

59ac077d4cdb1a6755c3ddf1454252a0.png

总结

文章提出一种多模态知识图谱补全的Transformer,在ViT和BERT的最后几层采用多级融合的M-Encoder进行图文融合的实体建模。MKGformer是第一个用统一的架构进行多个知识图谱补全的工作。具体地说,文章在自我注意层提出了前缀引导的交互模块来预先降低通道异构性,并在此基础上设计了相关性感知融合模块,在FFN层实现了token级别的细粒度融合,以减少无关图像/对象的噪声。在四个数据集上的大量实验结果证明了该算法的有效性和健壮性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

50d17eabd9ed35b72f33e6e1ab358514.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/51068.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java内存模型与线程(1)

文章目录1. 概述2. 硬件的效率与一致性3. Java内存模型3.1 主内存与工作内存3.2 内存间交互操作并发处理的广泛应用是使得 Amdahl定律代替摩尔定律成为计算机性能发展源动力的根本原因,也是人类压榨计算机运算能力最有力的武器。Amdahl定律通过系统中 并行化与串行化…

MyBatis ---- MyBatis的高级查询功能

MyBatis ---- MyBatis的高级查询功能1. 查询一个实体类对象2. 查询一个list集合3. 查询单个数据4. 查询一条数据为map集合5. 查询多条数据为map集合方式一方式二1. 查询一个实体类对象 User getUserById(Param("id") int id);<!--User getUserById(Param("id…

Linux 内存虚实内存映射

Linux 内存虚实内存映射TOC 以前关于虚拟地址和物理地址的学习只是在书本上&#xff0c;今天在实际的开发板上实践了一下 代码&#xff1a; #include <linux/kernel.h> #include <linux/init.h> #include <linux/module.h> #include <linux/sched.h #i…

【Pandas数据处理100例】(九十一):Pandas读取txt文本文件

前言 大家好,我是阿光。 本专栏整理了《Pandas数据分析处理》,内包含了各种常见的数据处理,以及Pandas内置函数的使用方法,帮助我们快速便捷的处理表格数据。 正在更新中~ ✨ 🚨 我的项目环境: 平台:Windows10语言环境:python3.7编译器:PyCharmPandas版本:1.3.5N…

grid管理下的多实例配置不同监听端口

某现场有两个实例&#xff0c;且客户要求两个实例使用不同的端口&#xff0c;但是grid管理下的监听默认只能一个端口&#xff0c;可以通过以下方式解决 oracle下&#xff1a; srvctl add listener -l listener_cc -p 1522 -o $ORACLE_HOME srvctl add listener -l listener_…

[附源码]SSM计算机毕业设计学院竞赛管理信息系统JAVA

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

还不会使用 Vue-Router?请看过来

目录注明&#xff1a;路由的概念什么是路由和前端路由路由的分类配置Vue-router安装实例化router挂载配置路由一个路由匹配 多组件视图使用路由声明式路由导航 router-link编程式路由导航缓存路由组件 &#xff08;keep-alive&#xff09;注明&#xff1a; Vue-router 3.x的版本…

如何保持电机安全运行

介绍 电动机在电子系统中的使用已变得普遍。电机尺寸、控制和成本效率方面的创新使设计人员能够将电机添加到系 统中&#xff0c;从而创造新功能并扩展最终产品的功能。 随着电动机数量的急剧增加&#xff0c;对功率效率的担忧促使系统设计人员使用更高电压的电机并提高其设计…

Springboot毕业设计毕设作品,个人博客系统设计与实现

功能清单 【后台管理员功能】 系统设置&#xff1a;设置关于我们、联系我们、加入我们、法律声明 会员列表&#xff1a;查看所有注册会员信息&#xff0c;支持删除 广告管理&#xff1a;设置小程序首页轮播图广告和链接 留言列表&#xff1a;所有用户留言信息列表&#xff0c;支…

天图投资通过聆讯:资产管理规模247亿 投了小红书与奈雪

雷递网 雷建平 11月30日深圳市天图投资管理股份有限公司&#xff08;简称&#xff1a;“天图投资”&#xff09;日前通过聆讯&#xff0c;准备在港交所上市。天图投资被称为消费赛道狙击手&#xff0c;在深圳、北京、上海、香港四地设有办公室&#xff0c;投资案例包括飞鹤、周…

Python异常类

1.内建异常类的继承关系 2.常见异常汇总 异常名称 说明 ArithmeticError所有数值计算错误的基类AssertionError断言语句失败AttributeError对象没有这个属性BaseException所有异常的基类DeprecationWarning关于被弃用的特征的警告EnvironmentError操作系统错误的基类EO…

计算机组成原理-输入输出系统(持续更新中)

I/O系统基本概念 基本概念 I/O硬件 现代计算机的结构 “I/O”就是"输入/输出" IO设备就是可以将数据输入到计算机&#xff0c;或者可以接收计算机输出数据的外部设备。 常见的IO设备 主机如何与I/O设备进行交互&#xff1f; I/O接口&#xff1a;又称I/O控制器&…

11 【Express服务端渲染】

11 【Express服务端渲染】 1.Express脚手架的安装 安装Express脚手架有两种方式&#xff1a; 1.1 使用express-generator安装 使用命令行进入项目目录&#xff0c;依次执行&#xff1a; cnpm i -g express-generator可通过express -h查看命令行的指令含义 express -hUsag…

You Only Learn One Representation: Unified Network for Multiple Tasks

You Only Learn One Representation: Unified Network for Multiple Tasks一、引言&#xff08;一&#xff09;、 Explicit deep learning&#xff08;二&#xff09;、Implicit deep learning&#xff08;三&#xff09;、Knowledge modeling(四)、Kernel space alignment二、…

Python 算法:感受算法的小小魅力和复杂度的计算

一、小小算法的魅力 这是一个很普通的小例子&#xff0c;但是可以让我们领略到算法改进之后的强大魅力。 已知abc 1000&#xff0c;且a^2b^2c^2&#xff0c;求a、b、c的所有自然数解。 这个很简单&#xff0c;就是通过代码分别给a、b、c赋值&#xff0c;然后返回符合abc 10…

Kafka集群环境搭建及基本使用

前提条件 操作系统&#xff1a;CentOS7服务器&#xff1a;3台Java环境&#xff1a;JDK1.8。安装教程参考JDK1.8安装Zookeeper环境 搭建教程参考Zookeeper集群环境搭建及使用Kafka基础知识参考Kafka角色及功能概览 搭建步骤 下载 执行下载命令wget https://archive.apache.o…

使用SpringBoot实现RabbitMQ各个模式

实现了RabbitMQ各个模式&#xff08;simple、topic、direct、fanout及发送方确认和接收方确认&#xff09;的一个demo 源码&#xff1a;https://gitee.com/xunan29/study-rabbitmq-test-project 参考文章&#xff1a; https://blog.csdn.net/K_kzj_K/article/details/10664225…

[ Linux ] Linux信号概述 信号的产生

目录 0.问题引入&#xff1a; 0.1 将进程设置为后台进程 0.2 查看后台进程并将后台进程提至前台 0.3 将前台进程设置为后台进程 1.信号的概念 2.查看信号列表 3.信号处理的常见方式 4.信号的产生 4.1 用户层产生信号的方式 4.1.1通过终端按键产生信号 4.1.2调用系统函…

【数据集研究】PASCAL VOC 2007

目录1、数据集地址2、适用的比赛1&#xff09;Main Competitions2&#xff09;Taster Competitions3、类别及类别的定义1&#xff09;数据集包含的类别2&#xff09;类别的定义4、数据集1&#xff09;训练集、验证集、测试集2&#xff09;图片和待检测物在类别的分布详情5、标注…

Kamiya丨Kamiya艾美捷小鼠BDNF ELISA原理分析

Kamiya艾美捷小鼠BDNF ELISA预期用途&#xff1a; 小鼠BDNF ELISA用于定量测定小鼠细胞培养物上清液、细胞裂解物、细胞培养物中的BDNF&#xff0c; 血清和血浆&#xff08;肝素、EDTA、柠檬酸盐&#xff09;。仅供研究使用。 引言&#xff1a; 脑源性神经营养因子&#xff…