论文浅尝 | 基于交互模态融合的多模态知识图谱补全

news2024/12/23 11:54:29

df25d43fbec1cc0c0c8f0b0e16e142b3.png

笔记整理:张溢驰,浙江大学硕士,研究方向为多模态知识图谱

链接:https://arxiv.org/abs/2303.10816

动机

多模态知识图谱补全需要将多种模态的信息(如图像和文本)融入到实体的结构表示中,以此来实现更好的链接预测,但是已有的方法往往通过将所有模态投影到一个统一的空间中,具有相同的关系来捕捉共性,这可能无法保存每个模态中的特定信息。因此,他们无法有效地模拟模式之间的复杂互动,以捕捉模态之间的交互性,这就导致这些方法的性能受到了限制。

贡献

为了解决上面提到的这个问题,提出了一种新的交互式多模式融合模型(IMF),用于知识图上的多模式链接预测。IMF可以在每个模态中单独学习知识,并通过两阶段融合对不同模态之间的复杂交互进行联合建模。

在多模态融合阶段,作者采用双线性融合机制,通过对比学习充分捕捉多模态特征之间的复杂交互。对于基本的链接预测模型,作者将关系信息作为上下文,将三元组列为每个模态中的预测。在最终决策融合阶段,作者整合来自不同模态的预测,并利用互补信息进行最终预测。本文的贡献总结如下:

  • 作者提出了两个阶段性业务模型,即国际货币基金组织,它在整合不同模式的互补信息以进行链接预测方面发挥了作用。

  • 作者设计了一个有效的多模态融合模块,通过对比学习来捕捉双线性交互,从而对共性和互补性进行联合建模。

  • 作者在四个广泛使用的多模态链路预测数据集上进行了大量实验,证明了IMF的有效性和通用性。

方法

作者提出的方法的总体架构图如下图所示,该方法主要包括一个模态信息融合模块和一个决策融合模块(联合推理模块)。

87d3fb8c68c5f696ec217085e708f845.png

在模态信息融合模块,作者参考Tucker张量分解模型设计了一种模态融合机制,将通过不同的模态特征编码器得到的三个模态表示(分别称为结构表示、图像表示和文本表示)先分别投影到一个新的表示空间中,再通过张量点乘运算得到每个实体的多模态表示向量,这个过程可以表示为:

54295138fefb9f27c2d873aa7fb7044e.png

然后作者提出了对三个模态两两之间进行对比学习,让不同模态之间可以充分交互,并实现互信息的最大化,这个对比学习的过程可以表示为:

382583def20f217520fa8b04d8a9a048.png

同时,对于每个模态k,作者设计了一个上下文关系模型,利用关系投影矩阵将三元组的上下文信息引入实体的表示中,实体的表示通过关系投影矩阵投影得到上下文表示,并和所有的候选实体计算相似度,并使用交叉熵损失函数作为模型的训练目标,这个过程可以表示为:

527cd93f67551045bb8a790646753b3b.png

在决策融合阶段,作者将每个模态的预测损失函数通过一组可学习的参数进行加权求和,并加上了前面提到的对比学习损失,这个过程可以表示为:

01edca39036b5e8805781466b49442b9.png

在推理阶段,模型就会利用学习到的权重,对不同模态的分数进行加权求和,并进行最终的链接预测,这个过程可以表示为:

e8532dd4194373c8311f673b6a433bed.png

实验

实验部分,作者在DB15K,FB15K,YAGO15K和FB15K-237四个多模态知识图谱数据集上进行了实验,并和多项baseline模型(包含若干单模态模型和多模态模型)进行了对比,实验结果如下:

052765d0d9bd219c28123a2cbe675e3a.png

5db6dcb1e3cd70d7e1cf28cb10f03b90.png

从实验结果中可以看到,论文提出的方法相比于已有模型取得了巨大的进步,同时,作者通过消融实验表明,模态融合模块、决策融合模块以及对比学习模块都对模型最终的结果有着明显的提升,其中,模态融合模块给模型带来的增益是最明显的。

066a8c275f2b93df13bdd25f4c5be1be.png

此外,作者通过在不同的打分函数上使用作者提出的交互式模态特征融合,来验证该方法的通用性,这一部分的实验结果通过上面的条形统计图来展现。同时,作者做了一项很有意思的可视化,将多个球队中的多干名球员的四种模态表示投影到二维空间中,如下图所示:

be4e10c5d291e5f9895bf4bba3555131.png

从可视化结果中可以发现,融合之前,不同球员的结构表示、图像表示和文本表示的分布难以找出规律,而模态特征融合之后的多模态表示中,不同球队的球员的表示向量的分布呈现出一定的规律,同个球队内的球员的表示向量相互靠近,而不同球队的球员的表示向量相互远离,这表明,作者设计的模态融合与对比学习等模块确实起到了一定的作用。

总结

本文研究了多模态知识图谱上的链接预测问题。具体而言,作者旨在改善不同模式之间的交互。为了实现这一目标,作者建议国际货币基金组织采用两阶段框架,通过(i)利用双线性融合来充分捕捉不同模态之间的互补性,并通过对比学习来增强同一实体的不同模态之间更强的相关性,从而实现多模态信息的有效融合;以及(ii)采用集合损失函数来联合考虑多模态表示的预测。在几个基准数据集上的实验结果证明了我们提出的模型的有效性。此外,作者还进行了深入的探索,以说明提出的方法的通用性以及将其应用于实际应用的潜在机会。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

d45544a72810341ad520f59bbaea8f1f.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/459016.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenAI ChatGPT 能取代多少程序员的工作?导致失业吗?

阅读原文:https://bysocket.com/openai-chatgpt-vs-developer/ ChatGPT 能取代多少程序员的工作?导致我们程序员失业吗?这是一个很好的话题,我这里分享下: 一、ChatGPT 是什么?有什么作用 ChatGPT是一种…

操作系统课堂笔记

第一章概述 操作系统(Operating System, OS)是计算机系统中最重要的系统软件,它统一管理计算机系统的硬件资源与信息资源,控制与调度上层软件的执行并为其提供易于使用的接口。 1.1计算机系统 操作系统在计算机系统中的地位&…

Java学习-MySQL-索引

Java学习-MySQL-索引 索引分类 索引(Index)是帮助MySQL高效获取数据的数据结构。 1.主键索引(Primary Key),唯一标识,不可重复,并且只能有一个字段可以作为主键。 2.唯一索引(Uniq…

地热井监测控制系统解决方案

概述 地热井监测控制系统主要是对地热井采水和回灌进行流量、温度、水位(压力)等参数的实时监测,对地热站现场环境进行实时视频监控。地热井现场和取水井、回灌井安装监测装置,通过无线传输设备将数据实时传输至自然资源局已建中…

【Leetcode -141.环形链表 -2.两数相加】

Leetcode Leetcode -141.环形链表Leetcode -2.两数相加 Leetcode -141.环形链表 题目:给你一个链表的头节点 head ,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给…

第二届易派客工业品展圆满落幕 3天超7万人次观展

4月15日,第二届易派客工业品展览会在苏州国际博览中心成功闭幕,展会期间共7.4万人次观展。展会以“绿色•智造•融通•赋能”为主题,为参展企业衔接供需、共享商机、共促发展提供平台,推动工业企业数字化转型、致力供应链优化升级…

AntdesignVue 局部全屏后Message、Select 、Modal、Date等组件不显示问题解决方案(最终版)

1、对this.$message.....这种的消息提示组件解决方案如下 在main.js中全局配置消息提示 //单独引用需修改的元素 import { message } from ant-design-vue message.config({maxCount: 1,getContainer:() > document.getElementById(showBigModal) || document.body //父组件…

责任链设计模式知多少

目录 目标 概述 实现 单向设计模式 双向设计模式 目标 熟悉责任链设计模式,了解责任链设计模式的使用场景、具体实现,单链责任链设计模式和双链责任链设计模式的区别。 概述 一、行为设计模式 行为设计模式是设计模式的一种类型。该类型的设计模…

three.js车辆可视化教程-完整0到1

概述 如有不明白的可以加QQ:2354528292;wx: aichitudousien 更多教学视频请访问:https://space.bilibili.com/236087412 详细教学请到上方视频链接访问,总共3个多小时的教学~ Three.js车展系统 搭建开发环境 使用的开发框架是vu…

计算机程序安装及使用须知_kaic

安装及使用须知 1 数据库建模程序的使用 本文件夹中的“PowerDesigner建模”目录下包含三个可运行文件TMS1.cdm,TMS.cdm,TMS.pdm分别为TMS系统的实体关系简图、实体关系图和数据库模型,使用PowerDesigner集成开发环境打开任意一个文件即可运…

第二节 ogre sdk 配置使用

上一节,我们介绍过了ogre源码的编译学习,在实际项目中,我们并不需要如此复杂的编译安装过程,可以直接使用官网提供的sdk库进行项目环境配置。下面简单介绍下配置过程。 一 OgreSDK下载 https://dl.cloudsmith.io/public/ogrecav…

Know-Evolve: Deep Temporal Reasoning for Dynamic Knowledge Graphs

Know-Evolve: Deep Temporal Reasoning for Dynamic Knowledge Graphs Rakshit Trivedi 1 Hanjun Dai 1 Yichen Wang 1 Le Song 1 知识背景 Temporal Knowledge Graph : facts occur,recur or evolve over time in these graphs,and each edge in the graphs have temporal …

FPGA基于XDMA实现PCIE X8视频采集HDMI输出 提供工程源码和QT上位机程序和技术支持

目录 1、前言2、我已有的PCIE方案3、PCIE理论4、总体设计思路和方案5、vivado工程详解6、驱动安装7、QT上位机软件8、上板调试验证9、福利:工程代码的获取 1、前言 PCIE(PCI Express)采用了目前业内流行的点对点串行连接,比起 PC…

【翻译一下官方文档】之uniapp的数据缓存

uni.setStorage(OBJECT) setstorage | uni-app官网 uni.setStorage(OBJECT) 将数据存储在本地缓存中指定的 key 中,会覆盖掉原来该 key 对应的内容,这是一个异步接口。 参数名类型必填说明keyString是本地缓存中的指定的 keydataAny是需要存储的内容&am…

git workflow

git workflow 讲一下常用的 workflow,这个主要是根据自己个人工作经验,每个项目在实践上总会有些许的不同,求同存异。 单分支工作 最糟糕的 workflow 是所有人全都在 main/master 上干活,如果只是两三个人的 team 可能还能存活…

忆暖行动|“四方食事,不过人间一碗烟火”

四方食事,不过人间一碗烟火 外婆,如果要您选择一个乡村很有代表的食物,您会选择什么? 当然是米饭,人要吃饭,没有米饭就没有力气劳作,而且大米还能做很多美食,比如米饼,米糕&#x…

亚马逊测评有哪些误解?

亚马逊平台是全球性的互联网电商网络平台,成立至今,平台站点覆盖了全球多个国家,各个地区之间的商品交易也变得更加频繁,随着平台商家增多,为了提高自身排名,越来越多的商家开始找人为他们的店铺和产品进行…

Git比较好用的一些操作

git stash 可以缓存一些修改,不用做提交。例如当前分支做了修改,不想提交,有需要切换分支时候。 常用命令: git stash list:查看缓存列表 git stash list git stash save “备注信息”: 缓存当前分支所有修改 git …

快乐数链表篇

编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。 然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。 如果这个过程 结果为 1&#xff…

【数据库数据恢复】ORACLE常见数据灾难的数据恢复可能性分析

Oracle数据库常见数据灾难: 1、ORACLE数据库无法启动或无法正常运行。 2、ORACLE ASM存储破坏。 3、ORACLE数据库数据文件丢失。 4、ORACLE数据库数据文件损坏。 5、ORACLE DUMP文件损坏。 Oracle数据库常见数据灾难的数据恢复可能性分析: 1、O…