Multi‐modal knowledge graph inference via media convergenceand logic rule

news2024/11/28 9:50:47

摘要

媒体融合通过处理来自不同模式的信息并将其应用于不同的领域来实现。传统的知识图很难利用多媒体特征,因为从其他模态引入大量信息降低了表示学习的有效性,并降低了知识图推理的有效性。为了解决这一问题,提出了一种基于媒体融合和规则引导联合推理模型(MCRJI)的推理方法。作者不仅融合了实体的多媒体特征,而且引入了逻辑规则来提高链路预测的准确性和可解释性。首先,采用多头自注意方法获取实体在语义合成过程中对不同媒介特征的注意。其次,从知识图谱中挖掘不同长度的逻辑规则,学习新的实体表示;最后,基于融合多媒体特征的表示实体进行知识图推理。大量实验结果表明,MCRJI在使用多媒体特征和知识图推理方面优于其他先进的基线,表明MCRJI为融合多媒体特征的知识图推理提供了一种优秀的方法。

1.引言

媒介融合可以利用事物的多媒体特性,为人们提供更丰富的信息。随着多媒体技术的发展,媒体融合的研究正在积极开展。知识是在不同的收敛领域形成的[1]。多媒体信息本质上是指通过各种媒体上的文本、图像和视频提供的多模态信息。利用各种媒体的多模态特征来预测社会事件的进程或某个人的情感倾向的倾向也越来越多。针对这一任务,具有多模态信息的多模态知识图(MKGs)引起了人们的广泛关注。

传统的KG可以以三元组的形式清楚地显示现实世界中实体之间的关系,但它们的模态是单一的,不能完全覆盖现实世界的知识。MKG的概念已被提出,如图1所示,其中MKG将各种媒体的多模态信息链接到相应的实体上,并在一定程度上解决了这一问题。然而,实际上,每个实体对不同媒体的信息给予的关注是非常不同的,因此简单地将媒体特征包含在知识图中并不能保证它们得到有效的利用。目前,大多数结合多媒体功能的kg都没有考虑到这一点。这只是增加了知识图谱的多媒体特征,而没有充分利用多媒体信息。此外,作为目前主要的知识图推理方法之一,基于表示学习的推理可以将知识图中的实体和关系映射到低维空间,从而获得相应的向量。一些表征学习方法,如TransH[2]和TransR[3],可以在很大程度上解决一对多和多对多问题。然而,当将这些方法应用于MKG推理时,这些问题显着放大。多模态知识图引入了大量其他模态特征(例如图片和文本描述),导致知识图的复杂性显著增加。因此,降低了现有表示模型的效率和推理结果的准确性。

多模态知识图增加了知识图谱的复杂性,但不能弥补传统知识图谱的信息局限性,在传统知识图谱表示学习中,向量只能表示不同实体之间的语义关系。但事实上,新事实的发现往往依赖于事物本身的特征,比如图像、文字描述等。因此,KG中的多媒体信息可以提高推理的准确性和有效性[4]。这些多媒体特征的引入丰富了实体的信息,提高了链路预测任务的效率,但并没有使实体的信息具有可解释性。

多头自注意是用来解决不能充分利用多媒体特征的问题,以及多媒体特征引入对表示模型的影响。此外,一些传统的KG表示学习方法只考虑单个三元组。kg中的路径总是在提供实体之间的额外关系方面发挥重要作用[5]。考虑到对逻辑规则附加语义信息的准确性和可解释性加以利用,将大大提高模型的有效性。图2展示了一个应用于表示学习的逻辑规则示例;规则R2 (x, BornInCounty, z)∧(y, CountryLanguage, z)→(x,PersonSpokenLanguage, y)和规则R1 (x, PersonMotherTongue, y)→(x,PersonSpokenLanguage, y)可用于迭代地将路径组成一个三元组(Freddy Rodriguez, PersonSpokenLanguage, American English)。

  1. 本文提出了媒体融合和规则引导联合推理(MCRJI)模型。通过多头自我注意学习个体对不同媒体特征的关注程度,从而将不同的媒体信息组合起来。此外,在语义层利用逻辑规则组合路径和关联关系进行表征学习。最后,利用融合多媒体特征信息的实体嵌入进行链接预测,充分利用实体的不同媒体特征。在这项工作中,我们的主要贡献可以概括如下:据我们所知,这是第一次尝试将媒体融合与MKG推理的逻辑规则结合起来,增加了可用信息,同时提高了推理的可解释性。
  2. 我们提出的MCRJI模型充分考虑了多媒体特性。它使用多头自注意来收敛实体的不同媒体特征,并将它们添加到它们的向量表示中。最后,在逻辑规则的指导下,根据新的实体表示进行推理。也就是说,我们充分利用了不同媒体的特点和逻辑规则,从而提高了链接预测的效率和可解释性。
  3. 我们对MKG的链路预测进行了大量的实验,MCRJI模型取得了良好的性能。各种规则置信度的影响表明,模型中考虑的规则置信度如何确保规则和多媒体特征的有效使用。此外,我们的模型对各种置信水平都具有良好的鲁棒性。

 2.相关工作

2.1 多媒体信息融合

由于科技的进步,人们每天接触到的信息种类越来越多。媒体融合也越来越受欢迎。多媒体信息融合使机器能够充分利用多模态信息,类似于人类如何利用视觉、听觉、嗅觉和触觉等相同的多感官信息来感知世界。在多模态信息融合领域,近年来提出了许多模型来预测信息,扩大信息范围,提高结果的准确性和模型的鲁棒性。例如,Moon等人[6]使用卷积神经网络[7]和长短期记忆[8]从图像和文本中提取特征。然后,使用简单的注意力融合多模态信息,利用多模态信息消除命名实体的歧义。Yan等[9]提出了一种基于对象关系图和多模态特征收敛的视频字幕框架,该框架使用多模态特征收敛网络将不同模态的特征组合在一起。

随着多模态信息的深入应用,Aljunid等[10]提出了一种用于协同过滤推荐系统的多模型深度学习方法。Sun等[11]为了提高推荐系统的推荐效率,提出了MKG注意网络(MKGAT)。MKG关注网络包括MKG嵌入和推荐模块,其中MKG嵌入模块使用实体编码器和关注层来学习每个实体的新表示。在MKG中,针对多模态信息的收敛,提出了添加和连接聚合方法。因此,新实体可以在保留其信息的同时融合附近实体的信息。这种收敛的模态实体可以用来表示知识推理关系。然而,该模型在引入大量其他模态信息的同时,进一步增加了KG复杂度,降低了表示学习的效率。

为了对来自不同模态的信息给予不同的关注,Wang等[4]提出了通过多头自我注意(MKGRL - MS)模型融合多模态信息的多模态知识图表示学习。图像和文本模式的特征使用ResNet和RoBERTa‐www‐ext进行编码。特别地,使用多头自注意来获得不同模态特征的注意,从而得到一个新的实体表示,它是实体表示和实体的多模态特征表示的总和。

然而,上述模型只是通过多媒体特征来丰富实体的信息。表征学习中只考虑单个三元组的事实并不能使基于多媒体信息的预测任务具有可解释性。

2.2 Rule employment for knowledge graphs

逻辑规则包含丰富的语义信息,具有可解释性。如果我们想要在KG推理中应用逻辑规则,我们必须首先为KG定义一个规则集,并使用它来推断KG中已经存在的事实。然而,在处理结构更复杂的KG时,这种方法中使用的规则集通常是不完整的,不同的规则总是推断出一些完全矛盾的结论。因此,人们提出了几种从KGs中发现规则的方法,包括AMIE[12]、AMIE+[13]、RLvLR[14]和CARL[15]。Richardson和Domingos[16]将马尔可夫随机场网络与一阶逻辑相结合,提出了一种马尔可夫逻辑网络。它通过为规则分配可学习的权重来实现不确定性推理。无巧的是,贝叶斯逻辑编程[17]使用贝叶斯网络来演示逻辑规则。此外,它们通过发现这些变量之间的概率关系来实现推理。

这些方法的推理结果通常是可以解释的。然而,当KG结构庞大且复杂时,这些技术的效率较低。更重要的是,规则的敏感性导致经常无法推断缺失的有效三元组。

Minervini等[18]在关系嵌入上施加等价约束和逆约束,以提高KG推理的效率和准确性,但这种方法只考虑关系之间的两个约束,而不是一般规则,因此不具有通用性。Guo等人在KALE[19]中从t -范数中得到逻辑规则,并将这些规则转化为由三元组构成的复杂方程。然而,将逻辑规则转化为复杂方程时,降低了逻辑规则的可解释性和准确性。

2.3 Knowledge graph inference

2.3.1 Conventional knowledge graphs inference

知识推理是从图中已知的事实或关系中推断出未知事实或关系的过程。KG中有三种主要的推理形式:基于表示学习、基于神经网络和基于规则的推理。此外,还有一种混合推理方法,顾名思义,它将多种推理方法结合在一起,优势互补。在这些方法中,基于表示学习的推理和混合推理因其有效性而受到广泛关注。

基于表示学习的推理在不指示推理步骤的情况下自动捕获推理所需的特征,因此这种方法不可解释。TransE[20]在表示学习中被广泛使用,被认为是KG表示学习的基准。假设尾实体与头实体嵌入之间的距离大致等于关系嵌入的距离。然而,TransE不能准确地表示KG中的复杂关系,例如“一对多”和“多对一”。为了解决这一问题,人们还提出了一系列更高级的模型,如TransH[2]、TransR[3]、TransD[21]和TransG[22]。TransH[2]是第一个将实体表示投影到特定关系的超平面上的方法。TransR[3]通过投影矩阵引入了特定关系的空间。然后在空间上计算距离。TransD[21]做了更多的改进。它通过两个向量动态生成投影矩阵,从而提高了效率。TransG[22]也通过引入高斯分布来考虑不确定性。这些方法非常高效且可扩展,但由于损失函数简单,学习结果不理想[23]。

KG中的逻辑规则包含了丰富的信息,可以极大地提高表征学习的有效性。因此,近年来,已经引入了几种规则增强混合方法,可以解决基于规则和基于表示学习方法的缺点。例如,Guo等人[24]提出了规则引导的嵌入方法,该方法迭代地对知识图中三元组的观察进行建模。

同样,Zhang等人[25]提出了一种通过表示学习、方程归纳和注入的迭代嵌入方法。然而,这些模型需要使用近似嵌入结果的方法[22]或t -范数模糊逻辑[26]方法。因此,这些方法不适合用于具有复杂结构的大型kg。为了解决这些问题,Niu等[5]提出了一种规则与路径联合嵌入模型(RPJE),该模型充分利用逻辑规则来增强表征学习的有效性和可解释性。具体来说,从KG中挖掘的逻辑规则首先被编码为路径规则。然后使用编码规则组合路径,并执行表示学习以确保逻辑规则具有良好的可解释性。Tang等[27]提出RULE模型,将预先训练好的逻辑规则信息嵌入到向量空间中,提高KG嵌入的可靠性。此外,RULE通过学习规则的置信度分数和控制它们的权重来改进推理过程。

2.3.2 Multi‐modal knowledge graphs inference

目前,大多数MKG推理方法在学习实体和关系的表示时使用多模态知识。多模态知识图推理模型主要包括基于翻译的模型和基于神经网络的模型。基于翻译的模型在传统翻译模型的基础上引入多模态信息,实现基于表示学习的知识推理。Xie等[28]提出了考虑实体视觉信息的图像具身知识表示学习模型,首次将图像和KG结合起来进行知识图表示学习。Hatem等[29]提出了一种翻译模型,该模型将知识图的评分函数定义为结构知识、视觉知识和文本知识三个评分函数的总和。Wang等人[30]提出了TransAE,它结合了自编码器和TransE来学习MKG表示以进行知识推理。Lu等人[31]提出了多模态知识图表示学习模型,该模型引入了一种多模态知识对齐方案来关联和合并多模态知识,并使用对抗训练策略来增强其鲁棒性。Ning等[32]提出了PDRL模型,将知识图中的关系路径与实体描述信息相结合,提高了模型性能。

基础神经网络的MKG推理模型是基于神经网络作为知识图推理的评分函数。Zhang等[33]提出了一种用于医学知识图表示学习的多模态多关系特征聚合网络。对于实体的多模态内容,使用对抗特征学习模型通过将实体的文本和图像信息映射到相同的向量空间来学习多模态实体的公共表示。Tang等人[34]提出了一种多源知识图表示学习模型MKRL,该模型利用了KG的结构知识和层次类型、文本关系和实体描述的多模态知识。

3.方法

本节详细介绍我们提出的MCRJI模型,如图3所示。媒体融合和规则引导联合推理模型包括四个主要的子模块:多媒体特征矩阵编码、基于多头自注意的媒体融合、用于表征学习的规则运用和基于表征学习的具有多媒体特征的KG推理。左上部分为多媒体特征矩阵编码,左下部分为基于多头自注意的媒体收敛,右上部分为表征学习的规则运用,右下部分为基于表征学习的具有多媒体特征的KG推理。这四个子模块将在续集中详细介绍。

5.结论

在本文中,我们提出了一种新的模型,该模型使用媒体聚合技术来组合实体的不同模态信息,并通过引入逻辑规则来学习新的实体表示。通过链接预测实验,我们证明了多媒体特征和逻辑规则的引入对于提高多数据集知识图推理任务的准确性和可解释性是非常重要的。

在未来,MCRJI可以应用于多媒体通信预测。同时,我们将测试这些规则是否可以直接应用于其他优越的媒体融合方法,并引入一些其他可以优化规则的机制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2235576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大模型应用编排工具Dify二开之工具和模型页面改造

1.前言 简要介绍下 dify: ​ 一款可以对接市面上主流大模型的任务编排工具,可以通过拖拽形式进行编排形成解决某些业务场景的大模型应用。 背景信息: ​ 环境:dify-0.8.3、docker-21 ​ 最近笔者在做 dify的私有化部署和二次…

【数学】通用三阶矩阵特征向量的快速求法 超简单!!!

目录 三个定理1、3个特征值(即根互不相等)例题实践2、2个特征值(即有一个双重根)3、1个特征值(即有一个三重根)定理证明 三个定理 本定理适用于 所有三阶矩阵 的特征向量求法! 1、3个特征值&…

MapReduce 的 Shuffle 过程

MapReduce 的 Shuffle 过程指的是 MapTask 的后半程,以及ReduceTask的前半程,共同组成的。 从 MapTask 中的 map 方法结束,到 ReduceTask 中的 reduce 方法开始,这个中间的部分就是Shuffle。是MapReduce的核心,心脏。 …

【WebRTC】视频采集模块中各个类的简单分析

目录 1.视频采集模块中的类1.1 视频采集基础模块(VideoCaptureModule)1.2 视频采集工厂类(VideoCaptureFactory)1.3 设备信息的实现(DeviceInfoImpl)1.4 视频采集的实现(VideoCaptureImpl&#…

江协科技STM32学习- P40 硬件SPI读写W25Q64

🚀write in front🚀 🔎大家好,我是黄桃罐头,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝​…

智慧场馆:安全、节能与智能化管理的未来

在当今社会,智慧场馆已经成为了现代场馆建设的一种重要模式。通过整合先进技术和智能系统,智慧场馆致力于提供全方位的解决方案,以实现场馆的安全性、节能性和智能化管理。本文将深入探讨智慧场馆如何实现安全、节能和全面智能化,…

Facebook与人工智能:推动社交媒体发展的新动力

在数字化时代的浪潮中,社交媒体已成为人们日常生活不可或缺的一部分。作为全球最大的社交平台之一,Facebook凭借其庞大的用户基础和先进的技术,正积极探索与人工智能(AI)的结合,以推动社交媒体的不断发展。…

【论文复现】自动化细胞核分割与特征分析

本文所涉及所有资源均在这里可获取。 作者主页: 七七的个人主页 文章收录专栏: 论文复现 欢迎大家点赞 👍 收藏 ⭐ 加关注哦!💖💖 自动化细胞核分割与特征分析 引言效果展示HoverNet概述HoverNet原理分析整…

阿里云文本内容安全处理

1、什么是内容安全 内容安全是一款基于AI算法和云计算技术,对多媒体内容的不宜或违规内容提供识别和标注的产品。该产品,支持对各行业及业务场景下的图片、视频、文本、语音等对象进行检测,可以帮助您提高内容审核效率、提高平台内容质量和用…

双指针算法习题解答

1.移动零 题目链接:283. 移动零 - 力扣(LeetCode) 题目解析:该题要求将数组中为0的元素全部转移到数组的末尾,同时不能改变非零元素的相对位置。 解题思路:我们可以用变量dest和cur将该数组分为三个区域。…

idea、pycharm等软件的文件名红色怎么变绿色

1.问题 有时候在写完代码打算提交的时候,会遇到某个资源文件不是绿色的,不能提交 2.解决方法 右键该文件——git——添加即可 3.不同颜色含义 3.1 蓝色(Blue) 含义:文件被修改了但尚未保存。蓝色通常表示文件自上…

Python进阶之IO操作

文章目录 一、文件的读取二、文件内容的写入三、之操作文件夹四、StringIO与BytesIO 一、文件的读取 在python里面,可以使用open函数来打开文件,具体语法如下: open(filename, mode)filename:文件名,一般包括该文件所…

ECharts折线图背景渐变设置

目录 引入 1.在一个HTML文件中编写两个图表 2.渐变背景 引入 如何在一个HTML文件中编写两个图表:(这个例子基于这个篇文章的基础)一篇搞懂前端获取数据-CSDN博客 一个例子: 1.在一个HTML文件中编写两个图表 重点在于名字的不重…

基于SpringBoot的“乐校园二手书交易管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“乐校园二手书交易管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统首页界面图 用户注册界面图 二手…

CSS弹性布局:灵活布局的终极指南

在网页设计中,CSS 弹性布局(Flexbox)是一个不可或缺的工具。它能帮助你轻松地排列和对齐元素,尤其是在响应式设计中表现出色。今天,我们就来深入探讨一下 Flexbox 的各个属性,让你彻底掌握这个强大的布局工…

OpenJDK Vendor下载选择

首先JDK可以通过idea进行安装 File➡️Project Structure➡️SDK➡️Add SDK➡️Download JDK 然后在JDK版本选择时,Idea提供了很多版本,让我茫然了 OpenJDK国外厂商 供应商 说明 Amazon Corretto 亚马逊云基于OpenJDK构建,收费 Eclipse…

SAP-ABAP开发-ONLINE 程序、DIALOG屏幕开发

目录 一、Online 程序概览 1、程序类型 2、Online程序的主要对象 二、界面 1、SAP的屏幕开发 2、屏幕功能实现 3、界面中的事件块(Event Block) 4、界面的创建 三、简单界面元素 1、文本/输入框控件 2、数据检查 3、一些常用的关键字 四、复…

基于vue框架的的留守儿童帮扶系统143b5(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:留守儿童,帮扶活动,申请记录,帮扶机构,帮扶进度,帮扶人,申请加入记录,参与帮扶记录 开题报告内容 基于Vue框架的留守儿童帮扶系统开题报告 一、研究背景与意义 随着城乡经济差异的不断扩大,大量农村劳动力涌向城市寻求更好…

xftp连接中不成功 + sudo vim 修改sshd_config不成功的解决方法

我们使用sudo vim不成功,但是我们使用sudo su就可以 了! root用户权利更大! 喵的,终于成功了,一个xftp连接半天不成功。(添加上面的内容就可以连接成功了↑)

这款Chrome 插件,使浏览器页面快速滑动到最底部和最顶部,并且还能...

前言 前几日我在使用谷歌浏览器,也就是chrome的时候,浏览一个内容很长的页面,由于页面上的内容有前后关联,所以我必须不停地切换到上面和下面。这非常不方便。使我非常抓狂。后来,我灵机一动,去谷歌浏览器…