多模态推荐系统综述:一、特征交互 Bridge

news2024/9/21 3:31:06

一、特征交互

挑战1.如何融合不同语义空间中的模态特征并获得每种模态的偏好。GNN+注意力
挑战2.如何在数据稀疏的情况下获得推荐模型的全面表示。对比学习+解缠学习
挑战3. 如何优化轻量级推荐模型和参数化模态编码器。

1. Bridge

侧重于考虑多模态信息来捕获用户和项目之间的相互关系。
大多数早期作品只是简单地使用多模态内容来增强项目表达,但它们往往忽略了用户和项目之间的交互。

1.1 用户-相互二部图

利用用户和物品之间的信息交换,可以捕获用户对不同模式的偏好。因此,一些模型利用了用户-项目图。

MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video 2019

MMGCN为每种模态建立了一个用户-项目二分图。对于每个节点,可以利用相邻节点的拓扑结构和项目的模态信息来更新该节点的特征表达。
在这里插入图片描述

GRCN: Graph-Refined Convolutional Network for Multimedia Recommendation with Implicit Feedback 2021

通过在模型训练期间自适应修改图的结构来删除不正确的交互数据(用户点击了不感兴趣的视频)来提供建议。
在这里插入图片描述
在这里插入图片描述

该模型由三个组件组成:1)图细化层,通过识别和修剪交互图中的噪声边来调整图结构; 2)图卷积层,对精化图进行图卷积运算,以丰富项目和用户的嵌入; 3)预测层,用于推断每个用户和项目对的交互。

注:MMGCN、GRCN这些方法仍然存在局限性,因为使用统一的方式来融合不同模态的用户偏好,忽略了用户对不同模态的偏好程度的差异。换句话说,给每种模态赋予相同的权重可能会导致模型的性能不佳。为了解决这个问题,DualGNN、MMGCL、MGAT学习模态之间的相关性

DualGNN: Dual Graph Neural Network for Multimedia Recommendation 2021

DualGNN利用用户之间的相关性,基于二分图和用户共现图来学习用户偏好。
1)单模态表示学习模块,该模块对每种模态的用户微视频图执行图操作,以捕获不同模态的单模态用户偏好;2)多模态表示学习模块来显式建模用户对不同模态的注意力,并归纳学习多模态用户偏好。3)预测模块来对用户的潜在微视频进行排名。
在这里插入图片描述
在这里插入图片描述

我们提出的 DualGNN 的总体框架。它由单模态表示学习模块和多模态表示学习模块组成,单模态表示学习模块捕获每个模态用户微视频二部图上的单模态用户偏好,多模态表示学习模块显式建模用户对不同模态的品味并归纳学习多模态用户偏好,预测模块估计用户对目标微视频的偏好。
* DualGNN在MMGCN基础上,多了层对用户多模态表示的学习

MMGCL: Multi-modal Graph Contrastive Learning for Micro-video Recommendation 2022

MMGCL设计了一种新的多模态图对比学习方法来解决这个问题。 MMGCL 使用模态边缘损失和模态掩蔽来生成用户-项目图,并引入一种新颖的负采样技术来学习模态之间的相关性。
在这里插入图片描述

MGAT: Multimodal Graph Attention Network for Recommendation 2020

MGAT引入了基于MMGCN的注意力机制,有利于自适应地捕获用户对不同模态的偏好。此外,MGAT利用门控注意力机制来判断用户对不同模态的偏好,可以捕获隐藏在用户行为中的相对复杂的交互模式。
在这里插入图片描述

1)嵌入层,初始化用户和项目的ID嵌入;2)在单模态交互图上嵌入传播层,执行消息传递机制来捕获用户对各个模态的偏好;3)跨多模态交互图的门控注意力聚合,它利用与其他模态的相关性来学习每个邻居的权重以指导传播;4)预测层,根据最终表示估计交互的可能性。

1.2 项目-项目图。

注:使用item-item结构有利于更好地学习item表示,LATTICE、 MICRO。

LATTICE: Mining Latent Structures for Multimedia Recommendation 2021

多模态内容背后潜在的语义项目-项目结构可能有利于学习更好的项目表示并进一步促进推荐。
LATTICE设计了一种模态感知结构学习层,该层学习每种模态的项-项结构并聚合多个模态以获得潜在项图。基于学习到的潜在图,执行图卷积以显式地将高阶项目亲和力注入项目表示中。然后可以将这些丰富的项目表示插入现有的协同过滤方法中,以做出更准确的推荐。
数据集:Clothing, Sports,Baby
在这里插入图片描述
在这里插入图片描述

MICRO: Latent Structure Mining with Contrastive Modality Fusion for Multimedia Recommendation 2022

1)一种新颖的模态感知结构学习层,以从多模态特征中挖掘模态感知的潜在项目-项目语义关系;2)其次,我们在学习到的模态感知图上采用图卷积来分别显式地建模每种模态的项目关系;3)设计了一种新颖的对比多模态融合框架,以迫使融合的多模态表示以自我监督的方式自适应地捕获多种模态之间共享的项目关系。最后,生成的项目表示形式会融入多种模式的项目关系,这些关系将被添加到 CF 模型的输出项目嵌入中以进行推荐。对比损失和推荐(BPR)损失将一起优化。
数据集:Clothing, Sports,Baby
在这里插入图片描述

注:HCGCN考虑到各个特定用户群体之间偏好的差异。

HCGCN: Learning Hybrid Behavior Patterns for Multimedia Recommendation 2022

HCGCN提出了一种聚类图卷积网络,它首先对项目-项目和用户-项目图进行分组,然后学习隐藏在图结构中的不同用户行为模式来预测用户偏好。
在这里插入图片描述

图1(a) 通过对相似的物品进行聚类,描绘了与其他衣服相比,女性更喜欢裙子。图1(b),运动员在线购物的原因可能与艺术家不同。

在这里插入图片描述

1)首先对项目进行聚类并构建项目-项目图来学习多模式项目特征。2)然后,在用户项目子图上本地学习用户偏好,并通过动态图聚类在全局范围内相互通信。此外,项目集成多模态特征和用户被联合用于计算偏好排名。3)最后,设计的共聚类排名损失和项目聚类约束损失可以促进用户-项目和项目-项目图上包含的用户模式的优化。
数据集:Clothing, Sports,Baby

注:受最近预训练模型成功的启发,PMGT 、BGCN。

PMGT: Pre-training Graph Transformer with Multimodal Side Information for Recommendation 2021

PMGT 参考 Bert 的结构提出了一种预训练图转换器,并以多模态形式提供了项目关系及其相关辅助信息的统一视图。
两个商品之间的优势由共同购买的数量来衡量。
在这里插入图片描述
在这里插入图片描述

(a) PMGT 框架,包含四个组件(从左到右所示):上下文邻居采样、节点嵌入初始化、基于 Transformer 的图编码器、图重建。最后一步中的GSR和NFR分别表示图结构重建任务和屏蔽节点特征重建任务。
(b) 节点嵌入初始化:通过考虑节点的多模态特征、位置 ID 嵌入和角色标签嵌入来初始化节点嵌入。
数据集:VG, TG, THI, ML

BGCN: Bundle Recommendation with Graph Convolutional Networks 2020

BGCN作为捆绑推荐中的模型,将用户-项目交互、用户-捆绑交互和捆绑-项目隶属关系统一到异构图中,使用图卷积来提取精细增益的未来。

数据集:Netease, Youshu

注:对比学习

CrossCBR: Cross-view Contrastive Learning for Bundle Recommendation 2023

Cross-CBR构建用户捆绑图、用户项目图和项目捆绑图,使用对比学习将它们从捆绑包和项目视图中对齐。

顶部:U-B、U-I 和 B-I 图中显示的捆绑包和项目视图。底部:我们的工作对视图之间的协作关联进行建模,其中上标 B 和 I 表示捆绑包和项目视图,下标 u、b 和 i 代表用户、捆绑包和项目。

CrossCBR的整体框架由两部分组成:(1)用户和捆绑包两个视图的表示学习;(2)BPR损失LBPR和对比损失LC的联合优化。
数据集:Youshu, NetEase, iFashion

1.3 知识图谱

MKGAT: Multi-modal Knowledge Graphs for Recommender Systems 2020

MKGAT是第一个将知识图引入多模态推荐的模型。 MKGAT提出了一种多模态图注意力技术,分别从实体信息聚合和实体关系推理两个方面对多模态知识图进行建模。此外,采用新颖的图注意网络来聚合相邻实体,同时考虑知识图中的关系。

SI-MKR: An Enhanced Multi-Modal Recommendation Based on Alternate Training With Knowledge Graph Representation

SI-MKR提出了一种基于交替训练和基于MKR的知识图表示的增强型多模态推荐方法。此外,大多数多模态推荐系统都忽略了数据类型多样性的问题。 SI-MKR通过添加知识图谱中的用户和物品属性信息来解决这个问题。

MMKGV: Multi-modal Graph Attention Network for Video Recommendation 2022

MMKGV采用图注意力网络在知识图上进行信息传播和信息聚合,结合多模态信息并利用知识图的三元组推理关系。

整个模型由嵌入层、注意层、预测层三个关键层组成。在知识图嵌入模块和推荐模块中同时使用了嵌入层和注意层。
嵌入层使用不同的预训练模型对每个选定的多模态数据进行训练,并在训练后得到初始向量。注意层将每个实体的邻居实体的信息聚合到每个实体本身中,从而学习一个新的实体向量表示。然后预测层输出预测函数,表示预测用户u采用第i项的概率。

CMCKG: Cross-modal Knowledge Graph Contrastive Learning for Machine Learning Method Recommendation 2022

描述性属性和结构连接之间的区别。

CMCKG将来自描述性属性和结构连接的信息视为两种模式,并通过最大化这两种视图之间的一致性来学习节点表示。

参考文献

Multimodal Recommender Systems: A Survey

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1366071.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Camtasia2024中文绿色版本下载安装详细步骤教程

Camtasia2024是一款功能强大的屏幕录制和视频编辑软件。它可以帮助用户轻松地记录电脑屏幕上的任何操作,并可以将录制的视频进行编辑和制作成高质量的视频教程、演示文稿、培训课程等。 Camtasia具有直观的界面和易于使用的工具,包括添加文本、音频、动…

深度学习|4.7 参数和超参数

4.7 参数和超参数 超参数是指需要用户提前设置好的参数,这些超参数最终会影响到参数的数值(相当于参数是动态调整得到的) 学习率的选取 最优学习率应该能使得代价函数趋于一个较低的常数。

【金猿CIO展】是石科技CIO侯建业:算力产业赋能,促进数字经济建设

‍ 侯建业 本文由是石科技CIO侯建业撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度优秀CIO榜单及奖项”评选。 大数据产业创新服务媒体 ——聚焦数据 改变商业 是石科技(江苏)有限公司成立于2021年,由国家超级计算无锡中心与…

信息系统安全——基于 KALI 和 Metasploit 的渗透测试

实验 2 基于 KALI 和 Metasploit 的渗透测试 2.1 实验名称 《基于 KALI 和 Metasploit 的渗透测试》 2.2 实验目的 1 、熟悉渗透测试方法 2 、熟悉渗透测试工具 Kali 及 Metasploit 的使用 2.3 实验步骤及内容 1 、安装 Kali 系统 2 、选择 Kali 中 1-2 种攻击工具&#xff0c…

x-cmd pkg | usql - SQL 数据库的通用交互界面

目录 简介首次用户功能特点竞品和相关作品进一步阅读 简介 “usql” 是一个基于命令行的数据库客户端工具,它允许用户连接和管理多种类型的数据库。usql可以在多个操作系统上运行,包括 Linux、macOS 和 Windows。它还具有插件系统,可以根据需…

一文读懂「Self Attention」自注意力机制

前言:Self-Attention是 Transformer 的重点,因此需要详细了解一下 Self-Attention 的内部逻辑。 一、什么是自注意力机制? 就上图为例,老实告诉我当你第一眼看到上图时,你的视线停留在哪个位置?对于我这种…

鸿蒙开发之如何查看界面层级

首先,需要是在真机或模拟器已经是run的状态。 然后点击deveco studio 的 tools工具栏的ArkUl Inspector 然后界面下面显示出层级显示卡,但还看不到 然后选择一下进程please select a process 就能显示了

【Android Studio】创建第一个APP工程及生成APK安装包

🌟博主领域:嵌入式领域&人工智能&软件开发 前言:本文详细介绍创建Android Studio第一个APP工程及打包生成APK安装包。 如下两个博客我记录了第一次创建项目时出现的问题,若你也遇见了同样的问题,可参考&#…

vue简体繁体互转无需做字库

第一种方法 vue-i18n 需要自己写字库库很麻烦,而且不支持后端传值 第二种 opencc 这个库前端去使用的时候 数据较多的情况非常慢.影响使用 第三种 language-hk-loader npm i language-hk-loader 从其他博客中看到的一种,很方便不需要写字库,但是在打包的时候去整体的去翻译…

基于深度学习的停车位关键点检测系统(代码+原理)

摘要: DMPR-PS是一种基于深度学习的停车位检测系统,旨在实时监测和识别停车场中的停车位。该系统利用图像处理和分析技术,通过摄像头获取停车场的实时图像,并自动检测停车位的位置和状态。本文详细介绍了DMPR-PS系统的算法原理、…

【Scala】——变量数据类型运算符

1. 概述 1.1 Scala 和 Java 关系 1.2 scala特点 Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言(静态语言需要提前编译的如:Java、c、c等,动态语言如&#…

vue3 响应式api中特殊的api

系列文章目录 TypeScript 从入门到进阶专栏 文章目录 系列文章目录一、shallowRef()二、triggerRef()三、customRef()四、shallowReactive()五、shallowReadonly()六、toRaw()七、markRaw()八、effectScope()九、getCurrentScope() 一、shallowRef() shallowRef()是一个新的响…

我是内网灵活的狗之渗透之红日靶场 stack之用户域渗透

接上回 我们现在准备对域内的用户靶机进行一下扫描 因为对所有的端口进行扫描的话 会导致扫描时间过长 我们这里只对部分重要端口进行扫描 看见445端接口开着,所以我们尝试连接445 的漏洞 用永恒之蓝漏洞连接后,尝试用这个漏洞,添加新的用…

代码随想录day22 二叉树开始进入无固定方法阶段

235. 二叉搜索树的最近公共祖先 题目 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 p、q 的祖先且 x 的深度尽可…

小程序实现绘制图片 保存到手机

HTML <template><view><canvas canvas-id"myCanvas" :style"{height:380px,width:wWidthpx,background:#FFFFFF}"></canvas><view class"textCenter"><button click"saveCanvas">保存图片</b…

Python从入门到网络爬虫(读写Excel详解)

前言 Python操作Excel的模块有很多&#xff0c;并且各有优劣&#xff0c;不同模块支持的操作和文件类型也有不同。最常用的Excel处理库有xlrd、xlwt、xlutils、xlwings、openpyxl、pandas&#xff0c;下面是各个模块的支持情况&#xff1a; 工具名称.xls.xlsx获取文件内容写入…

led恒流式驱动电源芯片一览表

LED恒流式驱动电源芯片是一种用于驱动LED灯的关键组件。它能够稳定地提供恒定的电流&#xff0c;确保LED灯的亮度和颜色始终保持一致。 LED恒流式驱动电源芯片通常由电源管理单元、恒流输出部分和保护电路组成。电源管理单元负责转换输入电压为恒定的直流电压&#xff0c;并通…

我是内网灵活的狗之stack靶场1

首先我们还是老样子 我们先启动这个在win7上面的php工具&#xff0c;也就是启动php服务 然后我们启动kali攻击机 然后打开webshell工具 然后我们先打开MSF工具进行监听 启动msf工具进行监听 12345端口 然后在文件中打开虚拟终端&#xff0c;连接到目标机器内部 start 620.exe…

SpikingJelly笔记之泊松编码

文章目录 前言一、泊松编码的原理二、生成符合泊松分布的脉冲序列三、SpikingJelly中的泊松编码四、Lena图像的泊松编码与还原1.原始图像2.图像编码3.图像还原 总结 前言 记录SpikingJelly中泊松编码的使用方法&#xff0c;对图像数据进行编码与还原 一、泊松编码的原理 基于…

AI-数学-初中-1.1二次函数图像及顶点式

一元二次方程ax^2bxc0&#xff08;a≠0&#xff09;的根的判别式是b^2-4ac&#xff0c;用“Δ”表示(读做“delta”) 实数根就是指方程式的解为实数&#xff0c;实数根也经常被叫为实根。 判别式Δb^2-4ac 若Δb^2-4ac&#xff1c;0,二次方程无实数根 若Δb^2-4ac0,二次方程有…