【MMMLP】核心方法解读

news2024/11/23 12:46:49

此方法用于顺序推荐,和我的研究方向不一样,所以这里只探讨值得借鉴的部分 

abstract:

现有的顺序推荐方法要么不能直接处理多模态,要么计算量大。为了解决这个问题,我们提出了一种新的多模态多层感知器(MMMLP),用于维护多模态序列以进行顺序推荐。MMMLP是一种纯粹基于mlp的架构,由三个模块组成:Feature Mixer Layer, Fusion Mixer Layer和Prediction Layer,并且在效率和效率方面都有优势。

methods:

在本文中,我们提出了一个基于MLP的多模态推荐框架,即MMMLP,可以显式地从各种模态中学习信息。图2说明了MMMLP的体系结构,它由三层组成:Feature Mixer Layer、Fusion Mixer Layer和Prediction Layer。

我们的框架是灵活的,可以包含不同模式的数据,我们在本文中主要关注图像和文本,这是除了项目序列之外最常用的模式类型。如图2所示,使用用户-物品交互历史中的图像、文本和物品序列作为输入,我们引入Feature Mixer Layer,包括三个Mixer模块来提取和处理图像、文本和物品序列信息。

Feature Mixer Layer

Feature Mixer Layer中有三个Mixer模块用于提取图像、文本和项目序列信息。我们首先将多模态原始数据传输到嵌入特征矩阵中

具体而言,我们将图像加载为特征矩阵,利用预训练模型进行文本编码,并设置项目序列的可训练嵌入。然后,混频器模块处理来自图像、文本和项目序列的三种不同类型的嵌入输入。如图3所示,混合器模块由一堆相同的块组成,其中每个块由两个混合操作组成。我们以图像模态特征矩阵的处理为例,对文本特征和项目序列的处理是相同的。第一个操作执行令牌混合,其中令牌大小为,我们将令牌混合器命名为。它以相同的方式作用于特征矩阵的列,以捕获通道内令牌之间的交互。然后将结果提供给通道混频器,它作用于的行以捕获令牌内通道之间的交互。使用残差连通性和层规范化等标准体系结构组件来稳定训练过程。

这部分的公式如下,以I为例子:

其中表示对列维的操作,即对图像特征矩阵的交叉处理;表示对行维的操作,即对跨通道的处理。表示图像模态的中间表示。通过对有相同处理,我们可以实现文本特征矩阵和项目序列的中间表示。

接下来作者单独说了每个mixer,和MLP-mixer是一样的,他咋这么能说,一个简简单单的mlp-mixer模型反反复复说三遍,我倒要看看他是怎么水字数的(不是

对于图像混合模块,我们通过mixer模块对图像进行嵌入,提取原始图像特征。所获得的可视化嵌入序列通过混频器模块传递,其中令牌混频器捕获令牌之间的交互,然后将结果提供给通道混频器以捕获通道之间的交互。使用图像混合器,我们通过将视觉相关性融合到每个项目的表示中来实现每个序列的视觉表示。

作为图像混合的结果,我们有以下输出:

其中,为GELU激活函数[9]。表示对列维的操作,即对图像特征矩阵的交叉标记处理;表示对行维的操作,即对跨通道的处理。其中,表示图像混合器第一层的可学习权值。

其中是图像混合器第二层的可学习权值。是在feature-mixer中隐藏的大小。是图像模态的习得表征。 


另外两个是一样的:

 

 

Fusion Mixer Layer

我们提出混合mixer层来融合多个模态的表示。将所有模态的输出concat,即连接到由混频器模块组成的混频器层。这种方法也被称为单流方法,它比双流方法更有效[1]。使用混合mixer层,我们可以通过融合多模态表示来接近用户交互项目序列的综合表示

 作为融合层的结果:

是concat连接操作,所以是块的输出,是考虑多模态的综合表示。

表示混合mixer器第一层的可学习权值。

为混合器第二层的可学习权值。

Prediction Layer

为了进行公平的比较,我们引入了SRS中最常用的推理方法。在我们获得𝐿序列混频器、通道混频器和特征混频器层之后,我们获得了包含每个交互的顺序、跨通道和跨特征依赖关系的隐藏状态序列。

基于先前的站起站起的交互,聚合表示用户的偏好。各候选条目的分值按以下公式计算:

Model Optimization

 

在本小节中,我们给出了我们提出的模型的优化算法,如算法1所示。我们首先随机初始化模型的参数(第1行)。

在每个epoch中,我们将分batch训练数据(第3行),然后将特征矩阵以三种模式I,T,M送到TM,CM并实现相应的中间表示(第4行)。基于图像混合器(第5行)、文本混合器(第6行)和序列混合器(第7行),我们可以生成三种模式对应的表示为。我们融合多模态特征,并基于融合混频器层(第8行)实现。然后用梯度更新模型参数,直到收敛(第9行)。重要的是要注意,图像混频器、文本混频器和序列混频器仅执行简单的矩阵乘法,从而保持其线性复杂性。

我们的训练程序遵循SRS中常用的范例,实用交叉熵损失:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2209460.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MYSQL-windows安装配置两个或多个版本MYSQL

安装第一个mysql很简单,这里不再赘述。主要说说第二个怎么安装,服务怎么配置。 1. 从官网下载第二个MySQL并安装 一般都是免安装版了,下载解压到某个文件目录下(路径中尽量不要带空格或中文),再新建一个my.ini文件(或…

QGroundControl最新版本MacOS平台编译(使用CMakeLists.txt)

1.下载源码: git clone https://github.com/mavlink/qgroundcontrol.git --recursive 2.安装依赖: brew install GStreamer 设置环境变量:GST_PLUGIN_PATH 安装SDL2: brew install SDL2

C#自定义特性

特性的用处 一般用来影响某一个类的个别字段或者方法 定义特性 需要将类继承Attribute 可以通过构造函数的方式影响使用特性的方法 可以通过给自定义的特性通过加AttributeUsage特性的方法进行进一步管理 AttributeUsage特性默认传三个参数 第一个参数一般用来约束此自定义…

怎么把m4a转换成mp3?8种关于m4a转成MP3格式的转换方法

怎么把m4a转换成mp3?尽管m4a格式在音质上表现突出,但并不是所有设备和软件都能支持,给一些用户带来了不便。为了保证音乐文件能够在更多设备和平台上播放,许多人选择将m4a转换为MP3格式。MP3几乎可以在所有播放器和设备上使用&…

LeetCode讲解篇之2320. 统计放置房子的方式数

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 我们首先发现一个规律街道两侧是否放置房子是独立的,即放置房子的方式数 一侧放置房子的方式数 * 另一侧放置房子的方案数 一侧放置房子的方式数的二次方 对于一侧[0, i]范围内地块放置房子的方式…

starrocks-删除表字段

1、背景 之前做了个大宽表,将近100个字段,但是后来发现很多字段在实际生产上都没有用到,并且随着数据量的增加,给集群的存储以及消费任务的解析带来了比较大的压力。所以决定对字段做删除处理。 当前的表是使用routine load任务从…

渗透测试 之 AD域渗透 【AS-REP Roasting】 攻击技术详解

说明: AS-REP Roasting是一种对用户账户进行离线爆破的攻击方式。但是该攻击方式使用比较受限,因为其需要用户账户设置“不要求Kerberos预身份验证”选项,而该选项默是没有勾选的。Kerberos 预身份验证发生在Kerberos身份验证的第一阶段(AS_…

14. 最长公共前缀【字符串】

文章目录 14. 最长公共前缀解题思路Go代码 14. 最长公共前缀 14. 最长公共前缀 编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符串 ""。 示例 1: 输入:strs ["flower","flow&…

STM32 QSPI接口驱动GD/W25Qxx配置简要

STM32 QSPI接口GD/W25Qxx配置简要 📝本篇会具体涉及介绍Winbond(华邦)和GD(兆易创新) NOR flash相关型号指令差异。由于网络上可以搜索到很多相关QSPI相关知识内容,不对QSPI通讯协议做深度解析。 🔖首先确保所使用的ST…

2022年10月自考《数据库系统原理》04735试题

目录 一.单选题 二.填空题 三.设计题 四.简答题 五.综合题 一.单选题 1.数据库系统管理员的英文缩写是 (书中)P29页 A.Data B.DB C.DBA D.DBS 2.客户/服务器模式中,客户端和服务器可以同时工作在同一台计算机上,该方式称为 (书中)P37页 A.单机方…

使用Copilot自动在Rstudio中写代码,提高效率!

原文链接:使用Copilot自动在Rstudio中写代码,提高效率! 2022年教程总汇 2023年教程总汇 引言 今天我们分享,在Rstuido中使用copilot自动写代码,提高你的分析和绘图效率。 copilot是2024年9月后引入到Rstuido中&…

如何在 IDEA 中导入 Java 项目的 Git 仓库并启动

目录 前言1. 从 Git 仓库导入 Java 项目2. 配置 Maven2.1 配置 Maven 仓库和设置文件2.2 加载依赖 3. 配置 Tomcat 并运行项目3.1 配置 Tomcat3.2 配置 Server URL3.3 启动项目 4. 常见问题与解决方法4.1 Maven 依赖无法下载4.2 Tomcat 部署失败4.3 项目启动后无法访问 结语 前…

从RNN讲起——序列数据处理网络

文章目录 RNN(Recurrent Neural Network,循环神经网络)1. 什么是RNN?2. 经典RNN的结构3. RNN的主要特点4. RNN存在问题——长期依赖(Long-TermDependencies)问题 LSTM(Long Short-Term Memory&a…

使用libssh2实现多线程模式的文件上传与下载

使用libssh2实现多线程模式的文件上传与下载 一、准备工作二、初始化SSH连接三、文件上传与下载四、多线程处理五、总结libssh2 是一个开源的SSH库,用于在C/C++程序中实现SSH2协议的功能。通过libssh2,我们可以方便地进行远程登录、执行命令、上传和下载文件等操作。在多线程…

一区大黄蜂!人工蜂群算法优化!ABC-CNN-LSTM-MATT多特征分类预测

一区大黄蜂!人工蜂群算法优化!ABC-CNN-LSTM-MATT多特征分类预测 目录 一区大黄蜂!人工蜂群算法优化!ABC-CNN-LSTM-MATT多特征分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 1.Matlab实现ABC-CNN-LSTM-MATT人工蜂群…

c++关于内存的知识点上速成

温馨提示:本篇文章的内容涉及的是c内存的管理方式 c内存管理的方式 new的使用方式 类型 对象名 new 类型 注意:如果对象名前面的类型有星号,后面的类型(new后面的)不需要星号 样例: delete的使用方…

VMDK 0X80BB0005 VirtualBOX虚拟机错误处理-数据恢复——未来之窗数据恢复

打开虚拟盘文件in7.vmdk 失败. Could not get the storage format of the medium 7\win7.vmdk (VERR_NOT_SUPPORTED). 返回 代码:VBOX_E_IPRT_ERROR (0X80BB0005) 组件:MediumWrap 界面:IMedium {a a3f2dfb1} 被召者:IVirtualBox {768 cd607} 被召者 RC:VBOX_E_OBJECT_NOT_F…

生成式专题的第四节课--CycleGAN

CycleGAN(Cycle-Consistent Generative Adversarial Network,循环生成对抗网络)是一种用于无监督图像转换的深度学习模型,即一种用于图像到图像转换任务的生成对抗网络(GAN)的变体,它可以在没有…

团标大数据(2024年09月)

一、总体数据 截至2024年09月30日,共有8240家社会团体在全国团体标准信息平台注册,其中民政部登记注册的有973家,地方民政部门登记注册的有7267家。社会团体在平台共计公布89857项团体标准,其中民政部登记注册的社会团体公布3603…

点云数据与多相机图像融合实现3D场景的彩色可视化

引言 在现代3D计算机视觉和机器人感知领域,点云数据和图像信息的融合正变得越来越重要。点云数据提供了精确的几何结构,而图像则包含了丰富的颜色和纹理细节。将这两种数据源结合起来,我们能够创建更加逼真和信息丰富的3D场景表示。本文将深…