Feature interation(特征交互):物品不同模态的表示属于不同的语义空间,并且每个用户对模态也有不同的偏好。因此,多模态推荐系统(MRS)寻求融合和交互多模态特征来生成用户和物品的特征表示。特征交互可以实现各模态不同特征空间到公共空间的非线形转化,交互方法可大致分为:Bridge、Fusion、Filter三类(这三种方法从不同的角度实现交互,它们可以同时应用于同一个模型中) 。
多模态学习研究遵循的两个重要的准则:
互补性准则:一个模态的数据包含了其他模态数据所缺乏的信息。在多模态学习中可以利用多个模态之间的互补信息来增强模型,综合多模态的信息能够更加全面地表述目标对象。
一致性准则:学习过程中最大不同模态之间的一致性。一致性准则的出发点在于认为多模态数据共享某些一致的语义信息(从各个模态中抽取的语义表示共享某些一致性)。例如,从苹果的外观描述文本和苹果图像两种模态数据中抽取的语义特征应该有一定的一致性。
Bridge:
该方法考虑了多模态信息,着重于捕捉用户和物品之间的相互关系。图神经网络的消息传递机制可以通过用户与项目之间的信息交换增强用户表示,进一步捕获用户对不同模态信息的偏好,具体可通过构建每种模态的user-item,item-item图,然后进行图卷积等操作实现,如图一所示。
Fusion:
在多模态推荐场景中,用户和物品的多模态信息的种类和数量都非常庞大。因此,需要对不同的多模态信息进行融合,生成用于推荐任务的特征向量。与bridge相比,融合更关注物品内部的多模态关系,它旨在将各种偏好与模态相结合。注意力机制是目前使用最广泛的特征融合方法,可以根据不同权重和侧重点灵活的融合多模态信息。如图2所示。
Filtration:
由于多模态数据不同于用户交互数据,它包含了许多与用户偏好无关的信息即噪声。噪声可以存在于交互图中,也可以存在于多模态特征本身,因此可以将Filtration分别嵌入到Bridge(物品级降噪)和Fusion(特征级降噪)中。例如,MEGCF关注多模态特征提取与用户兴趣建模之间的不匹配问题,该方法首先构建多模态用户-项目图,然后利用评论数据中的情感信息在GCN模块中进行细粒度权重近邻聚合来过滤信息。
注:本文只对特征交互进行说明,其他细节可以看 Multimodal Recommender Systems: A Survey