(2021 AAAI) Self_MM

news2025/1/16 10:55:58

Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis

Abstract

表征学习是多模态学习中一项重要而富有挑战性的任务。有效的模态表示应该包含两部分特征:一致性和差异性由于多模态标注的统一性,现有的方法在捕捉差异性信息方面受到限制。然而,额外的单模态标注耗费的时间和人力成本较高。本文设计了基于自监督学习策略的标签生成模块,获取独立的单模态监督。然后,联合训练多模态和单模态任务,分别学习一致性和差异性 。此外,在训练阶段,我们设计了一种权重调整策略来平衡不同子任务之间的学习进度。即引导各子任务关注模态监督之间差异较大的样本。最后,我们在三个公共多模态基线数据集上进行了大量实验。实验结果验证了自动生成的单模态监督的可靠性和稳定性。在MOSI和MOSEI数据集上,我们的方法超越了目前最先进的方法。在SIMS数据集上,我们的方法实现了比人工标注的单模态标签相当的性能。完整代码:click here

1. Introduction

         近年来,多模态情感分析(Multimodal Sentiment Analysis,MSA)吸引了越来越多的关注(Zadeh et al.2017;Tsai et al.2019;Poria et al.2020)。与单模态情感分析相比,多模态模型在处理社交媒体数据时更加稳健,并实现了突出的改进。随着用户生成的在线内容的蓬勃发展,MSA已经被引入到风险管理、视频理解、视频转录等诸多应用中。

      虽然之前的工作在基准数据集上取得了令人印象深刻的改进,但MSA仍然充满了挑战。Baltrusaitis、Ahuja和Morency(2019)指出了多模态学习的五个核心挑战对齐、翻译、表示、融合和共同学习

       其中,表示学习处于基础地位。在最近的工作中,Hazarika、Zimmermann和Poria(2020)指出,单模态表征应该包含一致和互补的信息。根据表征学习中引导的不同,我们将现有的方法分为前向引导和后向引导两类。在前向引导方法中,研究者致力于设计交互式模块来捕捉跨模态信息(Zadeh等2018a;Sun等2020;Tsai等2019;Rahman等2020)。然而,由于统一的多模态标注,它们很难捕获模态特定信息。在后向引导方法中,研究者提出了额外的损失函数作为先验约束,这使得模态表示既包含一致的信息,又包含互补的信息(CH-SIMS:Yu et al. 2020a; MISA: Hazarika, Zimmermann, and Poria 2020)。

         Yu等人(CH-SIMS:2020a)引入了独立的单模态人类注释。通过联合学习单模态和多模态任务,所提出的多任务多模态框架同时学习了特定模态和模态不变的表征。Hazarika、Zimmermann和Poria(MISA: 2020)设计了两个不同的编码器,将每个模态投射到模态不变和模态特定空间。据称,两个正则化组件可以帮助模态不变和模态特定的表征学习。然而,在前者中,单模态标注需要额外的人力成本,在后者中,空间差异难以表示模态特定的差异。此外,它们需要手动平衡全局损失函数中约束成分之间的权重,这高度依赖于人类的经验。

       在本文中,我们专注于后向引导方法。在独立的单模态标注和先进的特定模态表示学习的激励下,我们提出了一种新型的自我监督多任务学习策略。与Yu等人(CH-SIMS:2020a)不同,我们的方法不需要人类注释的单模态标签,而是使用自动生成的单模态标签。它基于两个直觉。首先,标签差异与模态表示和类中心之间的距离差异正相关第二,单模态标签与多模态标签高度相关因此,我们设计了基于多模态标签和模态表示的单模态标签生成模块。具体内容见3.3节。

      考虑到自动生成的单模标签在初始阶段不够稳定,我们设计了一种基于动量的更新方法,对后面生成的单模标签应用较大的权重。此外,我们引入了一种自调整策略,在整合最终的多任务损失函数时,调整每个子任务的权重。我们认为,对于标签差异较小的子任务,在自动生成的单模态标签和人工标注的多模态标签之间,很难学习到模态特定的表示。因此,子任务的权重与标签差异呈正相关。

    我们工作的新贡献可以总结如下:

  • 我们提出了基于模态表示与类中心之间距离的相对距离值,与模型输出呈正相关。
  • 我们设计了基于自监督策略的单模态标签生成模块。此外,我们还引入了一种新的权重自调整策略,以平衡不同的任务损失约束。
  • 在三个基准数据集上的广泛实验验证了自动生成的单模态标签的稳定性和可靠性。此外,我们的方法优于当前最先进的结果。

图1:单模态标签和多模态标签的例子,来自Zadeh等人(2017)。绿色虚线表示反向传播的过程。

图1中 黑箭头是正向引导,绿色虚线箭头是反向引导,可见统一的多模态注释并不一定适用于单模态的学习,反向引导中更注重同时包含一致性和互补性的信息。

2. Related Work

       在本节中,我们主要讨论多模态情感分析和多任务学习领域的相关工作。我们也强调了我们工作的创新之处。

2.1 多模态情感分析

        多模态情感分析已经成为一个重要的研究课题,它整合了视觉、听觉等语言和非语言信息。以往的研究者主要集中在表征学习和多模态融合方面。对于表征学习方法,Wang等(2019)构建了一个recurrent attended variation embedding network来生成多模态shifting。Hazarika、Zimmermann和Poria(MISA: 2020)提出了多模态学习中的模态不变和模态特定的表示方法。对于多模态融合,根据融合阶段,以往的工作可以分为两类:早期融合和后期融合早期融合方法通常采用精细的注意机制进行跨模态融合。Zadeh et al. (Memory fusion network for multi-view sequential learning:2018a)设计了一个跨视角交互的记忆融合网络。Tsai等(Multimodal transformer for unaligned multimodal language sequences:2019)提出了跨模态变换器,学习跨模态的注意力来强化目标模态。后期融合方法先学习模态内表示,最后进行模态间融合。Zadeh等(Tensor fusion network for multimodal sentiment analysis: 2017) 使用了张量融合网络,通过计算单模态表示之间的外积获得张量表示。Liu等(Efficient Low-rank Multimodal Fusion With Modality-Specific Factors:2018)提出了一种低阶多模态融合方法,以降低基于张量方法的计算复杂度。

       我们的工作目标是基于后期融合结构的表示学习。与以往的研究不同,我们采用自我监督策略联合学习单模态和多模态任务。我们的方法从多模态任务中学习相似性信息,从单模态任务中学习差异性信息。


2.2 Transformer and BERT

      Transformer是一个序列到序列的架构,没有递归结构(Attention is all you need.Vaswani等,2017)。它用于对顺序数据进行建模,在结果、速度和深度上都比循环结构有优越的表现。BERT(Bidirectional Encoder Representations from Transformers)(Pre-training of deep bidirectional transformers for language understanding:Devlin等,2018)是在Transformer上的成功应用。预训练的BERT模型在多个NLP任务中取得了显著的改进。在多模态学习中,预训练的BERT也取得了显著的效果。目前,使用预训练BERT有两种方法第一种是将预训练的BERT作为语言特征提取模块(MISA:Hazarika,Zimmermann和Poria,2020)。第二种是在中间层整合声学和视觉信息(Learning Factorized Multimodal Representations:Tsai et al. 2019;Integrating Multimodal
Information in Large Pretrained Transformers: Rahman et al. 2020). 在本文中,我们采用第一种方式,并针对我们的任务对预训练的BERT进行微调。


2.3 多任务学习

      多任务学习旨在通过利用不同任务中包含的知识来提高多个相关任务的泛化性能(A Survey on Multi-Task Learning:Zhang和Yang,2017)。与单任务学习相比,多任务学习在训练阶段主要有两个挑战第一是如何共享网络参数,包括硬共享和软共享方法。第二是如何平衡

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1513586.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java集合中经典的 5种设计模式,打死也要记住啊!

集合 一、 迭代器模式(Iterator Pattern)二、 工厂模式(Factory Pattern)三、 装饰器模式(Decorator Pattern)四、 适配器模式(Adapter Pattern)五、 组合模式(Composite Pattern) Java 集合框架中的 List、Set、Map 以及其实现类都使用了多种经典的设计模式 一、 迭代器模式(I…

《汇编语言》- 读书笔记 - 第17章-外传之 DOSBox-X 调用 int 13 读写磁盘

《汇编语言》- 读书笔记 - 第17章-外传之 DOSBox-X 调用 int 13 读写磁盘 总结dosbox-x.conf 不完美读取成功写入成功参考资料 总结 DOSBox 中访问 int 13h 始终没反应。网上查了下有人说是没支持,建议使用 DOSBox-X 经过无数遍尝试后: 环境状态Win11…

云计算 3月13号 (OSI 七层模型:物理层、数据链路层、网络层、传输层、会话层、表示层、应用层)

走进网络 1.认识计算机 1.计算机网络是由计算机和通讯构成的,网络研究的是“通信”。 ------1946 世界上第一台计算机 2.终端:只有输入和输出功能,没有计算和处理功能。 3.数据:一串数字(二进制数)&#…

【el-dialog】解决同一组件使用俩个el-dialog,内容被遮罩层覆盖的问题

如果需要在一个 Dialog 内部嵌套另一个 Dialog或者同一组件有多个Dialog时,需要使用 append-to-body属性 ,只要在第二次弹框上面加上属性

第十四届蓝桥杯省赛真题 Java A 组【原卷】

文章目录 发现宝藏【考生须知】试题 A \mathrm{A} A : 特殊日期试题 B: 与或异或试题 C : \mathrm{C}: C: 平均试题 D: 棋盘试题 E : \mathrm{E}: E: 互质数的个数试题 F: 阶乘的和试题 G: 小蓝的旅行计划试题 H: 太阳试题 I: 高塔试题 J \mathrm{J} J : 反异或 01 串 发现…

MongoDB常见面试题总结(一)MongoDB面试题及答案

1. MongoDB的特点: 你能简要介绍一下MongoDB吗?它与关系型数据库的主要区别是什么? MongoDB是一个开源、面向文档的NoSQL数据库,它采用了BSON(Binary JSON)格式存储数据。以下是MongoDB与关系型数据库的主…

【开发】微服务整合Sentinel

目录 前言 1W:什么是Sentinel? 2W:为什么使用Sentinel? 3W:如何使用Sentinel? 1. 在pom.xml中导入Sentinel依赖坐标 2. 配置控制台 3. 访问API接口的任意端点 流量控制 1. 簇点链路 2. 快速入门…

【HTML】1px边框与1px分割线

对比图 箭头标注的是处理过的 1px分割线 使用transform的scaleY进行缩小 码 <div class"mini-heriz"></div><br><div style"border: solid 1px black; width: 300px;height: 1px;"></div> <style> .mini-heriz {wi…

Java的变量类型详解

目录 局部变量 实例变量 类变量&#xff08;静态变量&#xff09; 参数变量 实例分析 总结 在Java这门静态类型的编程语言中&#xff0c;如何巧妙地使用变量&#xff0c;就像是掌握了一把精准的雕刻刀&#xff0c;能让你在编码的世界里自由地创造。变量在Java中的应用无处…

2024年了,SEO优化是不是已经穷途末路了呢?(川圣SEO)蜘蛛池

baidu搜索&#xff1a;如何联系八爪鱼SEO&#xff1f; baidu搜索&#xff1a;如何联系八爪鱼SEO&#xff1f; baidu搜索&#xff1a;如何联系八爪鱼SEO&#xff1f; 2024年了&#xff0c;SEO优化是不是已经穷途末路了呢&#xff1f;#蜘蛛池SEO SEO优化并没有穷途末路。虽然随…

pcl弧度角度换算:rad2deg,deg2rad

角度弧度换算公式: 代码及结果在:cmath 中cos sin等常用函数的坑(弧度角度换算)-CSDN博客 pcl也有自带的rad2deg,deg2rad: 头文件 #include<pcl/common/angles.h> 代码如下 #include <iostream> #include<pcl/common/angles.h> int main() {vector<…

Linux编程4.3 网络编程-数据封装

1、数据封装 2、Internet协议&#xff08;IP&#xff09; IP的主要目的是为数据输入/输出网络提供基本算法&#xff0c;为高层协议提供无连接的传送服务。这意味着在IP将数据递交给接收站点以前不在传输站点和接收站点之间建立对话&#xff08;虚拟链路&#xff09;。它只是封…

「哈哥赠书活动 - 50期」-『AI赋能写作:AI大模型高效写作一本通』

⭐️ 赠书 - 《AI赋能写作&#xff1a;AI大模型高效写作一本通》 ⭐️ 内容简介 本书以ChatGPT为科技行业带来的颠覆性革新为起点&#xff0c;深入探讨了人工智能大模型如何为我们的创作提供强大支持。本书旨在帮助创作者更好地理解AI的价值&#xff0c;并充分利用其能力提升写…

ubuntu安装开源汇编调试器NASM

安装 安装很简单&#xff0c;直接在终端输入以下命令即可 sudo apt-get install nasm 安装完成后&#xff0c;如果可以查看到nasm的版本号即可视为安装成功 nasm -version 测试 创建汇编文件 创建一个asm文件 vim hello.asm 文件内容如下 section .datahello: db …

《ElementPlus 与 ElementUI 差异集合》el-button 属性 type=“text“ 被删除

差异 element-ui el-button中&#xff0c;属性 type"text" 定义文字按钮&#xff0c;也是链接按钮&#xff1b;element-plus el-button中&#xff0c;改为新增属性 link 并与其它 type 值配合使用&#xff1b; // element-ui <el-button type"text"&g…

网络流量监控软件AnaTraf:优化性能、排除故障的最佳选择

目录 导言 网络流量监控的重要性 AnaTraf网络万用表的功能与优势 网络故障排除与优化网络性能 结论 导言 在当今数字化时代&#xff0c;计算机网络已经成为企业和组织的核心基础设施。然而&#xff0c;网络流量的管理和监控对于确保网络性能的稳定和优化至关重要。本文将介…

商业模式的定义及其成功的四大特点

商业模式&#xff0c;作为企业运营和发展的核心架构&#xff0c;描述了企业如何创造价值、传递价值和获取价值的基本逻辑和方法。简单来说&#xff0c;商业模式就是企业为了实现其市场定位、满足客户需求、实现盈利目标而采取的一系列经营策略和行动的总和。 一个成功的商业模式…

【Linux】进程控制与进程调度

Linux进程介绍 进程的基本概念 Linux是多用户、多任务的操作系统。在这样的环境中&#xff0c;各种计算机资源的分配和管理都是以进程为单位进行的。 Linux操作系统包括三种不同类型的进程&#xff1a; 1&#xff09;交互进程&#xff1a;一种由Shell启动的进程。交互进程既可…

Java项目:基于springboot实现的OA协同办公系统(源码+数据库+毕业论文)

一、项目简介 本项目是一套基于Springbootvue实现的付费自习室系统 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#xff0c;eclipse或者idea 确保可以运行&#xff01; 该系统功能完善、界面美观、操作简单、…

matplotlib系统学习记录

日期&#xff1a;2024.03.12 内容&#xff1a;将matplotlib的常用方法做一个记录&#xff0c;方便后续查找。 基本使用 # demo01 from matplotlib import pyplot as plt # 设置图片大小,也就是画布大小 fig plt.figure(figsize(20,8),dpi80)#图片大小&#xff0c;清晰度# 准…