分类中的语义一致性约束:助力模型优化

news2025/1/11 13:59:30

前言

这里介绍一篇笔者在去年ACL上发表的一篇文章,使用了空间语义约束来提高多模态分类的效果,类似的思路笔者也在视频描述等方向进行了尝试,也都取得了不错的效果。这种建模时对特征进行有意义的划分和约束对模型还是很有帮助的,在这里主要分享一下这个思路。
本文选择的方向是多模态情感检测,是一个标准的多模态分类场景。有已有方法主要关注特征融合,忽视了模态异质性带来的挑战。模态异质性可能导致以下问题:1)引入冗余视觉特征;2)特征转移;3)数据标注不一致,增加情感理解的难度。由于第三点和这个任务强相关,不具备通用性,故省略。
为了解决这些问题,我们设计了一个带有稀疏注意力的文本引导融合模块,减少冗余视觉特征的影响。其次,我们通过情感一致性约束任务校准特征转移。大量实验表明我们得改进有效并取得最佳结果。

论文:https://aclanthology.org/2023.acl-long.287.pdf
代码(直接邮箱就行,一直没顾上整理):https://github.com/airsYuan/Tackling-Modality-Heterogeneity


1. 引言

多模态情感检测旨在从文本、图像等多模态内容中探索情感(见下图)。随着社交媒体的快速发展,这项技术在理解个体、人物或主题的情感方面应用广泛,吸引了学术界和工业界的关注。本文聚焦于在社交媒体中检测多模态帖子的情感。

b65d150104048c64c5deca986a0f64a9.png

现有研究主要集中在模态融合,但忽视了模态异质性带来的问题。模态异质性主要由模态差距引起,可能导致冗余视觉特征、特征转移和标注不一致等问题,增加了情感理解的难度。
为了系统解决这些问题,我们提出了多视角校准网络(MVCN),从三个不同视角出发:1)文本引导融合模块减少冗余视觉特征;2)情感一致性约束任务校准特征转移;3)自适应损失校准策略处理不一致的标注标签。


2. 方法

MVCN的架构如下图所示,主要包括文本引导融合模块和两个并行子任务:情感分类和基于情感一致性约束。

0978abc481e742b8c59798d9faa2002d.png

2.1 文本引导融合模块

该模块由单模态编码器、文本引导单元和归约单元组成。我们使用预训练的BERT模型作为文本编码器,ViT模型作为图像编码器。文本引导单元通过稀疏注意力机制消除冗余视觉特征,捕获与情感相关的图像关键部分。
具体来说,文本引导融合模块包含以下组件:

  • 单模态编码器:使用BERT模型提取文本特征,使用ViT模型提取图像特征。

  • 文本引导单元(TGU):通过自注意力生成文本感知特征,再通过稀疏注意力获取文本引导的视觉稀疏特征,最后应用前馈神经网络处理这些特征。这里用了两个注意力机制:

  1. 利用文本特征来关注视觉特征,从而获取由文本引导的视觉特征。

  2. 采用sparsemax进行注意力权重的归一化,以获得稀疏的后验注意力权重,使得冗余的视觉特征权

归约单元(RU):通过堆叠注意力层和全连接层对多模态特征进行降维,得到情感分类的多模态表示。

2.2 情感一致性约束(SCC)

SCC任务通过聚集多模态特征来校准特征转移。我们提出相对L2损失来度量距离,避免数据分布完全消除。此外,累积校准策略扩大计算空间,减少样本变化,确保训练稳定性。

具体步骤包括:

  • 估计情感中心:利用标签信息计算正面、中性和负面情感中心。

  • 采用相对L2优化距离:我们设计了相对距离来优化SCC任务,将语义一致的数据彼此拉近。注意,这里不能直接用L2损失,不然会让模型失去泛化性,导致效果非常差。

  • 累积校准策略:为了进一步优化SCC任务,我们提出了一种累积校准策略。Batch更新的局限性在于计算中心点会频繁更新,而Batch的样本数量(N=16)不足以估计准确的中心点导致训练非常不稳定。为了解决这个问题,我们使用一个辅助的表征模块来提前生成足够的表示(N=3600+)作为估计中心点的候选样本。然后通过一个队列来存储所有的特征表示。该队列在训练过程中也会动态更新,通过用当前Batch替换队列中最早的一个Batch来实现速度较慢的中心点更新,这样训练起来非常稳定。

实验

在本节中,我们将介绍实验设置和结果,并进行消融研究和可视化分析。实验在三个公共数据集上进行:MVSA-Single、MVSA-Multiple和HFM。

3.1 基线模型

为了充分验证MVCN的性能,我们选择了单模态和多模态基线模型。

  • 单模态基线:对于文本模态,我们选择CNN、Bi-LSTM和BERT作为基线模型。对于图像模态,选择了ResNet和ViT。

  • 多模态基线:对于MVSA数据集,比较的基线模型包括MultiSentiNet、HSAN、Co-MN-Hop6、MGNNS和CLMLF。对于HFM数据集,我们比较了Concat的两个变体、MMSD以及D&R Net。

3.4 主要结果

d08adcb00ec256d4897d48e4a0725669.png

实验结果如上表所示。多模态模型由于融合了更多信息,超越了单模态模型。总体而言,MVCN比其他方法有显著的性能提升,这表明了从不同角度解决模态异质性的必要性。特别地,我们发现MVCN在MVSA-Single数据集上的表现优于其他两个数据集,可能是由于数据多样性不足,小数据集更容易受到模态异质性问题的影响。

3.5 消融研究

56056f1086d1e78f7c94974cf16cfdc6.png

为了研究每个模块的有效性,我们在上表中进行了消融研究。首先,与均等融合图像和文本特征的MFS模型相比,TGF模块显著提升了情感检测性能。情感一致性约束(SCC)模型显著提升了整体效果,验证了这一方法的重要性。通过将SCC与更准确稳定的质心相结合的累积校准(AC)策略,性能进一步得到了持续提升。然而,需要注意的是,SCC的优化不能使用绝对距离,否则效果会大幅下降,这一点在论文中已有讨论。

分析

4.1 可视化

稀疏注意力可视化

00a968d7374f7f9fa6685137d0d3919f.png

为了验证TGF模块中Sparse-Attention的优势,我们进行了注意力热图的可视化分析。结果显示,Sparse-Attention能够捕捉与情感相关的图像关键部分,同时减弱冗余视觉特征的负面影响。例如,图(a)中,模型更加关注图像中的“生病的狗”,因为它反映了负面情感。这证明了模型可以聚焦于图像中的情感区域,避免无关对象的干扰,进一步强调了消除冗余视觉特征的必要性。

特征分布可视化

4dc0665c24a1c3b8ffa4c6662f514f77.png

为了直观展示具有AC策略的SCC任务的优越性,我们在MVSA-Single数据集上进行了特征分布的可视化分析。通过T-SNE2算法对特征进行降维,我们得到了二维特征向量的分布图(上图)。从图(b)可以看出,SCC任务使同一类别的样本聚集在其对应的质心周围。而图(a)显示,当移除SCC任务时,数据聚集程度明显下降。这表明,SCC任务通过考虑情感标签,从更全局的角度约束分布,更好地校准特征偏移,从而提升了模型性能。

结论

在本文中,我们通过采用特征约束方法显著提升了多模态分类的性能。在笔者的探索过程中,这一思路不仅在多模态分类任务中表现出色,还具有广泛的应用潜力。这类方法可以同样适用于其他需要强特征表示的任务,从而增强模型的效果,为这类任务的性能优化提供了一个可能的思路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2112576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于人工智能的文本摘要生成系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 文本摘要生成是自然语言处理(NLP)中的一个重要任务,它旨在从长文本中提取出核心内容,生…

【学习笔记】SSL证书安全机制之证书验证

前言:每当Client从Server收到一张证书,有2件事Client需要去验证: 证书是否有效? 证书只是文件中的文本Client如何知道内容能够信任?Server是否是证书真正的拥有者? 证书可以公开获取Client如何知道Server是…

OM5光纤:优化您的数据中心性能

随着数据中心需求的持续增长,传统OM3和OM4光纤在传输距离和带宽方面的局限性日益显现。为应对这些挑战,OM5光纤应运而生。OM5光纤又称为宽带多模光纤(WBMMF),通过支持单根光纤上的多波长传输,显著提高了数据…

ubuntu linux搭建lvgl v9

记录一下ubuntu linux搭建 lvgl的过程 本地环境:ubuntu 16.04 ubuntu lvgl sdl2 1 获取源码 git clone https://github.com/lvgl/lv_port_linux.git cd lv_port_linux/ git submodule update --init --recursive查看分支: git branch -a 我选择的是9.2(master分支一直在变动…

无人机执照拿到后怎么就业?方向有哪些?就业率如何?

无人机执照拿到后,就业方向广泛且多样,就业率也呈现出逐年上升的趋势。这主要得益于无人机技术的广泛应用和无人机市场的不断扩大。以下是对无人机执照持有者就业情况的详细分析: 就业方向 1. 无人机飞行操作: 无人机飞手可以从…

34465A-61/2 数字万用表(六位半)

34465A-61/2 数字万用表(六位半) 文章目录 34465A-61/2 数字万用表(六位半)前言一、测DC/AC电压二、测DC/AC电流四、测电阻五、测电容六、测二极管七、保存截图流程前言 1、6位半数字万用表通常具有200,000个计数器,可以显示最大为199999的数值。相比普通数字万用表,6位半…

经典文献阅读之--Representing 3D sparse map points....(用于相机重定位的3D点线稀疏地图)

0.简介 最近在视觉定位和地图制图方面取得了显著的进展,成功地将点特征和线特征进行了整合。然而,将定位框架扩展到包括额外的地图组件往往会导致对匹配任务的内存和计算资源需求增加。《Representing 3D sparse map points and lines for camera reloc…

尝试用java spring boot+VUE3实现前后端分离部署(8/31)

前言 这几天开学了,公司这边几个和学校对接的项目都挺忙的,然后我又开始有点闲的情况了。问大佬能不能继续看看若依的项目,大佬让我自己去学了。在看若依的项目的时候在想,python的FLASK后端实现和JAVA spring boot的实现差别大不…

通过指令微调提升语言模型性能

人工智能咨询培训老师叶梓 转载标明出处 如何让机器更好地理解和执行人类的指令一直是一个重要课题。Google的研究团队中提出了一种新的方法,通过指令微调(instruction finetuning)来提升语言模型的性能和泛化能力。 他们主要研究了如何通过…

美食|基于SpringBoot+vue的美食网站(源码+数据库+文档)

美食网站 基于SSMvue的美食网站 一、前言 二、系统设计 三、系统功能设计 系统功能实现 后台模块实现 管理员模块实现 用户模块实现 餐厅模块实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍&…

JavaScript拷贝的艺术:玩转深拷贝和浅拷贝

前言 在实际的项目开发中,我们时刻都在使用数据拷贝功能,赋值、深拷贝和浅拷贝是前端开发中常见的概念,用于复制简单数据类型(字符串、数值、布尔值)和引用类型(对象、数组)。它们的主要区别在…

第十六篇:走入计算机网络的传输层--传输层概述

1. 传输层的功能 ① 分割与重组数据 一次数据传输有大小限制,传输层需要做数据分割,所以在数据送达后必然也需要做数据重组。 ② 按端口号寻址 IP只能定位数据哪台主机,无法判断数据报文应该交给哪个应用,传输层给每个应用都设…

中小型局域网组网规划与实施

一、绪论 1.1 背景 本课题以中小型企业网络搭建为背景,实现网络规划与设计和模拟。该企业网有四个部门,人力部、研发部、市场部和财务部,不同部门分别划分VLAN,不同VLAN之间分配不同的IP地址段。内外网之间要互通。 1.2 发展趋势…

关于前端分辨率兼容和显示器缩放兼容的处理

如下图所示,我们的电脑屏幕可以进行缩放,和分辨率的切换。 我们在项目开发中,时常需要适配不同的分辨率。 一般来说,开发人员电脑分辨率显示正常的页面,只会在更小的分辨率尺寸中出现问题。 所以当测试人员给我们提分…

QT项目实战之音乐播放器2.0版本

该版本相较于1.0版本最主要的不同在于连接数据库实现类似于歌曲收藏和取消收藏的功能。 详细情况看我的这篇文章http://t.csdnimg.cn/WS5s8。 效果展示 VSMyMusicShow2.0 define.h UseMySQL.h musicInfo.h VSMyMusicPlayer.h

出现 /www/server/mysql/bin/mysqld: Shutdown complete 的解决方法

目录 1. 基本知识1.1 查找my.cnf目录1.2 配置错误日志2. 问题所示3. 原理分析4. 解决方法1. 基本知识 主要补充一些基本知识的拓展 1.1 查找my.cnf目录 查看mysql默认读取my.cnf的目录: mysql --help|grep my.cnf 截图如下:(为了方便查看具体使用的配置文件在哪个路径)…

2024/9/6黑马头条跟学笔记(三)

D3 内容介绍 jdk8新特性,stream流,lambda表达式 ​ 自媒体前后端搭建 步骤 sql—— 实体—— 微服务拷贝,配置nacos—— spring:datasource:driver-class-name: com.mysql.jdbc.Driverurl: jdbc:mysql://192.168.233.136:3306/leadnews_…

拥有一个能倾听你心声的「微信AI小助理」,是一种什么体验?

前两天,搞了个微信 AI 小助理-小爱(AI),爸妈玩的不亦乐乎。 零风险!零费用!我把AI接入微信群,爸妈玩嗨了,附教程(上)零风险!零费用!我把AI接入微信群&#x…

解决Django会话中的竞态条件

Django 会话中的竞态条件(race condition)问题通常发生在多个请求几乎同时修改同一个会话数据时,导致数据丢失或数据不一致。这种情况在需要频繁更新会话数据的场景(如实时聊天应用、并发请求处理等)中尤为常见。 1、问…

一次性解决 | 网站被提示“不安全 ”

当网站被提示“不安全”时,这通常意味着用户的个人信息、登录凭证和其他数据可能面临风险。为了一次性解决这个问题,可以从一下方面入手。 一、检查并启用HTTPS协议 检查URL:确保网站地址以“https”开头,而非“http”。HTTPS协议…