论文阅读之MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System

news2024/11/19 1:52:18

文章目录

  • 论文地址
  • 主要内容
  • 主要贡献
  • 模型图
  • 技术细节
    • 数据集改进
    • 多视图CLIP框架
      • 文本视图
      • 图像视图
      • 图像-文本交互视图
  • 实验结果

论文地址

https://arxiv.org/pdf/2307.07135

主要内容

这篇文章介绍了一个名为MMSD2.0的多模态讽刺检测系统的构建,旨在提高现有讽刺检测系统的可靠性。文章首先指出了现有多模态讽刺检测基准(MMSD)存在的一些问题,包括模型偏差学习和不合理的负面样本标注。为了解决这些问题,作者提出了MMSD2.0,这是一个修正后的数据库,通过移除误导性的线索和重新标注不合理的样本来改进MMSD的不足。

此外,文章还介绍了一个名为multi-view CLIP的新颖框架,该框架能够利用来自多个视角(即文本、图像和文本-图像交互视角)的多粒度线索进行多模态讽刺检测。通过大量实验,作者证明了MMSD2.0是构建可靠多模态讽刺检测系统的有价值基准,并且multi-view CLIP框架在性能上显著超过了以前的基准模型。

主要贡献

文章的主要贡献包括:

  1. 首次指出了当前多模态讽刺基准中的问题,激励研究人员重新思考多模态讽刺检测的进展;
  2. 引入了MMSD2.0,这是一个修正后的数据库,去除了误导性线索并修正了不合理的标注,为构建可靠的多模态讽刺系统迈出了有意义的一步;
  3. 提出了一个新颖的多视图CLIP框架,该框架捕获了不同视角的图像、文本和图像-文本交互的线索,并实现了最先进的性能。

模型图

在这里插入图片描述
MMSD2.0数据集的总体构建过程。给定(a)中的示例,虚假线索去除阶段首先去除文本中的虚假线索,包括标签词(#terrible_food)和表情符号词(emoji_39)以获取(b),然后通过众包对不合理样本重新注释(人类重新注释)阶段对不合理的样本重新注释以获得最终的合理示例(c)。

在这里插入图片描述
文章的多视图CLIP的总体框架。预先训练的CLIP模型对输入的文本和图像进行编码。图像视图和文本视图利用仅图像和仅文本的信息来捕捉讽刺线索。图文交互视图融合了跨模态信息。这三个视图被聚合以进行最终预测。

技术细节

数据集改进

在这里插入图片描述可以观察到标签字数在正样本和负样本中的分布明显不平衡。如图所示,在训练、验证和测试集中,阳性样本中的标签词字数平均超过1个,而阴性样本中的少于1个。换句话说,模型只需要学习虚假相关性(标签词字数)而不需要真的理解讽刺就可以有比较好的训练结果了。

为了解决这个问题,文章从MMSD数据集中的文本中删除了标签词。这使得模型能够捕捉图像特征并使用它们来指导最终预测,而不是依赖于标签字数作为依据。

同样,文章也发现表情符号词在正负样本之间的分布也不平衡。具体而言,如图3(b)所示,只有19.3%的表情词同时存在于阳性和阴性样本中,而其余80.7%的表情符号词仅出现在一种类型的样本中(如阳性样本或阴性样本)。这表明该模型可以简单地使用表情符号单词分布作为预测的优先级,而不是真正捕捉多模式提示。为了解决这个问题,文章删除了文本中的所有表情符号单词,以迫使模型学习真正的多模态讽刺特征,而不是依赖于虚假的文本提示。

MMSD只是将没有“#讽刺”等特殊标签的样本视为负样本(即,不是讽刺)。文章认为这个过程是不合理的,因为没有#讽刺标签的样本也可以表达讽刺意图。因此,我们选择MMSD数据集中的所有负样本(超过50%)作为潜在的不合理样本进行进一步处理。也就是处理数据标注错误的情况。

经过上述处理(删除标签词、表情符号词、重新对阴性样本进行标注)就是得到了MMSD2.0,对比结果如下:
在这里插入图片描述

多视图CLIP框架

首先定义输入数据:
在这里插入图片描述
(x, y)表示一对文本-图像

文本视图

在这里插入图片描述
文本经过CLIP的text encoder进行编码,n表示一句话的词数量。
在这里插入图片描述
使用tCLS作为句子的信息表示然后得到只使用文本的信息进行分类的预测结果。

图像视图

在这里插入图片描述
图像也是同理,使用CLIP的image encoder(这里应该是ViT)对图像信息进行编码。
在这里插入图片描述
然后使用单独图像的信息得到一个预测结果。

图像-文本交互视图

在这里插入图片描述
在这里插入图片描述
对CILP的文本编码信息、图像编码信息进行拼接。
在这里插入图片描述
然后使用注意力机制进行特征交互融合,其中Q、K、V都是F经过线性变换的结果。
在这里插入图片描述在这里插入图片描述
交互融合后的特征取CLS使用key-less attention mechanism进行进一步融合,得到f
在这里插入图片描述
然后对f进行分类预测
在这里插入图片描述
那么最终的预测分布结果如下:在这里插入图片描述
其中yo可以被视为从文本视图、图像视图和图像-文本交互视图的不同角度利用丰富的特征。

损失函数就是上面三种视图的预测分布都进行损失计算。
在这里插入图片描述

实验结果

在这里插入图片描述
消融实验:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1629574.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Amazon云计算AWS之[5]关系数据库服务RDS

文章目录 RDS的基本原理主从备份和下读写分离 RDS的使用 RDS的基本原理 Amazon RDS(Amazon Relational Database Service) 将MySQL数据库移植到集群中,在一定的范围内解决了关系数据库的可扩展性问题。 MySQL集群方式采用Share-Nothing架构。每台数据库服务器都是…

JavaEE——介绍 HTTPServlet 三部分使用与 cookie 和 session 的阐述

文章目录 一、HTTPServlet介绍其中的关键 三个方法 二、HTTPServletRequest(处理请求)1.分块介绍方法作用get 为前缀的方法字段中 含有 getParameter 字段 的方法(前后端交互):字段中 含有 getHeader 字段 的方法: 2.解释前后端的交互过程3.使用 json 格…

【小迪安全2023】第59天:服务攻防-中间件安全CVE复现lSApacheTomcatNginx

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【Java、PHP】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收…

RocketMQ快速入门:namesrv、broker、dashboard的作用及消息发送、消费流程(三)

0. 引言 接触rocketmq之后,大家首当其冲的就会发现需要安装3个组件:namesrv, broker, dashboard,其中dashboard也叫console,为选装。而这几个组件之前的关系是什么呢,消息发送和接收的过程是如何传递的呢,…

如何在 Visual Studio 中通过 NuGet 添加包

在安装之前要先确定Nuget的包源是否有问题。 Visual Studio中怎样更改Nuget程序包源-CSDN博客 1.图形界面安装 打开您的项目,并在解决方案资源管理器中选择您的项目。单击“项目”菜单,然后选择“管理 NuGet 程序包”选项。在“NuGet 包管理器”窗口中…

Swift 中的 Range 运算符

在 Swift 中,Range 运算符是一种强大的工具,用于表示一系列连续的数值或字符。Range 可以用于循环、数组切片、条件语句等场景,为我们提供了方便的方法来处理数据集合。 闭区间运算符 a...b 闭区间运算符 a...b 用于创建一个从起始值到结束…

在虚拟环境中找到Qt Designer

Pyqt5中找到Qt Designer 安装Pyqt5和Qt Designer: pip install pyqt5-tools 假设Python的虚拟环境名为:d2l ,虚拟环境在d2l文件夹中 D:\Software\d2l\Lib\site-packages\qt5_applications\Qt\bin 双击Qt designer启动 Pyside2中找到Qt Designer d2l是虚拟环境…

NDK 基础(五)—— C++ 高级特性2

1、左值右值 在 C 中,左值(lvalue)和右值(rvalue)是用于描述表达式的术语,它们与赋值操作和内存中对象的生命周期有关。 **左值(lvalue)**是指可以出现在赋值操作符左侧的表达式&a…

【Vue3+Tres 三维开发】02-Debug

预览 介绍 Debug 这里主要是讲在三维中的调试,同以前threejs中使用的lil-gui类似,TRESJS也提供了一套可视化参数调试的插件。使用方式和之前的组件相似。 使用 通过导入useTweakPane 即可 import { useTweakPane, OrbitControls } from "@tresjs/cientos"const {…

PotatoPie 4.0 实验教程(21) —— FPGA实现摄像头图像二值化(RGB2Gray2Bin)

PotatoPie 4.0开发板教程目录(2024/04/21) 为什么要进行图像的二值化? 当我们处理图像时,常常需要将其转换为二值图像。这是因为在很多应用中,我们只对图像中的某些特定部分感兴趣,而不需要考虑所有像素的…

机器视觉系统-工业光源什么是同轴光

光路描述:反射光线与镜头平行,称为同轴光。 效果分析:光线经过平面反射后,与光轴平行地进入镜头。此时被测物相当于一面镜子,图像体现的是光源的信息,当“镜子“出现凹凸不平时,将格外地明显。 …

Win32 API 光标隐藏定位和键盘读取等常用函数

Win32 API 光标隐藏定位和键盘读取等常用函数 一、Win32 API二、控制台程序指令modetitlepausecls 三、控制台屏幕上坐标的结构体COORD四、句柄获取函数GetStdHandle五、控制台光标操作1.控制台光标信息结构体CONSOLE_CURSOR_INFO2.得到光标信息函数GetConsoleCursorInfo3. 设置…

会跳舞的网站引导页HTML源码

源码介绍 这套引导页源码非常好看,网址也不会不停的动起来给人一种视觉感很强烈 简单修改一下里面的地址就行看,非常简单! 效果预览 源码下载 会跳舞的网站引导页HTML源码

排序FollowUp

FollowUp 插入排序 直接插入排序 时间复杂度:最坏情况下:0(n^2) 最好情况下:0(n)当数据越有序 排序越快 适用于: 待排序序列 已经基本上趋于有序了! 空间复杂度:0(1) 稳定性:稳定的 public static void insertSort(int[] array){for (int i 1; i < array.length; i) {int…

64位整数高低位的数据获取与赋值操作探讨

参考本篇->LOWORD和HIWORD函数_hidword-CSDN博客 一&#xff0c;如何获取一个64位整数的高32位和低32位 原理其实很简单&#xff1a; 解释一些概念 ①十六进制和二进制直接挂钩 一个十六位的十六进制数【0XAABBCCDD12345678】转为二进制的过程是把其中的每个数转为对应的二…

构建中小型企业网络-单臂路由

1.给IP地址配置好对应的IP和网关 2.配置交换机 3.路由配置 在交换机ge0/0/1中配置端口为trunk是可以允许多个vlan通过的&#xff0c;但路由器是不能够配置vlan&#xff0c;而交换机和路由器间连接的只有一根线&#xff0c;一个端口又只能配置一个ip地址&#xff0c;只有一个ip地…

人脸识别概念解析

目录 1. 概述 2. 人脸检测 3. 人脸跟踪 4. 质量评价 5. 活体检测 6. 特征提取 7. 人脸验证 8. 人脸辨识 1. 概述 人脸识别在我们的生活中随处可见&#xff0c;例如在大楼门禁系统中&#xff0c;它取代了传统的门禁卡或密码&#xff0c;提高了进出的便捷性和安全性。在商…

如何通过4G DTU实现现场仪表的分布式采集并发布到MQTT服务器

提供一份资料文档以一个具体的工程案例来讲解&#xff0c;如何通过4G DTU实现现场仪表的分布式采集并发布到MQTT服务器。采用的数据采集模块是有人物联的边缘采集4G DTU&#xff0c;采集多个多功能电表和远传水表的数据&#xff0c;通过MQTT通讯的型式传送给MQTT服务器&#xf…

Elsevier(爱思唯尔)期刊—Latex模板下载、使用、投稿过程

目录 一、Elsevier期刊-Latex模板下载 1. Elsevier 通用latex模板下载&#xff1a;【elsarticle.zip】 2. Elsevier 复杂版式latex模板下载&#xff1a;【els-cas-templates.zip】&#xff0c;有单栏和双栏版本 二、Elsevier期刊-Latex模板使用 1. 通用模板【elsarticle.zi…

【源码】IM即时通讯源码/H5聊天软件/视频通话+语音通话/带文字部署教程

【源码介绍】 IM即时通讯源码/H5聊天软件/视频通话语音通话/带文字部署教程 【源码说明】 测试环境&#xff1a;Linux系统CentOS7.6、宝塔、PHP7.2、MySQL5.6&#xff0c;根目录public&#xff0c;伪静态laravel5&#xff0c;根据情况开启SSL 登录后台看到很熟悉。。原来是…