【传知代码】辅助任务改进社交帖子多模态分类(论文复现)

news2024/9/20 9:30:48

在当今数字化社交时代,社交媒体平台如同人们生活的一部分,每天数以亿计的帖子在网络上涌现。这些帖子不仅仅是信息的载体,更是人们思想、情感和行为的折射。然而,要准确理解和分析这些多样化的社交帖子,仅依靠文本内容可能无法完全捕捉其丰富的语义信息。因此,辅助任务改进社交帖子的多模态分类成为一项关键技术。本文将深入探讨这一技术的背景、挑战以及其在提升社交媒体分析效果方面的潜力。

本文所涉及所有资源均在传知代码平台可获取

目录

概述

核心逻辑

实验结果

写在最后


概述

        这篇文章的主要内容是关于如何通过利用图像-文本辅助任务来提高社交媒体帖子的多模态分类效果。研究者们在多模态模型微调过程中联合使用了两种辅助损失:图像-文本对比(Image-Text Contrastive, ITC)和图像-文本匹配(Image-Text Matching, ITM)。ITC 旨在最小化帖子内部图像和文本表示之间的距离,从而有效地弥合图像在传达帖子意义中扮演重要角色时的鸿沟。ITM 则增强了模型理解图像和文本之间语义关系的能力,提高了处理模糊或关系不紧密模态的能力。

        研究者们结合了五种多模态模型,并在五个不同的社交媒体数据集上进行了实验,展示了使用这两种辅助任务可以一致性地提高模型性能,最高可提升 2.6 的 F1 分数。文章还提供了详尽的分析,展示了在特定场景下每种辅助任务最有效。此外,文章还介绍了实验设置、使用的数据集、单模态方法、多模态模型、评估方法和结果。研究者们使用了不同的预训练模型,包括 BERT、Bernice、ResNet152 和 ViT,并在不同的社交媒体任务上进行了实验,如文本-图像关系分类、情感分析、仇恨言论分类、讽刺检测和商业影响力内容检测等。

        最后,文章讨论了研究的局限性,包括目前实验仅使用英文数据集,以及辅助任务的加入可能会增加训练时间。尽管如此,作者认为这些额外的时间与大型语言模型的预训练时间相比是相对较小的,文章的主要贡献可以总结为以下几点:

1)多模态模型微调的辅助任务研究:文章提出了一个广泛的研究,比较了在微调过程中联合使用图像-文本对比(ITC)和图像-文本匹配(ITM)两种辅助损失的多模态模型。

2)性能提升:展示了在五个不同的多模态社交媒体数据集上,使用ITC和ITM作为辅助损失的模型一致性地提高了性能,最高可提升2.6 F1分数。

3)具体场景分析:提供了详尽的分析,揭示了在不同类型的图像-文本关系中,个别辅助任务及其组合的有效性。

4)模型和数据集的多样性:研究涵盖了五种不同的多模态模型,并在五个不同的社交媒体数据集上进行了实验,这表明了方法的通用性和适应性。

5)对低资源场景的探讨:文章还探讨了在不同数量的训练样本下模型的泛化能力和数据效率,这对于资源受限的情况特别重要。

6)对模型有效性的深入理解:通过分析Ber-ViT-Att模型在TIR数据集上的预测,文章帮助理解在不同图像-文本关系类型下,辅助任务如何受益。

        这些贡献为社交媒体帖子的多模态内容分类提供了新的视角和方法,有助于提高自动检测情感、讽刺和仇恨言论等下游任务的准确性。

核心逻辑

        因为多模态数据集一个文本对应一个图片,那么通过对比学习的方式,让对应的这组文本和图像的相似度更大,也就是特征更加相似,从而完成特征的对齐,ITC就是使用对比学习的方法让图像和文本的特征对齐,因此损失函数由两部分构成:

一个是为了让配对的文本-图像距离尽可能近而离另外的文本尽可能远。
一个是为了让配对的文本-图像距离尽可能近而离另外的图像尽可能远。

        在社交媒体帖子中,不相关或弱相关的文本-图像对很常见,仅仅用ITC,可能图像和文本表面上看上去确实没有关联,但是可能有着深层次的关联,使用这个任务可以帮助模型挖掘这深层次的关系,这个辅助任务也很简单,就是50%的概率随机替换文本-图像对中的图像数据,如果被替换了,那么文本和图像就是不匹配的,如果没有替换,文本和图像就是匹配的,这时可以让模型去预测,文本和图像当前到底匹不匹配,从而转化成一个二分类问题,其损失函数如下:

分类任务+辅助训练任务,一起进行训练,损失函数如下,其中CE就是cross-entropy classification loss,也就是模型最终分类预测结果的损失函数: 

实验结果

其中,+C就是加了ITC辅助任务,+M就是加了ITM辅助任务,可以看到,辅助任务确实可以优化模型的表现:

写在最后

        在社交媒体的日益普及和信息多样化的背景下,辅助任务改进社交帖子的多模态分类技术展现出了巨大的应用潜力和价值。通过结合文本、图像、视频等多种模态信息,我们能够更全面、精准地理解和分类社交帖子,从而推动社交媒体分析的深入发展。尽管面临诸多挑战,如跨模态信息融合、数据标注的复杂性等,但随着技术的进步和研究的深入,这一领域不断探索出新的方法和解决方案。未来,随着社交媒体的进一步发展和多样化,辅助任务改进的多模态分类技术将继续发挥重要作用,为我们提供更准确、全面的社交媒体分析和洞察。

详细复现过程的项目源码、数据和预训练好的模型可从该文章下方附件获取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1975075.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

请问如何做好软件测试工作呢?

一、明确测试目标和范围 理解测试目的:在开始测试之前,首先要明确测试的目标和范围,确保测试计划 与需求相匹配。这有助于测试人员聚焦在关键功能上,避免浪费时间和资源。制定详细的测试计划:根据项目需求&#xff0…

【Python】爬取网易新闻今日热点列表数据并导出

1. 需求 从网易新闻的科技模块爬取今日热点的列表数据,其中包括标题、图片、标签、发表时间、路径、详细文本内容,最后导出这些列表数据到Excel中。 网易科技新闻网址:https://tech.163.com 2. 解决步骤 2.1 前期准备 爬虫脚本中需要引用…

Visio新手安装及超全快捷指令合集

Microsoft Visio是一款专业的流程图和图表绘制软件,是微软旗下的一款图表和矢量图形应用程序,属于Microsoft 365系列的一部分。但Visio需要单独安装,安装完成之后可与Word联用。 一、Visio软件介绍 Visio 是一款用途多样的绘图工具&#xff…

全球氢钎焊市场规划预测:未来六年CAGR为3.4%

随着全球制造业的持续发展和消费者对高质量产品的需求增加,氢钎焊作为一种高效的焊接技术,正逐渐受到市场的广泛关注。本文旨在通过深度分析氢钎焊行业的各个维度,揭示行业发展趋势和潜在机会。 【市场趋势的演变】 1. 市场规模与增长&#…

【uniapp】集成第三方插件示例

文章目录 uniapp芯套Android壳app目录下/libs目录导入全部aar工程目录下导入rewriter文件夹 uniapp芯套Android壳 https://blog.csdn.net/xzzteach/article/details/140800350 app目录下/libs目录导入全部aar工程目录下导入rewriter文件夹 本地引入包内容 在 project 级别的…

解决com.alibaba.csp.sentinel.slots.block.flow.FlowException: null

springboot项目配置sentinel,能限流成功但是不能限流方法 原因 名字没对应上

token和embedding

1. token 2. embedding 1.token token:词元/令牌/词 tokenization:分词 tokenizer:分词器 token是最小语义单元,通常可以是,一个字母、一个词、一个数字、一个汉字或任何其他有意义的字符组合,取决于文本处…

免费【2024】springboot 大学生心理健康诊断专家系统设计与开发

博主介绍:✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围:SpringBoot、Vue、SSM、HTML、Jsp、PHP、Nodejs、Python、爬虫、数据可视化…

R语言统计分析——点图

参考资料:R语言实战【第2版】 点图提供了一种在简单水平刻度上绘制大量有标签值得方法。我们可以使用dotchart()函数创建点图,格式为: dotchart(x,labels) 其中,x是一个数值向量,而labels则是由每个点的标签组成的向量…

【Linux系统编程】:进程地址空间1

1.引出进程地址空间 因为str指向的是字符串首字母的地址,首字母是字符常量“h”,地址存储在字符常量区,无法修改,故报错。 Linux进程地址空间与进程内存布局详解 - 知乎 (zhihu.com) 我们编写一段代码,来认识一下存储…

C++ const、constexpr与consteval作用与区别

C const、constexpr与consteval作用与区别 在C 常量表达式和编译时优化中,我们已经提到了常量、编译时常量与运行时常量的概念。为了加深理解,我们再重新明晰一下这三者的概念。 常量:初始化之后便不可修改的量。在c中使用const修饰的“变量”…

开源Spring Boot版本WebSSH:轻松在浏览器中管理SSH和FTP

介绍 WebSSH 是一个轻量级的开源ssh工具,只需安装在服务端,就可以通过浏览器访问SSH和FTP。它支持文件和日志高亮显示,Vim 和 Top 命令,实时查看日志,并且操作体验与标准的 Shell 基本相同。WebSSH 支持多会话、文件上…

“艺启创作 智绘未来”AI漫画创意大赛,燃动国漫新纪元!

8月2日,百度文库宣布携手玄机科技举办国内首个「AI漫画大赛」,用户可以直接尝试用AI创作漫画,并在未来为用户独家提供AI小说、AI漫画分镜等行业领先的跨模态AI创作能力。 跨界融合,创新无限 本次大赛,不仅是创意的碰撞…

深度学习 —— 个人学习笔记9(图像卷积、填充和步幅及多输入多输出通道)

声明 本文章为个人学习使用,版面观感若有不适请谅解,文中知识仅代表个人观点,若出现错误,欢迎各位批评指正。 十九、图像卷积 import torch from torch import nndevice torch.device("cuda:0" if torch.cuda.is_ava…

【Stable Diffusion】(基础篇八)—— 局部重绘

局部重绘 本系列博客笔记主要参考B站nenly同学的视频教程,传送门:B站第一套系统的AI绘画课!零基础学会Stable Diffusion,这绝对是你看过的最容易上手的AI绘画教程 | SD WebUI 保姆级攻略_哔哩哔哩_bilibili 我们使用SD生成一张整…

【Vulnhub系列】Vulnhub Noob 靶场渗透(原创)

【Vulnhub系列靶场】Vulnhub Noob靶场渗透 原文转载已经过授权 原文链接:Lusen的小窝 - 学无止尽,不进则退 (lusensec.github.io) 一、主机发现 二、端口扫描 有一个go.php的form表单接收文件 这里识别21端口存在未授权,55077 是ssh 的服务…

计算机网络学习:TCP握手挥手强制连接中断

之前系统学习过TCP协议&#xff0c;但很多地方并不是特别清晰&#xff0c;今天结合抓包情况&#xff0c;再拾一下拾一下>.< 首先看一下TCP数据包的标志位&#xff1a; SYN&#xff1a;简写为S&#xff0c;同步标志位&#xff0c;用于建立会话连接&#xff0c;同步序列号…

ubuntu20.4 微信的安装

一、背景 ubuntu作为常用系统了&#xff0c;微信少不了&#xff0c;但官方没有微信的linux版本 appImage类似于windows下免安装版本。 二、方法 1、下载appImage格式的开源微信版本 https://github.com/zydou/WeChat-AppImage/releases 2、改文件改属性 为什么使用ubuntu 作…

计算机技术基础 (bat 批处理)Note5

计算机技术基础 &#xff08;bat 批处理&#xff09;Note5 本节主要讲解 FOR 命令语句&#xff08;循环&#xff09;在 bat 批处理中的使用 (part 1) FOR 命令语句 在批处理中&#xff0c;for 是最为强大的命令语句&#xff0c;它的出现&#xff0c;使得解析文本内容、遍历文…

Python数值计算(18)——三次样条曲线概述

1. 概述 前面介绍到了多种插值方法&#xff0c;但是这些插值方法都无法避免龙格现象&#xff0c;即高阶多项式可能存在剧烈的振动&#xff0c;而且在区间的一个点处的微小扰动&#xff0c;都可能引起整个范围内的巨大振动&#xff0c;一种替代方式是使用类似线性插值的方式&am…