⌈ 传知代码 ⌋ 辅助任务改进社交帖子多模态分类

news2024/10/7 4:31:12

💛前情提要💛

本文是传知代码平台中的相关前沿知识与技术的分享~

接下来我们即将进入一个全新的空间,对技术有一个全新的视角~

本文所涉及所有资源均在传知代码平台可获取

以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦!!!

以下内容干货满满,跟上步伐吧~


📌导航小助手📌

  • 💡本章重点
  • 🍞一. 概述
  • 🍞二. 主要贡献
  • 🍞三. 技术细节
  • 🍞四. 实验结果
  • 🫓总结


💡本章重点

  • 辅助任务改进社交帖子多模态分类

🍞一. 概述

  1. 这篇文章的主要内容是关于如何通过利用图像-文本辅助任务来提高社交媒体帖子的多模态分类效果。研究者们在多模态模型微调过程中联合使用了两种辅助损失:图像-文本对比(Image-Text Contrastive, ITC)和图像-文本匹配(Image-Text Matching, ITM)。ITC 旨在最小化帖子内部图像和文本表示之间的距离,从而有效地弥合图像在传达帖子意义中扮演重要角色时的鸿沟。ITM 则增强了模型理解图像和文本之间语义关系的能力,提高了处理模糊或关系不紧密模态的能力。

  2. 研究者们结合了五种多模态模型,并在五个不同的社交媒体数据集上进行了实验,展示了使用这两种辅助任务可以一致性地提高模型性能,最高可提升 2.6 的 F1 分数。文章还提供了详尽的分析,展示了在特定场景下每种辅助任务最有效。

  3. 此外,文章还介绍了实验设置、使用的数据集、单模态方法、多模态模型、评估方法和结果。研究者们使用了不同的预训练模型,包括 BERT、Bernice、ResNet152 和 ViT,并在不同的社交媒体任务上进行了实验,如文本-图像关系分类、情感分析、仇恨言论分类、讽刺检测和商业影响力内容检测等。

  4. 最后,文章讨论了研究的局限性,包括目前实验仅使用英文数据集,以及辅助任务的加入可能会增加训练时间。尽管如此,作者认为这些额外的时间与大型语言模型的预训练时间相比是相对较小的


🍞二. 主要贡献

文章的主要贡献可以总结为以下几点:

  1. 多模态模型微调的辅助任务研究: 文章提出了一个广泛的研究,比较了在微调过程中联合使用图像-文本对比(ITC)和图像-文本匹配(ITM)两种辅助损失的多模态模型。

  2. 性能提升: 展示了在五个不同的多模态社交媒体数据集上,使用ITC和ITM作为辅助损失的模型一致性地提高了性能,最高可提升2.6 F1分数。

  3. 具体场景分析: 提供了详尽的分析,揭示了在不同类型的图像-文本关系中,个别辅助任务及其组合的有效性。

  4. 模型和数据集的多样性: 研究涵盖了五种不同的多模态模型,并在五个不同的社交媒体数据集上进行了实验,这表明了方法的通用性和适应性。

  5. 对低资源场景的探讨: 文章还探讨了在不同数量的训练样本下模型的泛化能力和数据效率,这对于资源受限的情况特别重要。

  6. 对模型有效性的深入理解: 通过分析Ber-ViT-Att模型在TIR数据集上的预测,文章帮助理解在不同图像-文本关系类型下,辅助任务如何受益。

这些贡献为社交媒体帖子的多模态内容分类提供了新的视角和方法,有助于提高自动检测情感、讽刺和仇恨言论等下游任务的准确性。


🍞三. 技术细节

Image-Text Contrastive (ITC)

在这里插入图片描述

ITC就是使用对比学习的方法让图像和文本的特征对齐。

因为多模态数据集一个文本对应一个图片,那么通过对比学习的方式,让对应的这组文本和图像的相似度更大,也就是特征更加相似,从而完成特征的对齐。

因此损失函数由两部分构成:

  • 一个是为了让配对的文本-图像距离尽可能近而离另外的文本尽可能远。
  • 一个是为了让配对的文本-图像距离尽可能近而离另外的图像尽可能远。

Image-Text Matching (ITM)

在社交媒体帖子中,不相关或弱相关的文本-图像对很常见,仅仅用ITC,可能图像和文本表面上看上去确实没有关联,但是可能有着深层次的关联,使用这个任务可以帮助模型挖掘这深层次的关系。

这个辅助任务也很简单,就是50%的概率随机替换文本-图像对中的图像数据,如果被替换了,那么文本和图像就是不匹配的,如果没有替换,文本和图像就是匹配的,这时可以让模型去预测,文本和图像当前到底匹不匹配,从而转化成一个二分类问题。

其损失函数如下:

在这里插入图片描述
联合微调目标

分类任务+辅助训练任务,一起进行训练,损失函数如下:

在这里插入图片描述
其中CE就是cross-entropy classification loss,也就是模型最终分类预测结果的损失函数。


🍞四. 实验结果

在这里插入图片描述
其中:

  • +C就是加了ITC辅助任务

  • +M就是加了ITM辅助任务

可以看到,辅助任务确实可以优化模型的表现


🫓总结

综上,我们基本了解了“一项全新的技术啦” 🍭 ~~

恭喜你的内功又双叒叕得到了提高!!!

感谢你们的阅读😆

后续还会继续更新💓,欢迎持续关注📌哟~

💫如果有错误❌,欢迎指正呀💫

✨如果觉得收获满满,可以点点赞👍支持一下哟~✨

【传知科技 – 了解更多新知识】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1796023.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SpringBoot+Vue二手家电管理平台设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还…

[word] word2019中制表符的妙用 #媒体#笔记#知识分享

word2019中制表符的妙用 word2019表格功能是非常强大的,很多朋友都认为以前的制表符已经没有什么用途了,其实不然,在一切特殊的场合,word2019制表符还是非常有用的,下面就为大家介绍word2019中制表符的妙用。 步骤1、…

前端html-docx实现html转word,并导出文件,文字+图片

前端html-docx实现html转word,并导出文件 前端web页面 有文字,有图片,保存web的css效果 使用工具:html-docx 官方网址:http://docs.asprain.cn/html-docx/readme.html 步骤: 1 npm install html-docx-js…

收银系统源码推荐

1.收银系统源码开发语言 核心开发语言: PHP、HTML5、Dart后台接口: PHP7.3后台管理网站: HTML5vue2.0element-uicssjs收银端【安卓/PC收银】: Dart3,框架:Flutter 3.11.0-6.0.pre.27商家小程序助手端: uniapp线上商城: uniapp 2.功能介绍 支持测试体验…

行心科技|中科利众:健康科技新合作,营养与科技融合前行

2024中国国际大健康产业文化节暨第34届国际大健康产业交易博览会于2024年5月31日在保利世贸博览馆盛大开幕,行心科技与中科利众(贵州)生物科技有限公司不谋而合,就“膳食机能健康问题解决方案”达成战略合作,共同开启膳…

Vue可视化表单设计 FcDesigner v3.1.0 发布,新增 12 个组件,支持事件配置等

FcDesigner 是一款可视化表单设计器组件。可以通过拖拽的方式快速创建表单,提高开发者对表单的开发效率,节省开发者的时间。 本项目采用 Vue 和 ElementPlus 进行页面构建,内置多语言解决方案,支持二次扩展开发,支持自…

菜刀冰蝎哥斯拉流量通讯特征绕过检测反制感知

1.加密流程 工具名称requestsresponseAntSwordbase64等方式明文冰蝎2.0开启Openssl扩展-动态密钥aes加密aes加密base64未开启Openssl扩展-异或异或base64冰蝎3.0开启Openssl扩展-静态密钥aes加密aes加密base64未开启Openssl扩展-异或异或base64哥斯拉php的为base64异或base64异…

微服务+分库分表的自增主键ID该如何设计?

一. 前言 分布式ID 是分布式系统里面非常重要的一个组成部分,那么我们在设计分布式ID的时候,需要考虑什么问题呢? ❓简单结构下是怎么实现 ID 的控制的? 单实例系统 :通过时间戳,系统内自增,上…

tomcat配置请求的最大参数个数和请求数据大小

maxParameterCount"10000" maxPostSize"10485760" maxParameterCount:单个请求最大请求参数个数; maxPostSize:单个请求最大数据大小,1048576010M;

【Web API DOM07】事件委托

一:事件委托详解 1 什么是事件委托 利用事件流的特征(事件冒泡),解决开发需求的知识技巧 2 事件委托好处 要真正执行任务的元素不注册事件,将对应的事件注册给祖先元素。减少事件的注册次数,提高程序运…

【精通NIO】NIO介绍

一、什么是NIO NIO,全称为New Input/Output,是Java平台中用于替代传统I/O(Blocking I/O)模型的一个功能强大的I/O API。NIO在Java 1.4版本中被引入,其设计目标是提供一种非阻塞的、低延迟的I/O操作方式,以…

组态软件远程监控

在信息化、智能化的浪潮下,远程监控技术已经渗透到工业生产的各个领域。HiWoo Cloud平台凭借其卓越的组态软件远程监控功能,为企业提供了高效、智能的监控解决方案,推动了工业生产的数字化转型。本文将详细介绍HiWoo Cloud平台在组态软件远程…

SpringBoot:手动创建应用

Spring提供了在线的Spring Initialzr在线创建Spring Boot项目,为了更好的理解Spring Boot项目,这里我们选择手动创建。 1.新建Web应用 1.1 生成工程 首先要做是创建一个Java项目,这里我们选择使用Maven来支持,使用archetype:ge…

Softing线上研讨会 | 如何使用dataFEED OPC Suite采集西门子SINUMERIK 840D SL CNC控制器数据

| (免费) 线上研讨会时间:2024年7月9日 16:00~16:30 / 22:00~22:30 无论是传统车间应用还是创新物联网解决方案,都依赖于机器和过程数据,因为这些数据对于提高生产效率、优化操作流程及实现智能化管理和决策而言都非常重要。因此&#xff0c…

Keil中for(int i=0;;)报错

一、报错 二、报错原因 定义变量i报错 这是C的写法,C语言不支持 用C语言格式应该为 int i0; for(int i;;;) {} c99支持第一种写法,如果使用gcc,可以指定c99模式。 三、指定c99模式

C#WPF数字大屏项目实战12--动态获取设备数据

1、如何获取设备实时数据 现在大屏上的数据都是静态的数据或后台构造的来源数据,在实际项目中现场数据应该来自现场的实时数据,这些数据有些是来自现场设备的动态数据,有些是来自其他系统推送的,有些需要主动查询其他业务&#xf…

Chroium 源码目录结构分析(2)

通过脚本,梳理统计chromium源码子目录的大小和功能情况: src根目录 import osdef get_total_directory_size(path, ignore_dirs):total_size 0for root, dirs, files in os.walk(path):dirs[:] [d for d in dirs if d not in ignore_dirs]for file i…

解析Pinterest公司的系统架构设计

最近我偶然发现了一个优秀的 YouTube 视频,“Pinterest 是如何在只有 6 名工程师的情况下扩展到 1100 万用户”(https://www.youtube.com/watch?sicoeqLRKu5i1nnpbI&vQRlP6BI1PFA&featureyoutu.be)以及以下参考文章,“Pinterest 的扩展之路 ——…

Qt 布局管理

布局基础 1)Qt 布局管理系统使用的类的继承关系如下图: QLayout 和 QLayoutItem 这两个类是抽象类,当设计自定义的布局管理器时才会使用到,通常使用的是由 Qt 实现的 QLayout 的几个子类。 2)Qt 使用布局管理器的步骤如下: 首先创建一个布局管理器类的对象。然后使用该…

linux基础-数据库建库建表

数据库建库建表 数据库内部:1、通过SQL解析器解析2、存储引擎 systemctl stop firewalld 关闭防火墙 1)启动数据库mysql #启动systemctl start mariadb #检查进程ps -ef|grep mysql|grep -v mysql #检查端口netstat -lnt #登录测试(后…