多模态路径:利用其他模态的无关数据改进变压器(CVPR 2024)

news2025/1/16 5:31:54

<Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities> 

论文地址:https://arxiv.org/abs/2401.14405

项目网页:https://ailab-cvc.github.io/M2PT/

开源代码:https://github.com/AILab-CVC/M2PT

讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/

图1:与使用对齐良好的多模态数据的已知范式相比,本文关注的是数据样本来自多个模态但不相关的场景,这是文献中的一个开放问题。 

一、核心概念

  • 目标模态与辅助模态:目标模态是指我们想要改进性能的模型的模态,例如图像。辅助模态则是与目标模态不相关的其他模态的数据,例如音频或点云数据。
  • 多模态路径(Multimodal Pathway):这是一种连接目标模态Transformer和辅助模态Transformer的结构,允许目标模态数据通过两个模型的组件进行处理,从而获得两种模态的序列到序列建模能力。
  • 跨模态重参数化(Cross-Modal Re-parameterization):这是一种技术手段,利用辅助模态的Transformer块,无需任何推理成本即可提升目标模态的性能。

图2:(左) 多模态通路变压器(M2PT)框架。以点云和图像模态为例。transformer的常用做法遵循相同的流程:使用1)标记器将输入数据转换为序列,2)转换器块处理序列,3)磁头解码序列。通过建立不同模态组件之间的路径来升级序列到序列建模,以便处理特定模态的令牌可以利用与另一模态训练的转换块。

        (中) M2PT的概念设计,其中路径是通过让目标模型中的线性层(包括注意力块中的查询/键/值/投影层和FFN块中的线性层)与辅助模型中的对应层合作来实现的。

        (右) 跨模态重参数化通过将目标模型的权重与辅助模型的权重重新参数化,引入边际训练成本,完全没有推理成本,有效地实现了M2PT。

        本文提出了一个简单而有效的M2PT实现,其中关键是连接两个模型的路径的具体实现。如上所述,由于通用建模能力,不同模态上的transformer可能具有不同的标记器,但它们的主体(即transformer块)可能具有相同的结构。对于与主体结构相同的目标模型和辅助模型,前者主体中的一层在后者中应该有对应的一层。例如,目标模型的第9块中的Query层的对应物,即辅助模型中的第9个Query层应该存在,并且它们在两个模型中扮演类似的角色。考虑到这一点,通过将目标模型的transformer块中的每个线性层与辅助模型中的对应层进行扩充来建立两个模型之间的连接。在这样的概念设计中,让两个层接受相同的输入并将它们的输出相加,如图2(中间)所示。

图3:M2PT在图像、视频、点云和音频这四种模式上带来了一致的改进。这些指标分别是ImageNet-1K精度、Kinetics-400精度、PartNet mIoU和AudioSet精度。这些数字分别代表了M2PT模型相对于使用mastyle方法[22、23、30、49]在四种模式上预训练的基线模型的性能的改进百分比。 

        本文尝试了图像、视频、点云和音频模式。图3显示了M2PT在四种模式中一致带来的相对改进。这些结果表明,变压器中序列对序列建模的模态互补知识是存在的。

        作为早期的探索,我们的实证研究证实,这种改进不仅仅是由于更多的参数,并且表明这种模态互补知识可能与一般处理分层表示的能力有关。抽象层次以多种形式存在,概念从低级到高级,这可以解释所学知识的普遍性。换句话说,当转换器使用图像进行训练时,它既学习(能力a)如何理解图像,又学习(能力B)如何将标记从低级模式转换为高级模式,而不假设它们最初来自图像。

        同时,由于另一个Transformer正在用音频数据进行预训练,它对音频学习了不同的“能力a”和相似的“能力B”,从而可以帮助前面提到的Transformer进行图像识别。


二、方法论

  1. 模态特定的分词器和任务特定的头部:如同常规的Transformer模型,使用模态特定的分词器来处理输入数据,将其转换为序列(即tokens),并使用任务特定的头部来进行最终的任务(如分类、检测等)。

  2. 利用辅助模态的知识:通过将目标模态的Transformer与一个已经在辅助模态数据上训练好的Transformer连接起来,目标模态可以通过跨模态重参数化技术,利用辅助模态模型的权重来增强其性能。


三、重要性与贡献

  • 开拓新领域:这篇论文探索了一个较少被研究的领域——如何利用与目标模态不相关的数据来改进模型性能,这在以往的研究中是一个未被充分探讨的问题。
  • 通用模型能力的展示:这项工作进一步证明了Transformer的通用序列到序列建模能力,即使是在跨模态的情况下也能够有效。

四、结论

        这篇论文提出的多模态路径方法为利用跨模态数据来改进特定模态的Transformer模型提供了一种新的视角和方法。通过引入辅助模态的知识,即使这些数据与目标任务不直接相关,也能显著提升目标模态的模型性能。这不仅展示了Transformer的强大通用性,也为未来的多模态学习研究开辟了新的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1644586.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

天锐绿盾 | 公司防泄密软件

天锐绿盾是一款专为企业设计的图纸及文件加密防泄密软件&#xff0c;旨在保护企业的核心信息资产和知识产权。这款软件提供了强大的数据保护功能&#xff0c;通过透明加密技术&#xff0c;在不影响员工正常工作流程的前提下&#xff0c;自动对指定类型的文件&#xff08;如设计…

流程:采集1688店铺内有成交的商品列表||1688商品订单列表+订单详情API接口

此API目前支持以下基本接口&#xff1a; item_get 获得1688商品详情item_search 按关键字搜索商品item_search_img 按图搜索1688商品&#xff08;拍立淘&#xff09;item_search_suggest 获得搜索词推荐item_fee 获得商品快递费用seller_info 获得店铺详情item_search_shop 获得…

【intro】图卷积神经网络(GCN)

本文为Graph Neural Networks(GNN)学习笔记-CSDN博客后续&#xff0c;内容为GCN论文阅读&#xff0c;相关博客阅读&#xff0c;kaggle上相关的数据集/文章/代码的阅读三部分&#xff0c;考虑到本人是GNN新手&#xff0c;会先从相关博客开始&#xff0c;进一步看kaggle&#xff…

618有哪些你值得入手的?你值得入手的618好物清单

在618的折扣风暴中&#xff0c;我特别想向那些计划更新家电的朋友们推荐一些优质产品。家电作为日常生活中不可或缺的一部分&#xff0c;其品质与性价比尤为重要。而618正是购买家电的绝佳时机&#xff0c;但如何避免被次品所困&#xff0c;这就需要你手握这份618好物清单&…

《MySQL数据类型》

文章目录 一、理解数据本身就是一种约束1.tinyint类型和 tinyint unsigned类型2.其他的int类型 二、bit类型三、float类型1.signed版本注意2.unsigned版本 四、decimal类型float 和 decimal 总结五、char类型&#xff08;固定长度&#xff09;六、varchar类型&#xff08;可变长…

T型槽地轨承载力是如何连接整个制造过程的强力桥梁(北重公司设计)

T型槽地轨承载力的定义和计算 T型槽地轨是一种用于工业设备运输和装配的关键组件。它由世界上各行各业的生产商广泛采用&#xff0c;其有效的承载力使其成为连接整个制造过程的强力桥梁。本文将介绍T型槽地轨的承载力以及相关的设计要点和应用。 承载力的定义和计算 承载力是…

IDEA--debug

1. 单点调试的三个级别 Step into&#xff1a;在单步执行时&#xff0c;遇到子函数就进入并且继续单步执行。Step over&#xff1a;在单步执行时&#xff0c;在函数内遇到子函数时不会进入子函数内单步执行&#xff0c;而是将子函数整个执行完再停止&#xff0c;也就是把子函数…

商品期权交易怎么操作?

今天期权懂带你了解商品期权交易怎么操作&#xff1f;作为金融市场中的一种重要衍生品&#xff0c;商品期权在风险管理、套期保值和投机交易中发挥着重要的作用。 商品期权交易怎么操作&#xff1f; 选择期权合约&#xff1a;根据市场分析结果&#xff0c;选择合适的期权合约进…

什么是HTTPS证书?怎么免费申请?——值得收藏

SSL证书的核心功能在于保障互联网数据传输的安全性和网站身份的可靠性。它通过加密通信防止信息被窃取或篡改&#xff0c;同时验证网站的真实身份&#xff0c;有效抵御钓鱼攻击&#xff0c;增强用户信任。此外&#xff0c;使用SSL证书还有助于提升网站在搜索引擎中的排名&#…

上线了《學點笔录》,更方便翻阅笔录

大家好&#xff0c;我是学点&#xff0c;整理了一下自己笔记、摘要、记录《學點笔录》并且上线了为更方便翻阅 https://code.yellowcan.cn 欢迎来我的學點笔录网站&#xff01;笔录会关于与编程有关&#xff0c;比如bug记录、bug解决过程、编程笔记等等&#xff0c;帮助回忆阅…

通过七析BI自定义组件实现3D效果图表渲染

关于可视化的一些概念已经在之前的文章进行了大概的介绍&#xff0c;接下来我们会更加深入探讨关于呈现效果的内容。 为什么要用3D图表在仪表盘中进行呈现&#xff1f; 当讨论到这个问题的时候&#xff0c;自然就会回归到一个核心&#xff1a;3D与2D的呈现效果有什么区别&#…

Find My无线麦|苹果Find My技术与无线麦结合,智能防丢,全球定位

无线麦采用数字信号处理技术&#xff0c;能够实现高质量的录音效果。同时,其采用多种降噪技术,能够更好地降低底噪和环境噪声&#xff0c;提供更好的音质。无线麦在直播中的作用不仅仅是提供高质量的录音效果&#xff0c;它还能够增强直播的效果&#xff0c;提升听众的观感和体…

什么牌子的充电宝质量好且耐用?精选四款性价比高充电宝

对于我这种只要有空&#xff0c;手机基本是不离手的&#xff0c;从早到晚都是离不开手机&#xff0c;点外卖需要用到手机&#xff0c;看剧需要用到手机&#xff0c;反正各种活动都是离不开手机&#xff0c;但是手机总会有没电的时候&#xff0c;这时候要么是找个插座充电&#…

DEM(高程)数据下载及计算可见性

数据下载 下载链接: 地理空间数据云 (gscloud.cn) 数据部分介绍 ASTER是美国宇航局Terra航天器(1999年发射)上的五台仪器之一,在日本为经济产业省(METI)建造。美国/日本联合科学团队负责仪器设计、校准和数据验证。 高级星载热发射和反射辐射计(ASTER)全球数字高程…

社交媒体数据恢复:哔哩哔哩

哔哩哔哩数据恢复的方法 在哔哩哔哩平台上&#xff0c;数据恢复的过程可能会因为数据丢失的原因不同而有所差异。以下是根据搜索结果总结的几种常见数据恢复方法&#xff1a; 1. 误删历史记录的恢复 如果你不小心误删了哔哩哔哩的历史记录&#xff0c;那么很抱歉&#xff0c…

【Linux系统化学习】网络套接字(编写简单的UDP服务端和客户端)

目录 理解源IP地址和目的IP地址 认识端口号 端口号和进程ID的区别 源端口号和目的端口号 认识TCP和UDP协议 TCP协议 UDP协议 网络字节序 socket编程接口 socket常见API sockaddr结构 简单的UDP网络程序 UDP服务端 创建套接字 填充本地网络信息 绑定 收取消息 …

打造亚马逊爆款秘诀:流量、排名与自养号测评的完美结合

亚马逊是一个产品为王的平台&#xff0c;只要我们的产品好&#xff0c;就会有更多的流量&#xff0c;有流量还怕我们的产品卖不出去&#xff1f;身为新手我们店无流量该怎么办&#xff0c;今天教给你们五个获取流量的方法。 1.自然检索 那是我们常说的自然流量&#xff0c;通…

spring中的bean是线程安全的嘛

在Spring框架中&#xff0c;bean默认情况下不是线程安全的。Spring容器在初始化bean时&#xff0c;会为其创建一个单例实例&#xff0c;这个实例在整个应用中是唯一的&#xff0c;并且只会被初始化一次。由于这个特性&#xff0c;bean在默认情况下不是线程安全的。 然而&#…

在Ubuntu上安装docker

一、安装docker 更新系统包列表&#xff1a; sudo apt-get update安装必要的依赖软件包&#xff0c;使apt可以通过HTTPS使用repository。 sudo apt-get install apt-transport-https ca-certificates curl software-properties-common添加Docker的阿里云GPG密钥&#xff1a;…

WP Rocket插件下载:加速您的WordPress网站,提升用户体验

在互联网速度决定用户体验的今天&#xff0c;一个快速加载的网站对于吸引和保留访问者至关重要。WP Rocket插件&#xff0c;作为一款专为WordPress设计的高性能缓存插件&#xff0c;提供了一套完整的解决方案&#xff0c;帮助您优化网站性能&#xff0c;提升用户体验。 [WP Ro…