Meta-Transformer 多模态学习的统一框架

news2025/1/24 17:39:25

Meta-Transformer是一个用于多模态学习的新框架,用来处理和关联来自多种模态的信息,如自然语言、图像、点云、音频、视频、时间序列和表格数据,虽然各种数据之间存在固有的差距,但是Meta-Transformer利用冻结编码器从共享标记空间的输入数据中提取高级语义特征,不需要配对的多模态训练数据。该框架由统一的数据标记器、模式共享编码器和用于各种下游任务的任务头组成。它是在不同模式下使用未配对数据执行统一学习的第一次努力。实验表明,它可以处理从基础感知到实际应用和数据挖掘的广泛任务。

Meta-Transformer

数据到序列的令牌标记

研究人员提出了一种元标记化方案,将来自不同模式(如文本、图像、点云和音频)的数据转换为共享空间中的标记嵌入。

对于自然语言,他们使用了带有30000个标记词汇表的WordPiece 嵌入,它将单词分割成子单词,并将每个输入文本转换成一组标记嵌入。

对于图像,他们将图像重塑为一系列平坦的2D补丁,然后利用投影层投影嵌入维度。该操作也可用于红外图像,而线性投影用于高光谱图像。他们用3D卷积代替2D卷积层用于视频识别。

对于点云,采用最远点采样(FPS)操作将原始点云从原始输入空间转换为标记嵌入空间,以固定采样比对原始点云的代表性骨架进行采样。然后,使用k -最近邻(KNN)对相邻点进行分组,并构建邻接矩阵来捕获3D物体和场景的结构信息。

对于音频频谱图,使用Mel滤波器组和Hamming窗口对音频波形进行预处理,以将波分割成间隔。然后将频谱图从时间和频率维度分割成补丁,然后将其平面化为标记序列。

统一的编码器

在将原始输入从各种模式转换为标记(令牌)嵌入后,研究人员使用了一个统一的Transformer 编码器,其中包含了固定的参数来编码这些令牌。基于ViT模型的编码器在LAION-2B数据集上进行对比学习预训练,提高编码器的通用标记编码能力。对于文本理解,他们使用来自CLIP的预训练文本标记器将句子转换为子词,然后转换为词嵌入。

论文中作者提到的“模态不可知学习”,一个可学习的标记(xCLS)被添加到标记嵌入序列的开始。该令牌的最终隐藏状态充当输入序列的摘要表示,通常用于识别任务。位置嵌入也会被添加到标记嵌入中。

Transformer 编码器由多个堆叠的多头自关注层和MLP块组成,对这些嵌入序列进行处理。作者指出,添加更复杂的2d感知位置嵌入并不能显著提高图像识别性能。

实验结果

Meta-Transformer模型在各种语言和图像理解任务中虽然并不总是优于其他先进的方法,但也表现出了很好的效果。

在GLUE基准测试的文本理解任务中,Meta-Transformer在情感、释义、复制、推理和回答任务方面得分相对较高。虽然它的表现不如BERT、RoBERTa和ChatGPT等模型,但它在理解自然语言方面表现出了新的希望,尤其是在微调之后。

在图像理解任务上,Meta-Transformer在几个方面优于Swin Transformer系列和interimage等模型。当与CLIP文本编码器相结合时,它在零样本分类方面提供了强有力的结果。它在目标检测和语义分割任务上也优于其他模型,显示了它在图像理解方面的熟练程度。

Meta-Transformer在处理红外和高光谱图像识别任务方面也被证明是有效的,分别在RegDB和Indian Pine数据集上进行了测试。尽管Meta-Transformer没有登顶排行榜,但其结果也很不错,展示了处理与红外图像和高光谱图像相关的挑战的潜力。

在x射线图像处理方面,Meta-Transformer取得了94.1%的性能,表明其在医学图像分析方面的实用性。

在点云理解任务中,Meta-Transformer在ModelNet-40、S3DIS和ShapeNetPart数据集上与其他模型相比,它在可训练参数较少的情况下获得了较高的准确率分数,强调了它在这一领域的效率。

在音频识别任务中,Meta-Transformer具有与AST和SSAST等现有音频Transformer模型竞争的优势,在调整参数时达到97.0%的高精度。尽管AST的性能很好,但像AST这样的模型具有更多可训练的参数。

在视频理解任务中,正如在UCF101数据集上测试的那样,Meta-Transformer在准确性方面并不优于其他最先进的方法。但是它的突出之处在于其明显较少的可训练参数,这表明了统一的多模式学习和较低的体系结构复杂性的潜在好处。

在时间序列预测任务中,Meta-Transformer在ETTh1、Traffic、Weather和Exchange数据集等基准测试上优于几种现有方法,同时只需要很少的可训练参数。

在表格数据理解任务中,Meta-Transformer在成人普查和银行营销数据集上表现出色。它在银行营销数据集上的表现优于其他模型,这表明它在理解复杂数据集方面具有潜力。

在PCQM4M-LSC数据集的图理解任务中,当前的Meta-Transformer架构在结构数据学习方面表现并不好,graphhormer模型的表现优于它,这方面还要改进。

在Ego4D数据集的分类任务中,Meta-Transformer的准确率达到73.9%。总的来说,这些发现突出了Meta-Transformer在不同领域的多功能性和有效性。

上面有几个结果都表明Meta-Transformer的参数少,模型效率更高,它的其中一个主要的限制是计算复杂度为O(n²x D)。

作者:Andrew Lukyanenko

最后论文地址和源代码:

https://avoid.overfit.cn/post/27688397b91a48f680d3e5e3ca9e9f86

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/807551.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【嵌入式学习笔记】嵌入式基础11——STM32常用轮子(SYSTEM)

1.deley文件夹介绍 1.1.delay文件夹介绍 函数名函数功能OSdelay_osschedlockus级延时时,关闭任务调度(防止打断us级延迟)OSdelay_osschedunlockus级延时时,恢复任务调度OSdelay_ostimedlyus级延时时,恢复任务调度OSSysTick_Handlersystick中断服务函数OSdelay_init初始化延迟…

MySQL服务无法启动,服务没有报告任何错误

MySQL服务无法启动,服务没有报告任何错误 昨天mysql服务还好好的,今天怎么都打不开。my.ini配置和端口都没有问题,只能备份一下data的数据,删除data文件夹,初始化mysqld。 一定要备份data数据!!…

【算法和数据结构】257、LeetCode二叉树的所有路径

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:首先看这道题的输出结果,是前序遍历。然后需要找到从根节点到叶子节点的所有路径&#xff…

苍穹外卖-day06

苍穹外卖-day06 本项目学自黑马程序员的《苍穹外卖》项目,是瑞吉外卖的Plus版本 功能更多,更加丰富。 结合资料,和自己对学习过程中的一些看法和问题解决情况上传课件笔记 视频:https://www.bilibili.com/video/BV1TP411v7v6/?sp…

什么是 HTTP 长轮询?

什么是 HTTP 长轮询? Web 应用程序最初是围绕客户端/服务器模型开发的,其中 Web 客户端始终是事务的发起者,向服务器请求数据。因此,没有任何机制可以让服务器在没有客户端先发出请求的情况下独立地向客户端发送或推送数据。 为…

【java的类型数据】——八大类型数据

文章目录 前言字面常量字面常量的分类: 数据类型和变量变量的包装类和范围范围整型变量byteintshortlong 浮点型变量双精度浮点型double单精度浮点型float 字符型变量char布尔型变量 boolean 类型转换自动类型转换(隐式)强制类型转换(显式&am…

tinkerCAD案例:20. Simple Button 简单按钮和骰子

文章目录 tinkerCAD案例:20. Simple Button 简单按钮Make a Trick Die tinkerCAD案例:20. Simple Button 简单按钮 Project Overview: 项目概况: This is a series of fun beginner level lessons to hone your awesome Tinkercad skills a…

8.docker仓库

文章目录 Docker仓库本地私有仓库Docker HarborDocker harbor部署访问页面创建用户下载私有仓库镜像harbor同步 Docker仓库 本地私有仓库 ##先下载 registry 镜像docker pull registry##修改配置文件,在 daemon.json 文件中添加私有镜像仓库地址vim /etc/dock…

第三节 C++ 运算符

文章目录 掌握知识点1. 运算符概述1.1 算术运算符1.1.1 加,减,乘,除1.1.2 自增,自减1.1.3 取模运算 % 1.2 赋值运算符1.3 比较运算符1.4 逻辑运算符 2. 编程题:运算符使用2.1 计算器2.2 位数分离2.3 鸡兔同笼问题 掌握…

重学C++系列之智能指针简单介绍

一、什么是智能指针 在使用堆内存时,就像使用栈内存空间一样,可以实现自释放的功能,智能指针在C库中也是类模板之一。 二、智能指针有几种 有四种。auto_ptr, unique_ptr, shared_ptr, weak_ptr 其中后三个是C11支持,第一个已经被…

递归:一个图教学会递归原理

递归的特点 实际上,递归有两个显著的特征,终止条件和自身调用: 自身调用:原问题可以分解为子问题,子问题和原问题的求解方法是一致的,即都是调用自身的同一个函数。终止条件:递归必须有一个终止的条件,即不…

软考A计划-系统集成项目管理工程师-项目人力资源管理-上

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列 👉关于作者 专注于Android/Unity和各种游戏开发技巧&#xff…

百度与AI:历史、投资和监管

来源:猛兽财经 作者:猛兽财经 百度的人工智能在中国具有先发优势 随着ChatGPT的爆火,人工智能重新引起了投资者的注意,然而人工智能并不是突然爆火的,而是全球众多公司在人工智能技术上进行数十年如一日的研发和积累&a…

Vite创建Vue+TS项目引入文件路径报错

使用vite搭建vue3脚手架的时候,发现main.ts中引入App.vue编辑器会报错,但是不影响代码运行。 报错信息:TS2307: Cannot find module ‘./App.vue’ or its corresponding type declarations. 翻译过来是找不到模块或者相关的声明类型&#…

发现问题:edge浏览器的效率模式会导致setTimeout/setInterval变慢

问题描述 当edge浏览器启用效率模式后,setTimeout/setInterval运行一段时间后,执行间隔会变慢。 开启后: 关闭效率模式:

pspice导入元件Orcad spice模型

想要使用英飞凌一款驱动芯片,型号:1EDN7550U,在贸泽等各大网站上都没有找到改元件的spice仿真模型,经过一番摸索,终于找到了。 1、首先去芯片官网上查找该元件;找到该元件的spice模型 2、下载下来&#xff…

第十一章:deque类

系列文章目录 文章目录 系列文章目录前言deque的介绍deque的使用deque的缺陷deque的应用总结 前言 deque是一种双开口的“连续空间”的容器。 deque的介绍 deque(双端队列):是一种双开口的"连续"空间的数据结构,双开口的含义是:可…

消息中间件RabbitMQ——学习笔记

❤ 作者主页:欢迎来到我的技术博客😎 ❀ 个人介绍:大家好,本人热衷于Java后端开发,欢迎来交流学习哦!( ̄▽ ̄)~* 🍊 如果文章对您有帮助,记得关注、点赞、收藏、…

前端文件上传实践与后端处理——文件分块上传

文件上传是现代Web应用程序中常见的功能之一。在这篇博客中,我们将探讨一个简单但完整的前端文件上传实践,同时提供一个后端示例,演示如何处理上传的文件。我们将使用JavaScript作为前端语言,并结合Node.js作为后端环境。让我们开…

Jekins权限管理,给不同用户分配不同项目的权限【一些小细节真要注意】

首先进入jekins的系统管理界面: 一、插件安装 如果没有安装权限管理的插件,需要安装一个插件,插件的名字叫Role-based Authorization Strategy,进入插件管理中,选中这个插件,点击下面的安装就好了&#x…