大一统真的来了:多模态共享参数的 Meta-Transformer

news2024/12/28 2:47:53

出品人:Towhee 技术团队

作者:张晨

在探索通用人工智能的多种可能发展方向中,多模态大模型(MLLM)已成为当前备受关注的重要方向。随着 GPT-4 对图文理解的冲击,更多模态的理解成为了学术界的热点话题,这个时代真的来临了吗?

香港中文大学多媒体实验室联合上海人工智能实验室的研究团队提出一个统一多模态学习框架 —— Meta-Transformer,通过统一学习多种模态信息,模型可学会理解 12 种模态,共享网络参数,无需额外训练。

alt |Meta-Transformer支持的模态,和它与ImageBind的对比

本文探索了 transformer 架构处理 12 种模态的潜力,包括图像、自然语言、点云、音频频谱图、视频、红外、高光谱、X 射线、IMU、表格、图形和时间序列数据,如图所示。

本文讨论了每种模态的 transformer 学习过程,并解决了将它们统一到单个框架中所面临的挑战,并提出了一个名为 Meta-Transformer 的新颖的多模态学习统一框架。 Meta-Transformer 是第一个使用同一组参数同时对来自十几种模态的数据进行编码的框架,从而允许采用更具凝聚力的方法进行多模态学习。 Meta-Transformer 包含三个简单而有效的组件:用于数据到序列 token 化的模态专家 、用于跨模态提取表示的模态共享编码器以及用于下游任务的特定于任务的头。

具体来说,Meta-Transformer 首先将多模态数据转换为共享公共流形空间的 token 序列。然后,具有冻结参数的模态共享编码器提取表示,通过仅更新下游任务头和轻量级 tokenizer 的参数来进一步适应各个任务。最后,可以通过这个简单的框架有效地学习特定任务和通用模态表示。Meta-Transformer 预示着利用 transformer 开发统一多模态智能的广阔前景。

本文对 12 种模式的各种基准进行了广泛的实验。通过专门利用 LAION-2B 数据集的图像进行预训练,Meta-Transformer 在处理来自多种模式的数据方面表现出了卓越的性能,在不同的多模式学习任务中始终取得优于最先进方法的结果。

alt |对于不同模态的数据,基于不同模态的信息特性设计了相应的特征序列构造方式,接着将得到的特征序列输入到预训练后参数冻结的编码器中,由此提取的表征能够在多个模态上解决下游多个任务。

文章也说了Meta-Transformer的一些局限性:

  • 复杂性:元Transformer需要大量计算量。高内存成本和繁重的计算负担使其难以扩展模型规模和数据数据规模。
  • 方法上:与TimeSformer和Graphormer中的轴向注意力机制相比,Meta-Transformer缺乏时间和结构意识。这种限制可能会影响 Meta-Transformer 在时间和结构建模发挥关键作用的任务中的整体性能,例如视频理解、视觉跟踪或社交网络预测。
  • 应用上:Meta-Transformer主要发挥其在多模态感知方面的优势。其跨模态生成的能力仍然未知。

总的来说,本文中探讨了普通 transformer 在统一多模态学习中的潜力,强调了使用 transformer backbone 开发统一多模态智能的良好趋势。在某种程度上,本文支持了transformer在下一代网络中的主导地位。重要的是,CNN 和 MLP 也没有落后。它们在数据 token 化和表示投影中发挥着重要作用。这个过程体现了神经网络的继承法则和人工智能的持续进化。

  • 相关链接:

代码地址:https://github.com/invictus717/MetaTransformer

论文地址:https://arxiv.org/pdf/2307.10802v1.pdf

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/792199.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

优思学院|PDCA循环与精益管理有何相通之处?

PDCA是精益管理和六西格玛管理的基础原则,通常PDCA可以转化为六西格玛的DMAIC,变成一套以数据驱动方式为主来减少过程变异的改善方法,也可以应用于精益管理的原则上,处理优化价值流和减少浪费的改进上。 PDCA循环原则 这是由美国…

centos下安装ftp-读取目录列表失败-

1.下载安装ftp服务器端和客户端 #1.安装yum -y install vsftpdyum -y install ftp #2.修改配置文件vim /etc/vsftpd.conflocal_enablesYESwrite_enableYESanonymous_enableYESanon_mkdir_write_enableYES //允许匿名用户在FTP上创建目录anon_upload_enableYES //允许匿名用户…

【ElementUI组件封装】搭建架子、按钮自行封装、封装element的表格、表单

通过原生 button 封装类 el-button 组件封装 el-form 相关表单通用组件封装 el-table 相关表格通用组件 Vite Vue3 ElementPlus业务组件封装 数字化管理平台 Vue3ViteVueRouterPiniaAxiosElementPlus 个人博客地址 开发环境:Vite3 Vue3 兼容性:Vite…

前端企业微信开发内嵌H5记录 右边侧边栏开发

企业微信内嵌H5(侧边栏)开发流程 1、如果要想在企业微信和客户聊天的过程中出现右侧侧边栏,需要添加非本企业的人员微信,右边侧边栏就会自动出现(可折叠)。 示例: 2、创建一个自建应用 a.先登…

VMware horizon 8 建立手动桌面池

准备一台win10的虚拟机,改静态IP,计算机名,加入域,把Agent软件上传到机器中。 2:右键管理员身份安装程序。 一般默认 根据自己实际情况选择 启用桌面远程功能 安装完成 安装完成以后创建一个快照,以后是好知道机…

申请美国J1签证所需材料清单

在申请前往美国进行交流学习、文化交流或实习等项目的J1签证时,申请人需要准备一系列必要的材料。这些材料将有助于确保申请的顺利进行,以下是J1签证材料清单的详细内容: 1. 签证申请表格: 首先,申请人需要填写并签署D…

多网点多品牌精密空调集中监控方案

精密机房空调主要应用于通信数据机房、交换机 房、IDC机房、精密医疗设备室、外科手术室、实验室、精密电子仪器仪表生产车间等环境,这样的环境对空气的温度、湿度、洁净度、气流分布等各项指标有很高的要求,必须由每年365天、每天24小时安全可靠运行的专用机房精密…

DoIP学习笔记系列:导航篇

文章目录 1. 前言2. 导航3. 参考资料 1. 前言 DoIP学习笔记系列是一整套基于网络的诊断协议学习笔记,非常适合对有UDS基础但对DoIP没有实战经验的小伙伴参考,通过源协议讲解,企标讲解,测试需求讲解,测试用例讲解&…

使用 Apache DolphinScheduler 进行 EMR 任务调度

By AWS Team 前言 随着企业规模的扩大,业务数据的激增,我们会使用 Hadoop/Spark 框架来处理大量数据的 ETL/聚合分析作业,⽽这些作业将需要由统一的作业调度平台去定时调度。 在 Amazon EMR 中,可以使用 AWS 提供 Step Functio…

Flutter系列文章-Flutter进阶

在前两篇文章中,我们已经了解了Flutter的基础知识,包括Flutter的设计理念、框架结构、Widget系统、基础Widgets以及布局。在本文中,我们将进一步探讨Flutter的高级主题,包括处理用户交互、创建动画、访问网络数据等等。为了更好地…

黄东旭:The Future of Database,掀开 TiDB Serverless 的引擎盖

在 PingCAP 用户峰会 2023 上, PingCAP 联合创始人兼 CTO 黄东旭 分享了“The Future of Database”为主题的演讲, 介绍了 TiDB Serverless 作为未来一代数据库的核心设计理念。黄东旭 通过分享个人经历和示例,强调了数据库的服务化而非服务化…

【C 程序设计】第 1 章:C 语言简介与思维导图

目录 一、C 语言思维导图 (1)数据类型 (2)运算 (3)控制结构 (4)过程式,模块化程序设计 (5)输入输出 (6)编码规…

AntDB数据库与东方通TongWeb完成兼容互认,共筑数字化底座核心能力

近日,湖南亚信安慧科技有限公司(简称:亚信安慧)与北京东方通科技股份有限公司(简称:东方通)完成AntDB数据库与东方通应用服务器TongWeb V7.0的兼容互认。经测试,AntDB数据库能与东方…

C++入门之stl六大组件--Vector库函数的介绍,以及模拟实现一些常用接口

文章目录 前言 一、vector的介绍和使用 1.vector的介绍 2.vector的使用 2.1vector的定义 ​编辑 2.2vector iterator的使用 2.3vector空间增长问题 2.4vector增删查改 2.5vector迭代器失效问题 会引起迭代器失效的操作有: 二、模拟实现一些vector常用接口…

四、运算符(2)

本章概要 关系运算符 测试对象等价 逻辑运算符 短路 字面值常量 下划线指数计数法 位运算符 关系运算符 关系运算符会通过产生一个布尔(boolean)结果来表示操作数之间的关系。如果关系为真,则结果为 true,如果关系为假&#xf…

Android版本的发展4-13

Android 4.4 KitKat 1、通过主机卡模拟实现新的 NFC 功能。 2、低功耗传感器,传感器批处理,步测器和计步器。 3、全屏沉浸模式,隐藏所有系统 UI,例如状态栏和导航栏。它适用于鲜艳的视觉内容,例如照片、视频、地图、…

CTF-REVERSE练习之逆向初探

逆向是指通过反汇编和调试等一些手段及工具,分析计算机程序的二进制可执行代码,从而获得程序的算法细节和实现原理的技术。不仅如此,逆向技能在信息安全面向的具体工作,如恶意代码分析、软件漏洞挖掘、移动安全以及对软件的破解方…

SAP ABAP 用户状态锁定案例

一、前言 项目需求是根据当天及前两天的离职员工信息(假设这是一个定时器任务每天下午5点执行程序,计算前两天的员工工号是为了将5点之后办理离职的员工工号找出来),将这些员工在用户表 USR02 中的锁定状态设置为 “64”&#xff…

“奢侈品”价格的“快消品”,竹叶青这么想赚年轻人的“茶水钱”?

文 | 螳螂观察 作者 | 青月 或许是受养生焦虑的影响,这届年轻人似乎爱上了喝茶。 《抖音电商茶行业洞察报告》数据显示, 年轻客群已经成为了抖音电商茶行业的增长极,在茶叶、茶具、茶文化书籍等方面,18-30岁消费者是当之无愧消…

022 - DISTINCT

SQL SELECT DISTINCT 语句 在表中,可能会包含重复值。这并不成问题,不过,有时您也许希望仅仅列出不同(distinct)的值。 关键词 DISTINCT 用于返回唯一不同的值。 -- 语法: SELECT DISTINCT 列名称 FROM 表…