4M-21:霸气侧漏高效的20+多模态AI模型

news2025/1/22 21:12:18

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

4M-21证明了在21种不同的模态和任务上成功训练任意模型。这一成就是通过采用特定于模态的分词器将所有模态映射到离散的Token集,以及多模态Mask训练目标来实现。

与更专业的模型相比,该模型可在多个数据集中扩展到30亿个参数,而不会影响性能。由此产生的统一模型表现出强大的开箱即用功能,并为多模态交互、生成和检索开辟了新的途径。未来4M-21还需要进一步的探索迁移和涌现能力。

从4M看起

最近解决视觉中多任务学习挑战的尝试已经从组合密集的视觉任务发展到将众多任务集成到统一的多模态模型中。Gato、OFA、Pix2Seq、UnifiedIO和4M等方法将各种模态转换为离散Token,并使用序列或掩码建模目标训练Transformer。一些方法通过对不相交数据集的共同训练来实现更加广泛的任务,而其他方法(如 4M)则使用伪Token对的对齐数据集进行任意到任意模态的预测。

掩码(Mask)建模已被证明在学习跨模态表示方面是有效的,这对于多模态学习至关重要,并且在与Token相结合时可以实现生成式应用程序。

上图是4M例子,注意不是今天的4M-21!!小编来解释下:左边是一幅图的不同维度数据,例如RGB、标题、深度、表面法线、语义分割图、边界框和标记化CLIP特征图。选择这些模态是为了涵盖几个关键方面:语义信息(标题、语义分割、边界框、CLIP)、几何信息(深度、表面法线)和RGB的混合。当用作输入模态时,这些模态可用作有关场景几何及其语义内容的先验信息。当用作目标任务时,它们使模型能够控制学习何种表示。

这些模态在用于编码信息的格式方面是多种多样的。它们由密集的视觉模态(RGB、深度、表面法线、语义分割)、稀疏和/或基于序列的模态(标题、边界框)以及神经网络特征图(CLIP)组成。最后,这些模态允许与模型进行多样化和丰富的交互。

上图右边是一个典型的编码和解码的框架,4M预训练目标包括训练 Transformer编码器-解码器,训练是以一个随机Token子集预测从所有模态中随机采样的另一个子集。大白话输入和输出都是随机抽样,按照“填空游戏”进行训练模型。其实某种意义上就是另一种“BERT”。

4M-21

来自苹果公司和瑞士洛桑联邦理工学院(EPFL)的研究人员在多模态掩蔽预训练方案的基础上构建了他们的方法,通过对各种模态的训练显着扩展了其能力。该方法包含20多种模态,包括SAM片段、3D人体姿势、调色板以及各种元数据。通过使用特定于模态的离散分词器,该方法将不同的输入编码为统一的格式,从而能够在多个模态上训练单个模型,而不会降低性能。

下面的例子何其壮观。

4M-21 可以从任何给定的输入模态生成所有模态,并且可以从链式生成中获益。请注意,对于一个输入,所有模态的预测之间具有高度一致性。例子中的每一行都是同一场景的不同模态输入。

绿色突出显示的是 4M无法预测或接受作为输入的新输入/输出对。虽然此图显示了来自单个输入的预测,但 4M-21 可以从所有模态的任何子集生成任何模态。

4M-21采用4M预训练方案,将其扩展为处理多种模式。它使用特定于模态的分词器将所有模态转换为离散标记序列。训练目标包括使用从所有模态中随机选择的随机选择作为输入和目标,从另一个标记子集预测一个标记子集。它利用伪标签来创建一个具有多种对齐模式的大型预训练数据集。该方法包含多种模态,包括 RGB、几何、语义、边缘、特征图、元数据和文本。

项目主要采用三种主要类型的分词器:用于类图像模态的基于 ViT 的分词器,用于人体姿势和全局嵌入的 MLP 分词器,以及用于文本和其他结构化数据的 WordPiece 分词器。这种全面的标记化方法使模型能够有效地处理各种模态,从而降低计算复杂性并实现跨多个领域的生成任务。<是不是觉得很眼熟啊,这不就是自编码器先走一波么!>

霸气侧漏的功能

4M-21模型展示了广泛的功能,包括可操纵的多模态生成、多模态检索以及在各种视觉任务中的强大开箱即用性能。

该模型根据来至任何模态输入的全局嵌入(Embeddings)来进行多模态的检索操作(上图)。下图代表更多的例子,从一个标题可以检索出各种图片。

在开箱即用的评估中,4M-21在表面法线估计、深度估计、语义分割、实例分割、3D 人体姿态估计和图像检索等任务上取得了具有竞争力的表现。特别是4M-21 XL变体,在多种模式中表现出强大的性能,而不会牺牲任何单个领域的能力。

给出一副RGB的图片,4M-21能够预测所有的任务,而且保持高度的一致性。

研究人员检查了在大量模态上预训练任意到任意模型的缩放特征,比较了三种模型大小:B、L和XL。评估单模态(RGB)和多模态(RGB+深度)迁移学习场景。在单模态传输中,4M-21在任务上保持了与原始七种模式相似的性能,同时在3D对象检测等复杂任务上显示出改进的结果。随着尺寸的增加,该模型表现出更好的性能,该研究表明,在更广泛的模态下进行训练不会影响原有成熟任务,反而增强了新任务能力,尤其是在模型规模扩大的前提下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1836223.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python的print,input与注释的使用

1.print的使用 2.input的使用 3.如何注释 1.print的使用 1.1建立俩个变量a&#xff0c;b&#xff0c;直接把变量放在print的括号里面就会打印其的值。 1.2print可以同时打印多个&#xff0c;打印ab的值与字符串‘11’。 1.3先用chr&#xff08;&#xff09;函数去获取对应97…

CIC-DDoS2019-Detection

CIC-DDoS2019 对CIC-DDoS2019数据集进行检测,本文提供了如下内容&#xff1a; 数据清洗与合并机器学习模型深度学习模型PCA,t-SNE分析数据&#xff0c;结果可视化 代码地址&#xff1a;[daetz-coder](https://github.com/daetz-coder/CIC-DDoS2019-Detection) 1、数据集加载…

基于Flask+Mysql+EasyUI的简单用户管理系统

1、系统实现功能 添加用户查看用户修改用户删除用户 完整代码下载地址在最后&#xff0c;若显示链接不存在&#xff0c;可能是资源还没有审核&#xff0c;可私聊我发完整代码。 2、功能实现 2.1 添加用户 构建添加用户的Flask接口add_user() app.route("/add/user&quo…

计算机网络(谢希仁第六版)| 课后习题与答案 | 物理层 | 题目知识点详细分析

计算机网络&#xff08;谢希仁第六版&#xff09;课后习题与答案 物理层 博客只对老师给的重点进行整理&#xff0c;完整的课后习题答案见Gitee下载&#xff1a;《计算机网络教程&#xff08;第6版&#xff09;&#xff08;微课版&#xff09;》习题答案 2-5 请画出数据流1 0 1…

JavaFX 分页

分页控件用于浏览多个页面。 我们典型地使用对网页的分页控制&#xff0c;例如博客。 在博客页面的底部&#xff0c;我们可以看到一个矩形区域&#xff0c;作为一个数字列表来指示页面索引&#xff0c;以及一个下一个/上一个按钮来链接到下一个/上一个页面。 创建分页控件 分…

OpenCV中的圆形标靶检测——findCirclesGrid()(二)

本章我们开始讲解基于层次聚类的标靶检测算法。当我们调用如下API,且flags中包含cv::CALIB_CB_CLUSTERING标志位时,将会执行基于层次聚类的斑点检测算法。算法支持对称标靶和非对称标靶两类,相应的需要将下述flags设为包含CALIB_CB_SYMMETRIC_GRID或CALIB_CB_ASYMMETRIC_GRI…

安卓Context上下文

目录 前言一、Context简介二、Application Context2.1 Application Context的创建过程2.2 Application Context的获取过程 三、Activity的Context创建过程四、Service的Context创建过程 前言 Context也就是上下文对象&#xff0c;是Android较为常用的类&#xff0c;但是对于Co…

MySQL事务、数据库的存储引擎

1. 事务的概念 定义&#xff1a;事务就是一组数据库操作序列&#xff08;包含一个或多个SQL操作命令&#xff09;&#xff0c;事务会把所有操作看作是一个不可分割的整体向数据库系统提交或撤销操作&#xff0c;所有操作要么都执行&#xff0c;要么都不执行。 1.1事务的 ACID …

重学java 74.Lombok的使用

少点心气&#xff0c;多点干劲 —— 24.6.18 一、lombok的安装使用 1.作用: 简化javabean开发 2.使用: a.下插件 ->如果是idea2022不用下载了,自带 b.导lombok的jar包 安装教程&#xff1a; http://t.csdnimg.cn/wq9MM c.修改设置 二、lombok的介绍 Lombok通过增加一…

短路是怎么形成的

1. 短路分为电源短路和用电器短路。 电源短路&#xff1a;电流不经过任何用电器&#xff0c;直接由正极经过导线流向负极&#xff0c;由于电源内阻很小&#xff0c;导致短路电流很大&#xff0c;特别容易烧坏电源。 用电器短路&#xff1a;也叫部分电路短路&#xff0c;即一根…

Java对象头的组成

介绍对象头之前先说一下Java对象内部的组成结构&#xff1a; 1&#xff0c;成员变量&#xff08;Data1...DataN&#xff09; 2, 对象头 Java对象头的组成&#xff08;根据对象头分析对象状态借此优化代码&#xff09; <dependency> <groupId>org.openjdk.jol&l…

Spring注解----------@Deprecated

情景&#xff1a; 在我们开发过程中&#xff0c;有时候会遇到我们需要将几个类中的方法集中到一个类中&#xff0c;但是我们又不希望把我们的原来的类删掉&#xff08;就是单纯的不想删除&#xff0c;都是我写的代码我不想杀死我的结晶&#xff0c;不能说我写的是shi&#xff…

再次递表港交所,慧算账能否把握AI+财税SaaS机遇?

5月以来&#xff0c;港股IPO市场日渐兴旺&#xff0c;多家公司实现上市首日“零破发”&#xff0c;平均收涨约30%&#xff0c;6月更是出现了超2500倍超购新股。市场赚钱效应显现&#xff0c;投资者打新随之热情高涨&#xff0c;越来越多国内企业也开始抓紧赴港上市。 近日&…

[Qt的学习日常]--常用控件3

前言 作者&#xff1a;小蜗牛向前冲 名言&#xff1a;我可以接受失败&#xff0c;但我不能接受放弃 如果觉的博主的文章还不错的话&#xff0c;还请点赞&#xff0c;收藏&#xff0c;关注&#x1f440;支持博主。如果发现有问题的地方欢迎❀大家在评论区指正 目录 一、显示类控…

猫头虎分享已解决Bug || 前端领域技术问题解析

原创作者&#xff1a; 猫头虎 作者微信号&#xff1a; Libin9iOak 作者公众号&#xff1a; 猫头虎技术团队 更新日期&#xff1a; 2024年6月6日 博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &…

06--jenkins构建CI_CD

前言&#xff1a;上一篇文章整理了git的部署和使用&#xff0c;这章主要复习持续集成软件Jenkins&#xff0c;这个技术现在在云计算方面也是有应用的&#xff0c;同时也是越高级越智能的软件代表。 1、概念简介 1&#xff09;jenkins是什么 Jenkins是一个开源的、可扩展的持…

C++学习/复习15--栈与队列概述及练习/deque/适配器的概念

1.1stack概念 1.2stack函数 1.3最小栈 1.4栈的压入弹出 1.5逆波兰表达式 1.6栈实现队列 1.7层序遍历 1.8stack模拟实现 2.1queue概念 2.2queue函数 2.3queue模拟实现 3.1deque适配器 3.2deque功能 3.3deque原理 3.4deque特点与适配器

Windows下切换JDK版本

&#x1f4d6;Windows下切换JDK版本 ✅1. 下载JEnv✅2. 安装JEnv✅3. 添加JDK✅4. 切换JDK 前提条件&#xff1a;电脑得装有至少2个JDK版本 ✅1. 下载JEnv github地址&#xff1a;https://github.com/FelixSelter/JEnv-for-Windows/releases ✅2. 安装JEnv 1.将下载好的JEnv…

TP5400 SOIC-8 1A 锂电池充电和 5V/1A 升压控制芯片

TP5400 作为一款高集成度的电池充电管理和升压控制芯片&#xff0c;其应用领域不仅仅局限于智能手机&#xff0c;还可以广泛应用于其他各种便携设备。以下是一些潜在的应用例子&#xff1a; 1.平板电脑&#xff1a;平板电脑同样依赖于锂电池作为电源&#xff0c;并且需要高效的…

经验分享,在线文本比较工具

这里分享一个在线文本比较工具&#xff0c;打开网页即用&#xff0c;很方便 网址&#xff1a; https://www.jq22.com/textDifference 截图&#xff1a;