震撼发布!4M-21:苹果多模态AI巨擘,一键解锁21种模态

news2024/11/26 11:47:11

前沿科技速递🚀

 

来自洛桑联邦理工学院(EPFL)与苹果科研巨擘的强强联手,震撼发布全新跨时代成果——4M-21模型!这一革命性单一模型,突破性地覆盖了数十种高度多样化的模态,通过大规模多模态数据集与文本语料库的协同训练,实现了前所未有的跨领域能力飞跃。

想象一下,从图像特征到人体姿态,从向量到实例分割,无论数据形态如何复杂多变,4M-21都能以统一的视角进行解析与生成。这一壮举,不仅将现有模型的模态处理能力提升至三倍以上,更在细粒度控制与多模态生成上迈出了坚实步伐。

立即加入我们的探索之旅,一同见证这一颠覆性研究的魅力所在!论文详情、代码资源、实验成果,尽在掌握。快来解锁未来科技的无限可能,与全球科研先锋并肩前行!

论文地址:https://opencsg.com/daily_papers/cFdzaqtfY7xc

模型地址:https://www.opencsg.com/models/EPFL-VILAB/base-4M-21_XL

来源:传神社区

01 模型亮点:单一模型,三倍效能

革命性AI研究来袭!一款单一模型,竟能完成现有模型三倍以上的任务与模态,且性能不减反增。这不仅是技术的飞跃,更是效率与功能的双重提升。

  • 模态大跃进:从7到21,模态数量翻倍增长,涵盖图像、文本、人体姿态等多种类型。这意味着,无论是跨模态检索还是可控生成,这款模型都能轻松应对,开箱即用,性能卓越。

  •  细节与可控性:生成内容更加精细,控制更加灵活。无论是全局图像嵌入还是人体姿态的微妙变化,都能精准捕捉,按需生成。

  • 多模态预训练:基于先进的多模态掩码预训练方案,模型在数十种高度多样化的模态中锤炼成长,实现了跨模态的统一与融合。

  • 特定分词器:创新使用特定于模态的离散分词器,为每种模态量身定制编码方式,确保信息精准传达,模型性能更上一层楼。

  • 规模扩展:模型参数增至3B,数据集扩容至0.5B样本,强大的计算能力与丰富的数据支撑,让模型学习更加深入,表现更加出色。

  • 协同训练:视觉与语言双管齐下,协同训练让模型在理解世界时更加全面与深刻,输出更加精准与生动。

图片

02 方法介绍

来自EPFL与苹果的强强联合,去年震撼发布的4M预训练方案,如今再次进化!这一被验证为通用且高效的方法,正引领我们向多模态AI的新纪元迈进。

  • 规模升级,性能飙升:保持原有架构与多模态掩码训练目标的精髓,本研究通过前所未有的方式提升模型与数据规模。更多模态类型与数量的融入,加之跨数据集的联合训练,让模型性能与适应性实现质的飞跃。

  • 模态分类,全面覆盖:从RGB视觉盛宴到几何结构的精妙,从语义的深邃到边缘的细腻,再到特征图的丰富、元数据的精准与文本的广阔,本研究将模态细分为六大类别,全方位捕捉世界之美。

    模态分为以下几大类别:RGB、几何、语义、边缘、特征图、元数据和文本。

    图片

  • Tokenization革新,统一表示空间:如何将不同模态与任务无缝对接?本研究创新性地采用多样化tokenization方法,将一切转化为序列或离散token,构建统一的表示空间。ViT、MLP及文本tokenizer三大利器并出,让每种模态都能找到最适合自己的表达方式。

图片

03 多模态能力测评

4M-21模型凭借其强大的迭代解码token能力,能够以前所未有的灵活性预测并生成任意训练模态的内容。如图所示,该模型能够从给定的单一输入模态出发,以高度一致和连贯的方式,生成所有已训练的模态输出,展现了其在多模态生成领域的非凡潜力。

图片

更令人兴奋的是,4M-21支持有条件和无条件的生成模式,允许用户从其他模态的任何子集出发,生成所需的任何训练模态。这一特性极大地丰富了多模态编辑的可能性,如图所示,用户可以在保留原有信息的基础上,对多个模态进行精细调整和优化,实现更加个性化和定制化的输出。此外,4M-21在文本理解能力上也实现了显著提升,无论是基于T5-XXL嵌入还是常规字幕,都能生成几何和语义上均合理的内容,进一步证明了其强大的多模态理解能力。

图片

在传统模型中,多模态检索往往受限于固定的查询方式。而4M-21则彻底打破了这一束缚,实现了前所未有的检索功能。如图所示,用户不仅可以使用RGB图像等传统模态作为查询条件,还可以利用其他任何模态来检索所需的信息。这种跨模态的检索能力极大地拓宽了信息获取的渠道和方式。

此外,4M-21还创新性地引入了多模态组合预测全局嵌入的方法,通过整合多种模态的信息来优化检索结果的控制。这一方法不仅提高了检索的准确性和效率,还为用户提供了更加灵活和个性化的检索体验。

图片

为了验证4M-21的性能优势,论文在多个基准数据集上进行了评估。如表所示,在DIODE表面法线和深度估计、COCO语义和实例分割、3DPW 3D人体姿态估计等任务中,4M-21均取得了显著优于现有模型的表现。这些结果表明,4M-21不仅具备强大的多模态处理能力,还在实际应用中展现出了极高的实用价值。

图片

04 上手实践

想要体验最前沿的多模态AI技术吗?快来跟随我们一起上手实践4M框架吧!这个由EPFL-VILAB和苹果联合推出的4M框架,以其卓越的性能和开源的特性,正引领着多模态研究的新潮流。

在这个演示中,我们展示了从给定RGB输入中提取的多种模式示例,包括Canny边缘、SVM边界、SM距离等。你可以清晰地看到,4M框架如何将这些复杂的图像特征转化为易于理解和处理的数据格式。

想要进一步体验4M-21模型的话快来传神社区下载吧!

图片

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1897759.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

空状态页面设计的艺术与科学

空状态界面是用户在网站、APP中遇到的因无数据展示而中断体验的界面,这个界面设计对于解决用户疑惑有着很大的帮助。那么我们应该如何设计空状态界面呢?空状态是指在界面设计中,没有内容或数据时所显示的状态。它可能出现在各种情况下&#x…

Docker拉取失败,利用 Git将 Docker镜像重新打 Tag 推送到阿里云等其他公有云镜像仓库里

目录 一、开通阿里云容器镜像服务 二、Git配置 三、去DockerHub找镜像 四、编写images.txt文件 ​五、演示 六、其他注意事项 最近一段时间 Docker 镜像一直是 Pull 不下来的状态,想直连 DockerHub 是几乎不可能的。更糟糕的是,很多原本可靠的国内…

EasyExcel 单元格根据图片数量动态设置宽度

在使用 EasyExcel 导出 Excel 时&#xff0c;如果某个单元格是图片内容&#xff0c;且存在多张图片&#xff0c;此时就需要单元格根据图片数量动态设置宽度。 经过自己的研究和实验&#xff0c;导出效果如下&#xff1a; 具体代码如下&#xff1a; EasyExcel 版本 <depen…

Linux 内核 GPIO 用户空间接口

文章目录 Linux 内核 GPIO 接口旧版本方式&#xff1a;sysfs 接口新版本方式&#xff1a;chardev 接口 gpiod 库及其命令行gpiod 库的命令行gpiod 库函数的应用 GPIO&#xff08;General Purpose Input/Output&#xff0c;通用输入/输出接口&#xff09;&#xff0c;是微控制器…

防静电监控系统在电子制造业智能化转型中的应用价值

在电子制造业迅速向智能化转型的当下&#xff0c;防静电监控系统正发挥着日益重要的作用&#xff0c;其应用价值体现在多个关键方面。 一、ESD防静电监控系统简介 ESD防静电监控系统是对企业防静电设备&#xff08;机器、台垫、离子风机&#xff09;和人员进行实时监控、数据存…

c++之旅第十一弹——顺序表

大家好啊&#xff0c;这里是c之旅第十一弹&#xff0c;跟随我的步伐来开始这一篇的学习吧&#xff01; 如果有知识性错误&#xff0c;欢迎各位指正&#xff01;&#xff01;一起加油&#xff01;&#xff01; 创作不易&#xff0c;希望大家多多支持哦&#xff01; 一,数据结构…

Linux系统(CentOS)安装Mysql5.7.x

安装准备&#xff1a; Linux系统(CentOS)添加防火墙、iptables的安装和配置 请访问地址&#xff1a;https://blog.csdn.net/esqabc/article/details/140209894 1&#xff0c;下载mysql安装文件&#xff08;mysql-5.7.44为例&#xff09; 选择Linux通用版本64位&#xff08;L…

2024年保安员职业资格考试题库大数据揭秘,冲刺高分!

186.安全技术防范是一种由探测、&#xff08;&#xff09;、快速反应相结合的安全防范体系。 A.保安 B.出警 C.延迟 D.监控 答案&#xff1a;C 187.安全技术防范是以&#xff08;&#xff09;和预防犯罪为目的的一项社会公共安全业务。 A.预防灾害 B.预防损失 C.预防失…

昇思25天学习打卡营第5天 | 神经网络构建

1. 神经网络构建 神经网络模型是由神经网络层和Tensor操作构成的&#xff0c;mindspore.nn提供了常见神经网络层的实现&#xff0c;在MindSpore中&#xff0c;Cell类是构建所有网络的基类&#xff0c;也是网络的基本单元。一个神经网络模型表示为一个Cell&#xff0c;它由不同…

MobaXterm不显示隐藏文件

MobaXterm在左边显示隐藏文件&#xff0c;以.开头的文件&#xff0c;想让它不显示&#xff0c;点击红框按钮就可以了

计算机视觉——opencv快速入门(二) 图像的基本操作

前言 上一篇文章中我们介绍了如何配置opencv&#xff0c;而在这篇文章我们主要介绍的是如何使用opencv来是实现一些常见的图像操作。 图像的读取&#xff0c;显示与存储 读取图像文件 在opencv中我们利用imread函数来读取图像文件,函数语法如下&#xff1a; imagecv2.imre…

Python 可视化 web 神器:streamlit、Gradio、dash、nicegui;低代码 Python Web 框架:PyWebIO

官网&#xff1a;https://streamlit.io/ github&#xff1a;https://github.com/streamlit/streamlit API 参考&#xff1a;https://docs.streamlit.io/library/api-reference 最全 Streamlit 教程&#xff1a;https://juejin.cn/column/7265946243196436520 Streamlit-中文文档…

如何在 Ubuntu上搭建 LAMP

远程登录 Ubuntu系统环境 ssh (User)(IP) # 比如&#xff1a;ssh lennlouis192.168.207.128 为安全起见&#xff0c;建议你使用 root 登录 VPS 后创建一个具有 sudo 权限的帐号。 安装和配置 Apache 2 Apache Http Server 是一个开源的&#xff0c;非常流行&#xff0c;使用…

直播预告 | VMware大规模迁移实战,HyperMotion助力业务高效迁移

2006年核高基专项启动&#xff0c;2022年国家79号文件要求2027年央国企100%完成信创改造……国家一系列信创改造政策的推动&#xff0c;让服务器虚拟化软件巨头VMware在中国的市场份额迅速缩水。 加之VMware永久授权的取消和部分软件组件销售策略的变更&#xff0c;导致VMware…

QoS-优先级映射

拓扑图 配置 先完成此配置复杂流分类-CSDN博客 配置qos map-table 接口开启信任DSCP qos map-table dscp-lpinput 32 output 5input 46 output 6 # interface GigabitEthernet0/0/0trust dscp override # AR1上10.1.1.1 ping 3.3.3.3&#xff0c;该流量标记为EF EF映射为p…

vs 远程链接ssh 开发 简单实验

1.概要 动态编译语言&#xff0c;跨平台必须做分别的编译&#xff0c;比如linux和windows。如何再windows环境下开发编译出linux平台的程序呢&#xff0c;vs支持远程链接编辑&#xff0c;就是再vs中写代码&#xff0c;但是编译确是链接远程的环境编译的。 2.环境准备 2.1 vs…

DataWhale-吃瓜教程学习笔记 (七)

学习视频**&#xff1a;第6章-支持向量机_哔哩哔哩_bilibili 西瓜书对应章节&#xff1a; 第六章 支持向量机 - 算法原理 几何角度 对于线性可分数据集&#xff0c;找距离正负样本距离都最远的超平面&#xff0c;解是唯一的&#xff0c;泛化性能较好 - 超平面 - 几何间隔 例…

如何让自动化测试更加灵活简洁?

简化的架构对于自动化测试和主代码一样重要。冗余和不灵活性可能会导致一些问题&#xff1a;比如 UI 中的任何更改都需要更新多个文件&#xff0c;测试可能在功能上相互重复&#xff0c;并且支持新功能可能会变成一项耗时且有挑战性的工作来适应现有测试。 页面对象模式如何理…

前后端数据交互流程

一、前言 用户在浏览器访问一个网站时&#xff0c;会有前后端数据交互的过程&#xff0c;前后端数据交互也有几种的情况&#xff0c;一下就简单的来说明一下 二、原理 介绍前后端交互前先来了解一下浏览器的功能&#xff0c;浏览器通过渲染引擎和 JavaScript 引擎协同工作&am…

东北财税之星:董女士的家乡创业记

乐财业智慧财税赋能平台&#xff0c;是一个帮助财税机构专业提升、业务增长&#xff0c;让财税生意更好做的综合赋能平台。聚焦财税公司业绩增长&#xff0c;预计2027年帮助2000家财税合伙人利润增长300%&#xff0c;致力打造轻量化、批量化、智能化的”业财税“一体财税服务生…