腾讯NUS推出下一代多模态智能,支持2/3D视觉、听觉、触觉、脑电

news2025/1/11 17:11:45

多模态感知一直是通用人工智能发展的关键领域。理想中的智能体能像人类一样感知多种模态信息,如视觉、听觉、嗅觉、触觉等,并与用户进行自然交互。然而,现有的大型模型虽然在图像和文字上表现出色,但对其他模态(如3D点云、触觉数据等)的泛化能力有限。

在本文中,NUS和腾讯的研究人员合作推出ViT-Lens-2,借助预训练的ViT提取各种模态表征,支持3D点云、深度、音频、触觉和EEG脑电,在各种表征任务中取得了SOTA结果。通过模态对齐和共享ViT参数实现了新兴下游功能,以零样本方式实现了任何模态生成文本和图像的能力。

image.png

论文题目:

ViT-Lens-2: Gateway to Omni-modal Intelligence

论文链接:

https://arxiv.org/abs/2311.16081

开源代码: 

GitHub - TencentARC/ViT-Lens: [Preprint] ViT-Lens: Towards Omni-modal Representations

开源模型:

https://huggingface.co/TencentARC/ViT-Lens/tree/main

项目主页: 

ViT-Lens

当海浪声在脑海中回响时,你是否想象过置身于金色沙滩和碧蓝大海交织的奇妙景象?当你触摸家居商店的沙发时,是否幻想过它如何放置在家中与新年的装饰相得益彰?这种像人类或其他动物一样感知各种模态并生成视觉画面的能力,出现在最近公布的智能模型中:01. TL;DR

ViT-Lens革新了多模态表征学习!这个方法不仅在多种模态的基准测试中取得了sota成绩,更可以无需额外训练,直接插入图文多模态大模型,激发全新功能。

ViT-Lens: 任意模态生成图片

01. TL;DR

ViT-Lens革新了多模态表征学习!这个方法不仅在多种模态的基准测试中取得了sota成绩,更可以无需额外训练,直接插入图文多模态大模型,激发全新功能。

02. 介绍

image.png
ViT-Lens刷榜理解任务,开启任意模态的图像生成

多模态感知一直是通用人工智能发展的关键领域。理想中的智能体能像人类一样感知多种模态信息,如视觉、听觉、嗅觉、触觉等,并与用户进行自然交互。

然而,现有的大型模型如LLaVA、InstructBLIP和SEED LLaMA等虽然在图像和文字上表现出色,但对其他模态(如3D点云、触觉数据等)的泛化能力有限,因为这些模态的训练数据相对稀缺。

有没有一种方法,不需要额外的海量数据,就能轻松提升模型在多种模态上的表现?NUS和腾讯的研究人员合作推出ViT-Lens,设计并采用Lens结构,借助预训练的ViT提取多模态数据特征,实现了多模态对齐学习。这种新方法不仅提升了模型性能,还能直接嵌入多模态大模型,开启一系列神奇功能:从任意模态信号进行问答交互,根据任意模态的数据生成“想象中”的图片(如根据沙发材料的触感生成沙发图片),甚至根据用户的编辑指令和模态输入数据生成符合条件的图片。

03. 方法

image.png
ViT-Lens训练示意图

ViT-Lens旨在实现多模态特征对齐,将其作为模型学习的目标。该方法利用匹配的锚数据(一般来源于常见的图片或文字)进行特征对齐。

针对需要学习的新模态数据,该方法引入可训练的ModEmbed和Lens模块,和固定参数的预训练的ViT层,将这些模块级联以学习新模态的特征提取。

对于锚数据,我们利用鲁棒的基础模型(如视觉基础模型、语言基础模型或CLIP)进行特征提取。随后,通过训练得到的新模态数据的特征与锚定数据的特征进行对齐,从而优化网络参数。

image.png
ViT-Lens嵌入图文多模态大模型

ViT-Lens的另一个优点是,训练好的Lens模块可以轻松地嵌入到图文多模态大模型中。这使得其中的大语言模型(LLM)能够理解新的模态。通常情况下,图文多模态大模型由视觉模型ViT、大语言模型LLM和二者之间连接的参数Abstractor组成。通过ViT-Lens的训练,我们可以直接将训练好的Lens模块整合到多模态大模型中,让新模型能够扩展原有图文多模态大模型的能力到新的模态。最激动人心的是,这样的扩展不需要构建新的数据用于大模型的训练,就能够达到令人满意的效果。

04. 实验

作者在多个模态数据上使用ViT-Lens进行了一系列实验,包括3D点云(3D Point Clouds),深度图(depth),音频(audio),触觉(tactile)和脑电图(EEG)。在多个理解任务中,ViT-Lens的性能均超越了先前的方法。

4.1 理解任务

image.png
3D物体点云零样本分类任务

在3D物体点云零样本分类任务中,ViT-Lens表现出众,在使用不同预训练数据训练时,均超越之前方法的性能。使用OpenShape提供的训练数据训练的ViT-Lens-G在3个数据集上达到了sota的结果。特别值得一提的是,当从训练数据中排除包含LVIS子集的数据时,ViT-Lens在Objaverse-LVIS数据集上仍然保持着出色的表现(50.1%),而其他方法在这个数据集上的性能则大幅下降。这表明了ViT-Lens能够充分利用模型所蕴含的知识,以一定程度上弥补训练数据不足的局面。

image.png
其他模态的理解任务

在其他模态的实验中,ViT-Lens的表现同样不俗。在音频、视频和深度理解任务中,使用Large规模的ViT模型,ViT-Lens即超越了ImageBind的Huge版本。在触觉和脑电图理解任务中,ViT-Lens的性能也均超越了先前的方法。

4.2 ViT-Lens应用展示

通过在多个模态上训练得到ViT-Lens模型,这个工作开启了许多有趣的应用。

image.png

图中展示了几个引人注目的例子。在 (A) 和 (B) 中的案例中,通过将训练好的Lens插入到InstructBLIP中,实现了大型语言模型对单一模态数据进行详细描述,并能够处理多种混合模态数据,并以此编写故事。在 (C)、(D) 和 (E) 中的案例中,我们将训练好的Lens嵌入到SEED-LLaMA中,无需额外训练即可生成任意模态到图片的转换。此外,还能够基于模态输入添加编辑属性,如“添加万圣节的节日氛围”或“合理地编排这两个物体到同一张图中”等。值得注意的是,无论是文字生成还是图片生成,ViT-Lens都展现了出色的细节捕捉能力。比如,对于 (A) 中钢琴“large in size”的描述以及在 (C)、(D) 中3D形状和细节的保留。下面给出更多的效果展示。

image.png
ViT-Lens+InstructBLIP与其他caption模型的对比
image.png
ViT-Lens+SEED-LLaMA更多生成结果

image.png

ViT-Lens还能与其他工作联动,为多模态数据在室内场景中的语义搜索提供可能。比如,听到马桶冲水声音信号,系统能迅速定位到马桶位置。

05. 全面开源

ViT-Lens项目已全面开源,包括训练代码、推理代码和模型。我们将持续更新更多模型和在线demo供大家探索。此外,开源的ViT-Lens提供了一键替换ImageBind的接口,感兴趣的小伙伴可以尝试使用!

更多细节请看 GitHub - TencentARC/ViT-Lens: [Preprint] ViT-Lens: Towards Omni-modal Representations

06. 结语

ViT-Lens提出了一种普适的多模态表征学习方法,充分利用预训练模型的丰富知识,提高模型性能。ViT-Lens展示了在多种模态理解任务上的显著提升,并将图文多模态大模型的能力扩展到了各种模态。让我们期待ViT-Lens为全模态智能发展注入新的活力,并启发更多创新研究和应用!


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1377610.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

韩国LG集团在 CES2024 消费电子展上发布的的无线透明OLED屏幕

国际消费类电子产品展览会(International Consumer Electronics Show,简称CES),由美国电子消费品制造商协会(简称CTA)主办,旨在促进尖端电子技术和现代生活的紧密结合。该展始于1967年&#xff…

超维空间M1无人机使用说明书——61、ROS无人机物体识别与精准投放

引言:基于空中物流的项目背景。我们提供了使用基于诗句的物体识别和精准投放、降落。实现原理如下: 1、在ROS下使用机载电脑实现物体识别 2、记载电脑根据反馈的位置发布运动控制指令 3、PX4解析机载电脑发布的命令,作出运动控制 4、设置…

PHP在线考试平台管理系统源码带文字搭建教程和操作手册

PHP在线考试平台管理系统源码带文字搭建教程和操作手册 技术架构 PHP7.2 Thinkphp6 React UmiJs nginx mysql5.7 cnetos7以上 宝塔面板 系统功能特性与介绍 采用PHP7强类型(严格模式)。 题库管理 支持多种试题类型和录题方式。 考生管理 快速导入考…

Maven的pom文件引用以及下载失败

背景&#xff1a;项目中使用到新版本的aspose-words组件&#xff0c;但是引用失败&#xff1b; pom.xml中引用,但是maven 仓库没有aspose-words 后续版本&#xff0c;所以需要在pom中配置 aspose-words的官网。 <dependencies><dependency><groupId>com.as…

x-cmd pkg | czg - git commit 智能生成工具

目录 简介首次用户功能特点竞品和相关作品进一步探索 简介 czg 源于 commitizen/cz-cli 交互插件中 cz-git 的延伸项目&#xff0c;重新使用 TypeScript 编写的零依赖独立的 Node.js 命令行工具。旨在使用交互友好的方式&#xff0c;辅助用户生成规范的 git commit message 约…

性能监控软件选择攻略

随着企业对应用程序性能的关注度不断增加&#xff0c;选择适当的性能监控软件变得至关重要。性能监控软件能够帮助企业实时追踪应用程序的性能指标&#xff0c;识别潜在问题并提高系统的稳定性。在选择性能监控软件时&#xff0c;以下攻略将有助于确保您的选择符合业务需求并能…

C#超市管理系统源码

C#超市管理系统源码 功能齐全的超市管理系统&#xff0c;专门美化过UI 请先附加数据库&#xff0c;否则无法进入系统 默认拥有最高权限账户为经理&#xff0c;密码为admin 压缩包内有使用说明

【c++】入门4

内联函数声明和定义不能分开 inline不建议声明和定义分离&#xff0c;分离会导致链接错误。因为inline被展开&#xff0c;就没有函数地址 了&#xff0c;链接就会找不到。 auto关键字 随着程序越来越复杂&#xff0c;程序中用到的类型也越来越复杂&#xff0c;经常体现在&…

依赖注入的优缺点与最佳实践

1 什么是依赖注入 依赖注入&#xff0c;全称Dependency Injection&#xff0c;简称DI。 在我们深入探讨之前&#xff0c;先来聊聊“依赖”和“注入”这两个比较术语的词。打个比方&#xff0c;你可以把“依赖”想象成电器设备的外接电线&#xff0c;而“注入”就像是把这根电…

热过载继电器 WJJL1-05/2X AC220V 0.5A-5A 导轨安装 JOSEF约瑟

系列型号 WJJL1-10D/1过载保护器&#xff1b;WJJL1-50D/1过载保护器&#xff1b; WJJL1-100D/1过载保护器&#xff1b;WJJL1-300D/1过载保护器&#xff1b; WJJL1-600D/1过载保护器&#xff1b;WJJL1-1000D/1过载保护器&#xff1b; WJJL1-2000D/1过载保护器&#xff1b;WJ…

React Native 桥接组件封装原生组件属性

自定义属性可以让组件具备更多的灵活性&#xff0c;所以有必要在JS 层通过自定义属性动态传值。 一、添加原生组件属性 因为 ViewManager 管理了整个组件的行为&#xff0c;所以要新增组件属性也需要在这里面&#xff08;如 InfoViewManager&#xff09;进行定义。 1、在Inf…

使用Web自动化测试工具显著好处

随着互联网技术的飞速发展&#xff0c;Web应用程序在企业中的重要性不断上升。为了确保Web应用程序的质量和稳定性&#xff0c;许多企业转向了Web自动化测试工具。下面是使用Web自动化测试工具的一些显著好处&#xff1a; 1. 提高测试覆盖率 Web自动化测试工具可以模拟用户与We…

软件测试|解读Python的requirements.txt文件:管理项目依赖的完整指南

简介 在Python项目中&#xff0c;管理依赖库是必不可少的。requirements.txt文件是一种常用的方式&#xff0c;用于列出项目所需的所有依赖库及其版本。本文将详细介绍requirements.txt的用法&#xff0c;帮助你更好地管理项目的依赖。 使用步骤 创建requirements.txt文件&am…

二叉树-遍历-单独精讲

文章目录 遍历中序遍历/节点的中序前序遍历-节点的前序后序遍历-节点的后序三序综合13-Apush前/前序前13-Bpush前/中序前13-Cpush前/后序前 两序重叠示例一13前序前13中序前 示例二13前序前13后序前 示例三13中序前13后序前 遍历 遍历 即:遍历每个元素。 for遍历只会遍历每个…

Kafka配置Kerberos安全认证及与Java程序集成

Background 本文主要介绍在 Kafka 中如何配置 Kerberos 认证&#xff0c;以及 java 使用 JAAS 来进行 Kerberos 认证连接。本文演示为单机版。 所用软件版本 查看 Kerberos 版本命令&#xff1a;klist -V 软件名称版本jdk1.8.0_202kafka2.12-2.2.1kerberos1.15.1 1、Kerberos …

RT-Thread:STM32 PHY 调试,使用软件包 WIZNET 驱动 W5500

说明&#xff1a; 1. 本文记录使用 RT-Thread 软件包 WIZNET驱动 W5500 的调试笔记。 2. 采用 RT-Thread Studio 工程 STM32F407VET6 芯片&#xff0c;W5500 PHY芯片&#xff0c;两者之间使用SPI接口链接 。 注意&#xff1a; 1.在按流程建立工程&#xff0c;和移植完 wizn…

ASP.NET摄影展示网站源码

ASP.NET摄影展示网站源码 项目描述 网站利用了ext技术&#xff0c;用户自定义了展示控件 前台展示类别有&#xff1a; 协会动态&#xff0c;摄影理论&#xff0c;影展影赛&#xff0c;采风路线&#xff0c; 影友之窗&#xff0c;佳作欣赏&#xff0c;器材专区&#xff0c;展览信…

「达摩院MindOpt」优化FlowShop流水线作业排班问题

FlowShop流水线作业 在企业在面临大量多样化的生产任务时&#xff0c;如何合理地安排流水线作业以提高生产效率及确保交货期成为了一个重要的问题。 一个典型的问题就是FlowShop流水线作业安排问题,也有称为生产下料问题。它涉及到多台机器、多个工序以及多个作业的调度安排。…

QWebEngineView类方法、属性、信号与槽汇总

文章目录 📖 介绍 📖🏡 环境 🏡📒 使用方法 📒📝 使用示例📝 方法📝 属性📝 信号(Signals)📝 槽(Slots)⚓️ 相关链接 ⚓️📖 介绍 📖 QWebEngineView 是 Qt 提供的一个用于呈现 Web 内容的类,基于 Google 的 Chromium 浏览器引擎。它提供了对现…

在线直线度测量仪确保了出厂圆棒无不合格品

在线直线度测量仪确保了出厂圆棒无不合格品 随着生产设备的改进&#xff0c;利用基础材料进行生产的厂家对品质要求也越来越高&#xff0c;其中圆形棒管材的直线度尺寸&#xff0c;也是广受关注&#xff0c;对其进行矫直检测&#xff0c;使其出厂无不合格品。 变抽检为全检 以前…