腾讯NUS推出下一代多模态智能，支持2/3D视觉、听觉、触觉、脑电

news2026/3/30 7:12:04

多模态感知一直是通用人工智能发展的关键领域。理想中的智能体能像人类一样感知多种模态信息，如视觉、听觉、嗅觉、触觉等，并与用户进行自然交互。然而，现有的大型模型虽然在图像和文字上表现出色，但对其他模态（如3D点云、触觉数据等）的泛化能力有限。

在本文中，NUS和腾讯的研究人员合作推出ViT-Lens-2，借助预训练的ViT提取各种模态表征，支持3D点云、深度、音频、触觉和EEG脑电，在各种表征任务中取得了SOTA结果。通过模态对齐和共享ViT参数实现了新兴下游功能，以零样本方式实现了任何模态生成文本和图像的能力。

论文题目：

ViT-Lens-2: Gateway to Omni-modal Intelligence

论文链接：

https://arxiv.org/abs/2311.16081

开源代码：

GitHub - TencentARC/ViT-Lens: [Preprint] ViT-Lens: Towards Omni-modal Representations

开源模型：

https://huggingface.co/TencentARC/ViT-Lens/tree/main

项目主页：

ViT-Lens

当海浪声在脑海中回响时，你是否想象过置身于金色沙滩和碧蓝大海交织的奇妙景象？当你触摸家居商店的沙发时，是否幻想过它如何放置在家中与新年的装饰相得益彰？这种像人类或其他动物一样感知各种模态并生成视觉画面的能力，出现在最近公布的智能模型中：01. TL;DR

ViT-Lens革新了多模态表征学习！这个方法不仅在多种模态的基准测试中取得了sota成绩，更可以无需额外训练，直接插入图文多模态大模型，激发全新功能。

ViT-Lens: 任意模态生成图片

01. TL;DR

02. 介绍

多模态感知一直是通用人工智能发展的关键领域。理想中的智能体能像人类一样感知多种模态信息，如视觉、听觉、嗅觉、触觉等，并与用户进行自然交互。

然而，现有的大型模型如LLaVA、InstructBLIP和SEED LLaMA等虽然在图像和文字上表现出色，但对其他模态（如3D点云、触觉数据等）的泛化能力有限，因为这些模态的训练数据相对稀缺。

有没有一种方法，不需要额外的海量数据，就能轻松提升模型在多种模态上的表现？NUS和腾讯的研究人员合作推出ViT-Lens，设计并采用Lens结构，借助预训练的ViT提取多模态数据特征，实现了多模态对齐学习。这种新方法不仅提升了模型性能，还能直接嵌入多模态大模型，开启一系列神奇功能：从任意模态信号进行问答交互，根据任意模态的数据生成“想象中”的图片（如根据沙发材料的触感生成沙发图片），甚至根据用户的编辑指令和模态输入数据生成符合条件的图片。

03. 方法

ViT-Lens旨在实现多模态特征对齐，将其作为模型学习的目标。该方法利用匹配的锚数据(一般来源于常见的图片或文字)进行特征对齐。

针对需要学习的新模态数据，该方法引入可训练的ModEmbed和Lens模块，和固定参数的预训练的ViT层，将这些模块级联以学习新模态的特征提取。

对于锚数据，我们利用鲁棒的基础模型（如视觉基础模型、语言基础模型或CLIP）进行特征提取。随后，通过训练得到的新模态数据的特征与锚定数据的特征进行对齐，从而优化网络参数。

ViT-Lens的另一个优点是，训练好的Lens模块可以轻松地嵌入到图文多模态大模型中。这使得其中的大语言模型（LLM）能够理解新的模态。通常情况下，图文多模态大模型由视觉模型ViT、大语言模型LLM和二者之间连接的参数Abstractor组成。通过ViT-Lens的训练，我们可以直接将训练好的Lens模块整合到多模态大模型中，让新模型能够扩展原有图文多模态大模型的能力到新的模态。最激动人心的是，这样的扩展不需要构建新的数据用于大模型的训练，就能够达到令人满意的效果。

04. 实验

作者在多个模态数据上使用ViT-Lens进行了一系列实验，包括3D点云(3D Point Clouds)，深度图(depth)，音频(audio)，触觉(tactile)和脑电图(EEG)。在多个理解任务中，ViT-Lens的性能均超越了先前的方法。

4.1 理解任务

在3D物体点云零样本分类任务中，ViT-Lens表现出众，在使用不同预训练数据训练时，均超越之前方法的性能。使用OpenShape提供的训练数据训练的ViT-Lens-G在3个数据集上达到了sota的结果。特别值得一提的是，当从训练数据中排除包含LVIS子集的数据时，ViT-Lens在Objaverse-LVIS数据集上仍然保持着出色的表现(50.1%)，而其他方法在这个数据集上的性能则大幅下降。这表明了ViT-Lens能够充分利用模型所蕴含的知识，以一定程度上弥补训练数据不足的局面。

在其他模态的实验中，ViT-Lens的表现同样不俗。在音频、视频和深度理解任务中，使用Large规模的ViT模型，ViT-Lens即超越了ImageBind的Huge版本。在触觉和脑电图理解任务中，ViT-Lens的性能也均超越了先前的方法。

4.2 ViT-Lens应用展示

通过在多个模态上训练得到ViT-Lens模型，这个工作开启了许多有趣的应用。

图中展示了几个引人注目的例子。在 (A) 和 (B) 中的案例中，通过将训练好的Lens插入到InstructBLIP中，实现了大型语言模型对单一模态数据进行详细描述，并能够处理多种混合模态数据，并以此编写故事。在 (C)、(D) 和 (E) 中的案例中，我们将训练好的Lens嵌入到SEED-LLaMA中，无需额外训练即可生成任意模态到图片的转换。此外，还能够基于模态输入添加编辑属性，如“添加万圣节的节日氛围”或“合理地编排这两个物体到同一张图中”等。值得注意的是，无论是文字生成还是图片生成，ViT-Lens都展现了出色的细节捕捉能力。比如，对于 (A) 中钢琴“large in size”的描述以及在 (C)、(D) 中3D形状和细节的保留。下面给出更多的效果展示。

ViT-Lens还能与其他工作联动，为多模态数据在室内场景中的语义搜索提供可能。比如，听到马桶冲水声音信号，系统能迅速定位到马桶位置。

05. 全面开源

ViT-Lens项目已全面开源，包括训练代码、推理代码和模型。我们将持续更新更多模型和在线demo供大家探索。此外，开源的ViT-Lens提供了一键替换ImageBind的接口，感兴趣的小伙伴可以尝试使用！

更多细节请看 GitHub - TencentARC/ViT-Lens: [Preprint] ViT-Lens: Towards Omni-modal Representations

06. 结语

ViT-Lens提出了一种普适的多模态表征学习方法，充分利用预训练模型的丰富知识，提高模型性能。ViT-Lens展示了在多种模态理解任务上的显著提升，并将图文多模态大模型的能力扩展到了各种模态。让我们期待ViT-Lens为全模态智能发展注入新的活力，并启发更多创新研究和应用！

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1377610.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！