ImageBind 横跨六种数据模式，用向量统一 AI 语言

news2024/11/24 14:52:55

出品人：Towhee 技术团队作者：顾梦佳

人工智能（AI）最近毋庸置疑又迎来了一个高速发展的浪潮。

目前，人工智能的应用已经渗透到各个领域，包括自然语言处理、计算机视觉、语音识别、机器人技术等，为人们的生活和工作带来了极大的便利。而不同领域的人工智能通常难以兼容，跨模式的需求也大幅增加了落地的难度和成本。这是由于文本、图片、音频、视频等不同类型的数据具有不同的特征和结构，需要使用不同的算法和模型来处理。

为了解决这个问题，多模态的深度学习模型一直以来都是一个重点研究方向。以 CLIP 为代表，大多数的多模态模型只能零样本地同时表达两种数据模式，比如文本与图像、文本与音频。然而 ImageBind 在几天前横空出世，能够用同一语义空间表示六种数据模式，包括文本、图像/视频（计算机视觉）、音频、3D 深度、热量（红外辐射）和用于计算运动和位置的惯性测量单元 (IMU)。这意味着六种不同类型的数据之间的“次元壁”被打破了，只需一个 ImageBind 模型便可以实现六种数据之间的比较与转换。

｜ImageBind: Holistic AI learning across six modalities

ImageBind 是一种新型的AI模型，由人工智能“巨头” Meta AI 发布。它通过学习一个可用于表示多种感官输入的向量空间，能够同时绑定六种不同的数据模态，而无需明确的监督。这一向量空间能够识别不同模态之间的关系，从而让机器更好地理解和处理多源信息。这一突破能够升级现有的人工智能模型，推进多模态 AI 技术的发展。ImageBind 可以实现零样本和少样本识别，在各种模态的任务中都获得了最先进的成绩，甚至比专门针对这些模态进行训练的专家模型表现更好。这意味着 ImageBind 具有很强的适应性和灵活性，能够适用于各种领域的 AI 应用。

ImageBind 的论文被计算机视觉顶会 CVPR 2023 收录并突出展示，一经发布便引起了广泛关注。它在研究中发现，无需遍历所有配对可能，只要匹配图像就能绑定所有数据模式。ImageBind 将六种模态的表征映射到了一个共同的空间中，构建成一个可绑定了多种模态输入的空间。这个联合的向量空间主要帮助 ImageBind 实现了以下功能：

跨模态检索：首次实现了图像与一些模态之间的对齐，比如音频、3D 深度、文本。
语义组合：自然地组合不同模态的向量，实现通用的语义搜索，比如用鸟的图片和摩托车的声音找到一张同时带有鸟和摩托车的图片。
音频-图像生成：根据音频生成图像，利用了音频向量和预训练的文本-图像生成模型 DALLE-2。

｜ImageBind Capacities

对齐不同模态最常见的方法是对比学习，通过构建一对相关的例子和不相关的例子（正样本和负样本）学习向量空间（特征空间）。以往为了解锁更多模态，模型训练都需要使用目标模态与文本配对的数据。比如，虽然 CLIP 率先实现了图像与文本的零样本分类，但是仍需要音频-文本对数据训练才能解锁新的模态。ImageBind 的华点在于更多的模态选择，它可以零样本解锁没有配对文本数据的模态。ImageBind 把其他模态的向量都跟图像向量进行了对齐，从而在一个向量空间中实现多种模态数据的表示。针对文本-图像对，模型训练使用大规模的网络数据集，涵盖了广泛的语义概念。而对于其他模态的训练数据，包括音频、深度、热量、惯性测量单元，ImageBind 使用了自然的自监督配对图像。用不同模态数据对齐视觉特征，以此为目标训练的模型能够学习到一个通用的向量空间，具有强大的零样本迁移能力。

ImageBind 使用了 (I, M) 模态对来学习通用的联合向量空间，其中I代表图像，M 则为另一种模态。给定图像及其在另一种模态中对应的观察结果，基于 Transformer 架构的深度网络会将它们编码为归一化的向量。针对不同模态的数据，ImageBind 选择了该模态专门的预训练模型作为编码器，在每个编码器的最后添加一个模态特定的线性映射层以获得固定长度的向量输出。训练过程中，归一化后的向量会被用于对比学习损失（InfoNCE loss），从而优化编码器。ImageBind 的模型训练使用了32GB V100 或 40GB A100 GPUs，官方已经开源代码，同时提供了一个输出为1024维的预训练权重。

ImageBind 的出现无疑是振奋人心的，很大程度上打破了跨数据模态带来的限制。它提供了一个简单而实用的方法，仅图像对齐就实现了多种模态通用的向量空间。该方法可以完成更丰富的多模态任务，实现多种模态之间的丰富的组合。其中，在跨模态的检索和生成中引入音频输入，这一创新令人印象深刻。然而其论文最后，作者也呼吁大家进行更多新的基准测试，以创新多模态的AI应用。

相关资料：