Meerkat：第一个统一视听空间和时间定位的MLLM

大型语言模型（LLMs）在各种自然语言处理任务中表现出色，达到了理解和推理能力的人类水平精度。此外，借助新兴的指令微调范式，这些语言模型可以被赋予遵循开放式自然语言指令的能力，甚至可以与其他模态，特别是视觉结合。尽管音频通常是与相关视觉场景相辅相成的，但在LLMs的背景下，音频在很大程度上还未被探索。构建能够“倾听”的多模态LLMs可能能够开启多媒体内容分析、多模态虚拟助手、教育和培训等新应用。有限的先前工作已经将音频纳入MLLMs。然而，它们主要关注于如字幕和问答这样的粗粒度任务，这些任务相对容易纳入LLM接口。尽管最近在利用MLLMs进行定位方面取得了一些进展，但它们要么只关注视觉模态，要么由于两个模态的联合建模不足，难以捕捉视听事件中发生的细粒度细节。

本文的目标是利用LLMs进行细粒度视听理解，面临以下挑战：

不同任务的输入和输出格式存在差异（例如，根据音频查询进行图像定位，图像引导的音频时间定位）；
没有大规模数据集用于训练具有定位能力的视听LLMs。

鉴于上述挑战，本文提出了Meerkat，这是第一个能够分别在图像和音频中有效进行空间和时间定位的统一视听大型语言模型框架。它具有两个关键模块，这些模块对其细粒度理解的强能力至关重要：一个基于最优传输的模态对齐模块，它以弱监督方式学习图像和音频补丁之间的跨模态对齐；以及一个能够强制执行跨注意力热图中一致性的跨模态注意力模块。这两个模块共同使学习更好的联合视听表示成为可能。

链接：https://github.com/schowdhury671/meerkat

1 概述

1.1 多模态大型语言模型 (Multi-modal Large Language Models, MLLMs)

受大型语言模型（LLMs）在遵循指令方面能力的启发，研究者最近开始利用LLMs来理解多模态内容。不同的模态需要不同的特征提取方法。例如，图像可以使用 CLIP-ViT-B/16 等视觉模型提取特征，而音频可以使用 CLAP 等音频模型提取特征。

将不同模态的特征融合起来，以便模型可以更好地理解多模态内容。常见的融合方法包括：

视觉编码器：例如 MiniGPT4, X-LLM, Video-ChatGPT 等模型，它们通过学习视觉编码器来将 LLM 与其他模态进行潜在对齐。
跨注意力机制：例如 Otter, LLaMA-Adapter 等模型，它们将跨注意力层集成到 LLM 中，以融合多模态信息。
图像和音频编码器的结合：例如 Meerkat，它使用 CLIP 和 CLAP 的编码器提取特征，并通过 AVOpT 和 AVACE 模块进行跨模态对齐。
1.2 细粒度多模态理解 (Fine-grained Multi-modal Understanding)

许多多模态 LLM 主要关注粗粒度任务，例如字幕和问答。然而，对于需要细粒度理解的任务，例如图像对齐和音频时间定位，现有的 LLM 难以胜任。 Meerkat 采用两种方法来实现细粒度理解：

AVOpT 模块：通过最优传输方法在图像和音频特征之间进行弱监督对齐，从而提高不同模态的语义一致性。
AVACE 模块：通过跨注意力机制强制不同模态之间的区域级对齐，从而提高模型对特定对象的关注。
1.3 LLM引导的任务统一 (LLM guided Task Unification)

LLM作为任务统一框架的接口，近年来取得了巨大进步。受到语言模型成功的推动，研究者开始探索如何在语言模型的范围内统一生成和推理任务，利用其易于访问的特点。

LLM 可以作为一个统一的接口来整合不同的任务，例如图像对齐、音频时间定位和事实核查。Meerkat 使用指令微调来将不同的任务整合到 LLM 中，并使用 LoRA 进行模型微调。

2 方法论

Meerkat技术框图

2.1 多模态特征提取

Meerkat 的多模态特征提取方法有效地利用了预训练的 CLIP 和 CLAP 模型，分别提取图像和音频的特征。通过使用线性层来确保模态一致性，Meerkat 能够将图像和音频信息有效地融合到同一个语义空间中，为后续的任务处理提供坚实的基础

2.1.1 图像编码器

CLIP-ViT-B/16: Meerkat 使用预训练的 CLIP-ViT-B/16 编码器来提取图像特征。CLIP 是一个视觉语言模型，它能够将图像和文本表示在同一个语义空间中。ViT-B/16 是一个基于视觉 Transformer 的模型，能够有效地捕捉图像中的全局和局部特征。
图像嵌入表示: 图像嵌入表示 zI 是一个二维向量，其中 SI 表示图像 token 的数量，DI 表示每个 token 的隐藏维度。

2.1.2 音频编码器

CLAP: Meerkat 使用 CLAP 的音频 Transformer 作为音频编码器。CLAP 是一个针对音频数据的预训练模型，它能够学习音频特征并生成与自然语言描述相关的表示。
音频嵌入表示: 音频嵌入表示 zA 也是一个二维向量，其中 SA 表示音频 token 的数量，DA 表示每个 token 的隐藏维度。

2.1.3 模态一致性保证

在将图像和音频嵌入输入到语言模型之前，Meerkat 使用额外的线性层来确保不同模态的嵌入维度保持一致。这种一致性保证了图像和音频信息能够被语言模型有效地处理和融合。

2.2 视听特征对齐

本文为模型配备了两个不同级别的监督：通过模态对齐模块(AVOpT)实现的弱监督和通过视听一致性强化模块(AVACE)实现的强监督，有效地解决了图像和音频特征空间不一致的问题，并提高了模型在细粒度音频-视觉理解任务中的性能。

2.2.1 音频-视觉最优传输对齐 (AVOpT):

由于图像和音频分别由 CLIP 和 CLAP 模型提取特征，它们的特征空间不同，导致语义不一致。利用最优传输 (OT) 方法，在图像特征和音频特征之间进行 patch 级别的对齐。

2.2.1.1 步骤

将图像和音频输入分别编码成特征嵌入。
将特征嵌入表示成离散概率分布。
计算两个概率分布之间的 Wasserstein 距离，即 OT 距离，最小化距离的同时保持拓扑信息。
学习 OT 计划，将图像特征和音频特征之间进行映射，使它们在语义上更一致。

2.2.1.2优势

可解释性: OT 计划可以解释为图像特征和音频特征之间的映射关系，更易于理解。
鲁棒性: OT 方法对噪声和数据分布的变化具有鲁棒性。
适用于细粒度任务: 在需要细粒度理解的音频-视觉任务中，如图像参考图像 grounding，AVOpT 可以有效地对齐特征，提高模型性能。

2.2.2 音频-视觉注意力一致性强制 (AVACE)

AVOpT 虽然对齐了特征，但缺乏对目标区域和背景区域的区分。利用交叉注意力机制，将音频-视觉特征关联起来，并通过限制注意力地图的范围，强制模型关注目标区域。

2.2.2.1 步骤

将 AVOpT 学习到的特征嵌入输入到 LLM。
利用交叉注意力机制，将音频特征和图像特征关联起来。
定义一个掩码，将注意力地图限制在目标区域的边界内。
最大化目标区域内的注意力，最小化其他区域的注意力。

2.2.2.2 优势

提高定位精度: AVACE 可以帮助模型更精确地定位目标区域，提高下游任务的性能。
增强语义关联: 通过交叉注意力机制，模型可以更好地理解音频和图像之间的语义关联。

2.3 AVOpT 和 AVACE 的协同作用

AVOpT 提供了弱监督，使模型可以学习到跨模态特征的潜在关系。
AVACE 提供了强监督，强制模型关注目标区域，并增强语义关联。
两者结合，可以使模型学习到更高质量的音频-视觉表示，从而在下游任务中取得更好的性能。

3 MeerkatBench：细粒度音视频理解的统一基准套件

MeerkatBench 基准套件，旨在促进细粒度音视频理解研究。它包含了五项任务，涵盖了从细粒度到粗粒度的理解层次：

3.1 任务

音频指向图像定位 (ARIG): 根据音频输入，预测图像中目标对象的边界框坐标。
图像引导音频时间定位 (IGATL): 根据图像输入，预测音频事件发生的时间间隔。
音视频事实核查 (AVFact): 分析并验证给定音视频场景中陈述的真实性。
音视频问答 (AVQA): 回答包含音视频信息的各种问题。
音视频字幕 (AVC): 根据音视频输入生成文本描述。

3.2 数据集

MeerkatBench 使用了现有的公共数据集，例如 Openimages-AudioSet、VGGSound、AVSBench、LLP 等，并对其进行适配，以形成图像和音频配对。

此外，MeerkatBench 还包含了 300 万个指令微调样本，用于训练模型学习细粒度的音视频语义。

3.3 目标

MeerkatBench 的目标是提供一个统一的基准套件，用于评估细粒度音视频理解模型的性能。

通过包含不同粒度的任务，MeerkatBench 可以帮助研究者了解模型在不同理解层次上的能力，并推动音视频理解技术的进步。

4 实验

4.1 实验设置

4.1.1 模型

图像编码器: 使用预训练的 CLIP-ViT-B/16 编码器提取图像特征。
音频编码器: 使用 CLAP 编码器提取音频特征。
LLM: 使用开源的 Llama 2-Chat (7B) 作为 LLM 的骨干网络。
AVOpT 模块: 基于最优传输算法，学习图像和音频特征之间的弱对齐关系。
AVACE 模块: 通过交叉注意力机制，强化图像和音频特征之间的区域级对齐关系。

4.1.2 训练方法

LoRA 微调: 使用 LoRA 技术对 LLM 进行微调，以适应特定的任务。
单阶段训练: 使用一个阶段进行训练，而不是传统的两阶段训练。

4.1.3 评估指标

4.1.3.1 Audio Referred Image Grounding (ARIG)

cIoU (Intersection over Union): 衡量模型预测的边界框与真实边界框的重叠程度，取值范围在 0 到 1 之间，值越大表示重叠程度越高，模型性能越好。
AUC (Area Under Curve): 衡量模型预测的边界框与真实边界框之间的精确度和召回率的平衡，取值范围在 0 到 1 之间，值越大表示模型性能越好。

4.1.3.2 Image Guided Audio Temporal Localization (IGATL)

F1-score: 衡量模型预测的时间区间与真实时间区间之间的精确度和召回率的平衡，取值范围在 0 到 1 之间，值越大表示模型性能越好。

4.1.3.3 Audio-Visual Fact-checking (AVFact)

Precision and Recall: 用于评估模型在四种不同类型的 AVFact 任务中的性能，Precision 衡量模型预测为 True 的样本中实际为 True 的比例，Recall 衡量模型预测为 True 的样本中实际为 True 的比例。值越大表示模型性能越好。
F1-score: 可以通过 Precision 和 Recall 计算得到，用于衡量模型在四种不同类型的 AVFact 任务中的综合性能，取值范围在 0 到 1 之间，值越大表示模型性能越好。

4.1.3.4 Audio-Visual Question Answering (AVQA)

Existential, Localization, Counting, Temporal, Comparative: 这五个指标分别衡量模型在不同类型的 AVQA 任务中的性能，Existential 指的是模型是否能够回答关于事件是否存在的问题，Localization 指的是模型是否能够回答关于事件位置的问题，Counting 指的是模型是否能够回答关于事件数量的问题，Temporal 指的是模型是否能够回答关于事件时间的问题，Comparative 指的是模型是否能够回答关于事件比较的问题。每个指标都采用二分类指标进行评估，例如 Precision 和 Recall，值越大表示模型性能越好。
Avg: AVQA 任务的平均值，用于衡量模型在不同类型的 AVQA 任务中的综合性能。

4.1.3.5 Audio-Visual Captioning (AVC)

BLEU@4, METEOR, ROUGE, CIDEr: 这四个指标用于评估模型生成的文本与真实文本之间的相似度，值越大表示模型生成的文本越接近真实文本，模型性能越好。

4.1.4 训练细节

使用 8 个 A100 GPU 进行训练。
使用 AdamW 优化器和 DeepSpeed 进行优化。
学习率设置为 3×10−5。
使用 FP16 精度进行训练和推理。

4.2 实验结果

4.2.1 音频指向图像定位 (ARIG)

数据集: Openimages-AudioSet, Openimages-VGGSound, AVSBench, VGGSS, PASCAL Sound, Flickr-Soundnet。
任务: 根据音频输入，预测图像中相关对象的边界框坐标。
评估指标: cIoU 和 AUC。
结果: Meerkat 在所有数据集上都取得了最先进的性能，相对改进高达 20.34%。

4.2.2 图像引导音频时间定位 (IGATL)