V∗: Guided Visual Search as a Core Mechanism in Multimodal LLMs

摘要

当我们环顾四周并执行复杂任务时，我们如何看待和选择性地处理我们所看到的是至关重要的。然而，这种视觉搜索机制的缺乏，在目前的多模态LLM（MLLM）阻碍了他们的能力，专注于重要的视觉细节，特别是在处理高分辨率和视觉拥挤的图像。为了解决这个问题，我们引入了V∗的，一个LLM引导的视觉搜索机制，采用世界知识的LLM高效的视觉查询。当与MLLM相结合时，这种机制增强了协作推理，上下文理解和特定视觉元素的精确定位。这种集成产生了一个新的MLLM元体系结构，命名为Show、sEArch和TelL（SEAL）。我们进一步创建了V∗ Bench，这是一个专门用于评估MLLM处理高分辨率图像和专注于视觉细节的能力的基准。我们的研究强调了将视觉搜索功能纳入多模态系统的必要性。代码在这里可用。
在这里插入图片描述
图1.视觉搜索机制使人类能够在众多刺激中识别目标，简化了对解决问题和推理至关重要的信息的组织。在这项工作中，我们将在MLLM的背景下探索这一核心机制，解决它的缺乏，这目前阻碍了精确的视觉基础，特别是对于高分辨率图像。在这个例子中，VQA LLM无法立即回答问题，因此激活了VQLM，这是一个LLM引导的视觉搜索过程，使用常识和上下文线索来搜索所需的细节。在整个信息搜索过程中，它建立了一个视觉工作记忆（VWM），标记了与目标相关的整体背景和感兴趣的领域，然后将其重新反馈到VQA LLM，使其能够准确回答问题。

1.介绍

人类智能的标志之一是能够处理和整合多感官信息来执行复杂的任务。我们认知推理过程中涉及视觉信息的一个突出方面是进行视觉搜索的能力-在复杂的现实世界场景中有效识别和定位关键对象的过程。这种机制在与环境的交互中起着基础性的作用，并且无处不在，从在杂乱的桌子上找到钥匙到在人群中寻找朋友。此外，对于需要多个推理步骤的复杂任务来说，它也是必不可少的步骤。视觉搜索的复杂性在认知科学和视觉科学中已经研究了很长时间[37，46，48，50-52]。

虽然视觉搜索对人类来说似乎很直观，但它实际上是一个由一系列复杂行为支撑的复杂过程。为了有效地完成这项任务，自上而下的特征引导和上下文场景引导是两个基本因素，指导人类的视觉搜索过程[51]。自上而下的特征引导基于目标对象的规范或关于其一般类别的知识将人类的注意力引导到具有特定特征或属性（例如，颜色、形状和方向）的项目。上下文场景引导基于这样的事实，即对象通常在现实世界场景中的结构化场景中被良好地组织。因此，人们可以使用场景的语义、对象共现和其他基于常识知识的物理约束来关注特定区域，从而加速搜索过程。

作为实现人工通用智能的重要一步，多模态LLM（MLLM）[1，8，23，28，63]试图模仿人类整合多模态信息和执行通用任务的能力。利用大型语言模型的强大推理能力，在这一领域已经取得了重大进展。然而，当前MLLM的一个关键限制是它们依赖于预先训练的（通常是冻结的）视觉编码器，例如CLIP [39]图像编码器。这种依赖性形成了视觉信息处理的主要瓶颈。视觉编码器通常在低分辨率的图像上训练，例如224×224或336×336像素。在部署过程中，图像的大小通常也会调整为较低的分辨率。因此，编码器可能会忽略高分辨率图像中的重要细节。此外，目前的MLLM很难识别它们处理的图像中缺少或不清楚哪些重要的视觉细节，也不能主动寻找或请求这些缺失的信息。

受人类能力的启发，我们提出了SEAL（Show，SEArch和TelL），一个通用的元架构，将LLM引导的视觉搜索机制集成到MLLM中，以解决上述视觉限制。SEAL框架由VQA LLM和视觉搜索模型组成。与典型的MLLM模型不同，由于视觉编码器提供的信息不足，MLLM模型可能会拒绝回答或做出不知情的猜测（即幻觉），SEAL中的VQA LLM可以明确指出缺失的视觉细节，从而创建聚焦的目标对象。然后，使用丰富的世界知识和语言模型的常识，视觉搜索组件定位这些识别的元素，将它们添加到视觉工作记忆（VWM）中。VWM中的这些额外的视觉数据使VQA语言模型能够提供更准确和更明智的响应。SEAL的适应性允许它与各种MLLM基础模型一起工作;在我们的例子中，**我们使用LLaVA [28]（Visual instruction tuning）作为视觉搜索模型中的VQA LLM和MLLM。**有了这种新的视觉搜索能力，MLLM更好地处理需要在高分辨率图像中进行准确视觉基础的情况，正如我们的比较所强调的那样（图2）。
在这里插入图片描述
图2.GPT-4V失败的示例（访问日期：2023年10月31日），而具有V*视觉搜索机制的SEAL成功。尽管GPT-4V有一个比我们的（Vicuna-7B）更强大的LLM（GPT-4），它仍然偶尔在需要大量视觉处理的场景中挣扎。这些情况需要在高分辨率图像中进行精确的视觉基础，这是视觉搜索机制必不可少的任务。最好在屏幕上观看与缩放。图片来源见附录。

由于人类的视觉搜索过程是由自上而下的功能指导和上下文场景指导，我们设计了一个明智的视觉搜索算法称为V*的视觉搜索模型遵循类似的原则。对于人类来说，这种指导主要来自他们对物理世界的知识和经验。因此，我们的视觉搜索模型是建立在另一个MLLM，其中包含了大量的常识知识的世界，并可以有效地理由在场景中的目标的可能位置的基础上，这些知识。

现有的MLLM基准[10，21，30]主要侧重于提供跨各种任务类别的综合评估，并没有充分挑战或暴露上述当前范式的具体局限性。为了弥合这一差距，并评估我们提出的框架，我们引入了VQA Bench，这是一个新的专用VQA基准，专注于高分辨率图像的详细视觉基础。V Bench是一个以视觉为中心的基准测试*，要求多模态模型准确地基于特定的视觉信息，这些信息很容易被缺乏视觉搜索功能的标准静态视觉编码器忽略。在一个越来越被图像和视频等丰富而复杂的视觉内容所主导的世界中，MLLM能够积极关注关键的视觉信息以完成复杂的推理任务至关重要。该基准旨在突出这一基本机制的重要性，并引导MLLM朝着反映人类认知中固有的多模态处理和推理能力的方向发展。

总之，我们的贡献有三个方面：
1）我们提出了SEAL，一个MLLM元架构，旨在积极推理和搜索所需的视觉信息，这是视觉密集型多模态任务的重要能力，特别是在处理高分辨率图像时。
2）我们开发了一种视觉搜索算法V*，该算法利用LLM中固有的常识理解来在任何分辨率的图像上执行高效的知情搜索。
3)我们引入V* Bench来彻底评估MLLM在高分辨率图像中准确处理和接地详细视觉信息的能力。

2.相关工作

2.1. Computational Models for Visual Search视觉搜索的计算模型

受人类视觉搜索过程中的引导因素的启发，已经提出了一些计算模型来模拟人类视觉搜索过程。Sclar等人。[41]提出了一种结合显着图作为先验的贝叶斯网络。Torralba等人。[46]将局部显着性图与全局场景先验相结合，形成场景调制显着性图。IVSN [59]使用卷积网络来计算搜索图像和目标模板之间的相似性映射，并执行搜索greatness。Yang等人。[55]使用逆强化学习（IRL）来学习人类视觉搜索的奖励函数和策略。

然而，这样的模型主要集中在模仿人类的注视轨迹，而不需要准确地定位目标对象。它们通常采用固定大小的凝视窗口，而我们的视觉搜索模型则在分层过程中处理任何分辨率的图像。此外，它们对目标对象的类别信息和背景场景信息的使用仅限于简单的统计，而不能推广到一般领域。我们的视觉搜索模型利用丰富的常识知识，从LLM加快搜索过程。我们注意到，我们的主动搜索策略与系统II认知过程有关[16] -对于复杂任务，视觉搜索的动态计算分配变得必要。我们的方法也可以被认为是LLM中使用的思想链（CoT）技术的视觉对应物[49]。

2.2. Multimodal LLMs

在大型语言模型成功的推动下，视觉语言模型研究开始探索如何为LLM配备额外的视觉输入来解决各种多模态任务。目前，MLLM可以分为两种类型：端到端模型和LLM工具使用系统LLM-tool-using systems.。

端到端MLLM。端到端MLLM [1，8，22，23，28，63]通过投影或对齐模块将预先训练的LLM与视觉编码器连接起来，整个系统以端到端的方式联合训练。这些模型旨在将视觉特征映射到语言的输入嵌入空间或中间特征空间，使LLM能够处理视觉信息并执行视觉语言任务。虽然像CLIP [39]这样的视觉编码器通过图像-文本对齐进行预训练，可以将视觉特征转换为LLM可理解的“语言标记”形式，但这个过程引入了信息瓶颈。视觉特征的转换和投影通常会导致固有的信息丢失，特别是因为视觉编码器通常被限制为低分辨率图像。因此，这些模型可能很难提供准确的结果，或者如果关键的视觉信息捕获不佳或聚焦不足，则可能产生幻觉答案。

LLM工具使用系统LLM-tool-using systems.。使用LLM工具的系统或基于LLM的代理将LLM视为黑盒，并给予他们访问某些视觉专家系统的权限，以通过推理执行某些视觉语言任务[14，31，53，54，56，62]。这样的系统利用不同种类的视觉专家以文本的形式提供关于视觉输入的所需信息。它们通常采用字幕和检测模型来创建关于图像的一般文本信息，然后将其提供给LLM。基于图像的描述和特定的问题或任务指令，LLM进一步决定需要什么视觉信息以及通过推理调用哪些视觉专家。LLM决定终止该过程，并在它认为信息足够时提供最终答案。然而，这种系统的一个主要问题是，由于整个系统仅基于文本运行，某些视觉信息在翻译成文本时可能不可避免地被忽略或失真。此外，由于视觉专家本身并不完美，存在级联错误，并且复杂和冗长的过程使得整个系统容易失败。

3.方法

我们提出的显示，搜索和告诉Search and Tell（SEAL）框架是一个通用的元架构MLLM。它由VQA LLM和视觉搜索模型组成，通过视觉工作记忆（VWM）进行协作和交互。SEAL框架的图示如图3所示。在这项工作中，我们提供了一个SEAL的实例来验证其有效性，并选择LLaVA-7 B模型作为SEAL框架中的MLLM。我们现在详细说明这两个部分的模型结构。视觉搜索模型的训练数据策展过程和训练细节见附录A.3。
在这里插入图片描述
图3.SEAL框架的一个实例。左侧部分代表VQA LLM，它利用视觉工作记忆中的所有数据来回答问题。在右边，我们展示了V*视觉搜索算法的操作流水线。

3.1. VQA LLM with Visual Working Memory

3.1.1 Model Structure
现代MLLM通常有三个组件：视觉编码器，投影模块和LLM。投影模块的类型因不同型号而异。包括Resampler [1，22，47]、QFormer [8，23]和linear layer [5，28]等选项。LLM中投影视觉令牌的放置在模型之间也不同，例如在输入层[8，23，28，63]或中间交叉注意层[1，22]中。尽管有这些变化，但大多数模型都采用预训练的CLIP作为其视觉编码器。当处理高分辨率和视觉拥挤的图像时，CLIP提取的视觉特征可能无法捕获回答问题所需的必要信息。
在这里插入图片描述
视觉搜索机制并不总是有效的。该模型首先评估编码器的初始（全局）视觉特征是否足以回答问题。如果没有，它将以目标对象列表的格式显式列出所有需要但缺少的信息。然后，它建立了一个视觉工作记忆（VWM）。VWM有四个块，块包含初始文本问题;包含初始图像;存储搜索后的目标对象裁剪;以及存储搜索目标的坐标。接下来，视觉搜索模型搜索图像并定位每个所需的目标。然后从整个图像中裁剪包含所识别的目标的区域。裁剪的目标沿着坐标将添加到VWM中。之后，VQA LLM处理VWM中包含的数据以相应地生成响应。SEAL框架的工作流水线在算法1中示出。

在这项工作中，我们选择CLIP ViT-L/14模型[39]作为视觉特征提取器，输入大小调整并填充为224的平方。我们用它来处理的初始图像和作物的搜索目标。为了适应输入到LLM的视觉特征，我们考虑两种类型的投影模块，线性层和重采样器。线性层投影模块保持来自视觉编码器的视觉标记的数量，并且基于交叉注意的重采样器投影减少标记的数量（即，256到32）。为了管理VWM中不同内容对应的令牌长度，我们设计了一个简单的方案来灵活地在这两个投影模块之间切换。在输入仅包括初始图像特征而没有任何搜索目标的情况下，我们应用线性层投影来维护所有视觉标记。当VWM中存在一个或两个搜索目标时，假定模型需要关注这些目标。在这种情况下，我们使用线性层投影这些目标的视觉特征，并采用重采样器进行子采样的全局图像特征。对于VWM包含两个以上搜索目标的情况，重采样器用于所有视觉特征以降低计算成本。

3.2. Data Curation for VQA LLM（VQA LLM的数据管理）

由于我们的VQALLM现在将与已经搜索目标的VWM一起工作，因此我们需要执行额外的指令调优来训练VQA LLM。更多详情见附录A.1。

**Negative data for target objects reasoning (100k)**用于目标对象推理的负数据（100 k）VQA LLM必须首先识别1）回答问题所需的目标对象，以及2）在初始全局图像特征中缺失或不够清晰的目标对象。为了方便这一点，我们构建（图像，问题，答案）数据，其中问题涉及图像中不存在的一个或两个对象。此外，我们构造了关于某些对象的细节的问题，故意使其太小而不能被CLIP编码器捕获。这是通过选择边界框大小小于20 × 20的对象来实现的。对这些问题的适当回答是直截了当地承认这个问题无法回答，同时沿着清楚地列举所需的所有其他目标对象。我们使用GPT-3.5生成的问题在COCO 2017 [25]上构建了10万个数据。

**VQA数据（167 k）**该数据由三部分组成：来自[15]的GQA数据（70 k），专注于对象属性的VQA数据（51 k）和专注于空间关系的VQA数据（46 k）。在GQA子集中，我们利用原始数据集的GT和关于问题中提到的特定对象的符号。我们选择这些数据的一部分，在训练过程中将提到的对象作为VWM中的搜索目标。此外，我们使用GPT-3.5将GQA中的简短答案改写为完整的句子。对于对象属性数据，我们利用VAW [38]数据，将它们转换为标准格式的问答对，询问某些对象属性，并将这些对象视为搜索目标。关于空间关系数据，我们使用COCO 2017数据集来生成关于图像中两个对象的相对空间定位的问题，将这两个对象视为搜索目标。

**LLaVA指令调优（120 k）**为了保持通用的多模式问答和指令跟踪功能，我们还包含了LLaVA-80 K指令调优数据，其中的图像源也是COCO。此外，我们识别问题中与COCO类别匹配并具有框注释的对象实体。然后，这些匹配的对象被指定为搜索目标，创建一个额外的40 k数据集。

3.3. V∗: LLM-guided Visual Search

3.3.1 Problem Formulation
在高层次上，视觉搜索的目标与计算机视觉中的**指称表达理解referring expression comprehension（REC）**任务有相似之处[32](Generation and comprehension of unambiguous object descriptions.)。REC的目标是定位图像中的特定对象，如文本引用表达式所描述的。然而，与限制于特定大小的图像的REC不同，视觉搜索必须适应任何分辨率的图像。有时，需要在整个图像中进行彻底搜索才能找到目标对象。因此，视觉搜索效率很重要：有效的视觉搜索算法不仅要准确定位目标，而且要尽可能快地定位目标。

3.3.2 Model Structure
与人们经常放大手机以获得更清晰的视图类似，在处理高分辨率图像时，如果仅将整个图像视为小缩略图，则可能无法精确识别和定位目标对象。为了解决这个问题，一个简单的方法是将图像分割成大小均匀的小块，并对每个小块进行详尽的定位。这种蛮力策略通常用于航空图像检测和整个载玻片图像分析[6，36]。然而，它往往效率太低，无法有效管理分辨率非常高的图像-我们需要一个更智能的解决方案。

从人类在视觉搜索过程中如何利用上下文场景和自上而下的特征指导中汲取灵感，我们将类似的概念纳入到V*的视觉搜索模型的设计中。这个过程利用了一个MLLM，封装了大量的常识知识，作为启发式指导。为了定位和裁剪VWM的搜索目标，还需要增强MLLM的附加定位功能，与[20，58]中提到的功能相当。

我们的视觉搜索模型包括一个MLLM和一个本地化模块与图像骨干和两个解码器，即目标本地化解码器Dtl和搜索线索本地化解码器Dcl。MLLM具有附加的本地化能力，其词汇表中添加了本地化标记。给定图像和对象或区域的文本表达式，文本表达式首先被转换为固定格式的指令（即“请在图像中定位[对象]”）。然后与图像一起送入MLLM。MLLM输出包含查询的文本表达式的上下文和位置相关信息的本地化标记。我们用两个单独的MLP处理令牌嵌入vloc，以获得两个额外的嵌入vtl和vcl。来自视觉编码器的图像令牌然后与vtl和vcl组合，分别由解码器Dtl和Dcl处理，并且分别输出目标坐标（具有置信度分数）和搜索线索热图。Dcl类似于SAM [19]中的掩码解码器，Dtl用两个线性头实现，一个用于坐标预测，另一个用于置信度预测。这两个模块的详细结构如图4所示。
在这里插入图片描述
图4.目标定位解码器Dtl和搜索线索定位解码器Dcl的详细结构。

3.3.3 Search Algorithm
有了这个视觉搜索模型，我们的V*搜索算法的工作原理如下。给定目标对象的图像和文本表达式，V MLLM首先尝试直接定位目标*。在这个步骤中，我们从目标对象对应的vloc中获得目标坐标和搜索线索热图。当没有物体被定位时（即置信度分数福尔斯低于阈值），我们检查热图以寻找可能的目标特定线索。

搜索线索热图The search cue heatmap突出显示可能包含查询的目标对象的区域。当目标特定的线索是突出的（即当热图中的最高值超过阈值δ时），我们使用它来直接引导搜索。否则，我们询问MLLM图像中目标对象最可能的位置。这就要求MLLM利用其常识知识，并将其与图像的上下文相结合，以提供有关目标所在地的上下文线索。在接收到目标对象可能位于的区域的描述时，我们然后提示MLLM用Dcl解码器定位所描述的区域，并产生对应于上下文线索的搜索线索热图。

然后，我们使用一个简单的策略，递归地将图像划分为4个不重叠的大小相等的块1(1一个极端的情况是，当目标位于补丁的边界时，这种简单的策略可能会失败。如有必要，可以根据热图分布使用重叠的补丁或可变大小的补丁。)。为了在搜索过程中保持每个块的方形长宽比，我们根据图像的方向调整我们的划分策略。对于风景图像（即，其中宽度大于高度的两倍），我们垂直划分图像。相反，对于肖像图像（即，如果高度超过宽度的两倍），我们将其水平分割。在所有其他情况下，我们将图像分为水平和垂直两部分。这种修补方法如图5所示。随后，我们将搜索优先级分数分配给这些补丁。搜索优先级分数是从搜索线索热图（特定于目标或上下文）计算的。基于优先级分数，然后依次裁剪和处理补丁。重复该递归过程，直到目标对象被定位或者当前块的大小变得小于预定阈值。在算法2中示出了V * 算法的整个过程。
在这里插入图片描述
图5.根据图像的纵横比将图像递归地划分为四个块。景观图像是垂直划分的。肖像图像被水平分割。

Connection to A∗ Algorithm。我们的LLMguided视觉搜索V* 算法的命名灵感来自于它与启发式搜索算法A的相似之处。路径搜索算法是为路径搜索而设计的，其目的是通过使用启发式算法来近似成本来确定起点和目标之间的最短路径。在我们的LLM引导的视觉搜索的上下文中，V可以被视为A的一个独特变体，其中子图像被视为节点。对于所有节点n，成本函数g（n）被设置为统一的正常数，并且启发式函数h（n）被定义为从搜索线索热图导出的优先度分数的负值。虽然A算法的目标是找到一条从起点到目标的代价最小的路径，但我们对V*算法的关注仅仅是最小化定位目标所需的总步骤数。

4.Benchmark

为了定量评估MLLM在图像包含丰富和复杂信息并且可能不容易找到所需视觉信息的挑战性场景中的能力，我们基于来自SA-1B数据集[19]的191张高分辨率图像构建了基准V Bench，平均图像分辨率为2246×1582。

我们的基准包含两个子任务：属性识别和空间关系推理。属性识别任务有115个样本，要求模型识别物体的某种类型的属性（例如颜色、材料）。空间关系推理任务有76个样本，要求模型确定两个对象之间的相对空间关系。这些任务的重点是评估多模态模型的详细视觉分析能力。测试图像和问题都是由人工注释者精心挑选和制作的，以确保在没有图像中相关对象的准确视觉基础的情况下难以直接“猜测”正确答案。我们的基准测试示例可以在附录B中找到。

为了在我们的基准上对开源MLLM模型进行定量比较，我们为每个问题构建了多项选择。我们为开放式问题制定了四个选项，为二元问题制定了两个选项。为了确保清晰度，这些多个选择都是由人工注释者精心制作和审查的，以防止任何潜在的歧义。

5.实验

5.1. Evaluation on V∗ Bench

在这项工作中，我们在我们的SEAL框架中实现了VQA LLM，并使用VQA-7B[61]作为语言模型。我们在建议的V∗工作台上与其他开源端到端MLLM和LLM工具使用系统进行了评估。对于端到端模型，我们包括有代表性的方法，包括[8，22，23，27，28，63]，并使用似然方法来评估它们的性能，遵循[2，21]-我们选择对数似然最高的选择作为模型的预测。对于使用LLM工具的系统，我们评估了包括MM-Reaction[53]、VisualChatGPT[54]和Visprog[12]的方法。此外，我们还评估了工业多模式聊天机器人：BARD[11]、Gemini Pro[9]和GPT4-V[35]。对于LLM工具使用系统和多模式聊天机器人，我们提示他们直接回答选项，因为可能性不适用于他们，当他们发现不可能回答问题或选项都不正确时，我们要求他们选择最可能的选项。我们通过网络聊天机器人(访问：2023年10月31日)对BARD和GPT4-V进行评估，并通过API(访问：2023年12月16日)对Gemini Pro进行评估。

如表1所示，我们可以看到，大多数MLLMS的性能只是接近随机猜测。GPT-4V和Gemini系统可以较好地处理属性识别任务中一些相对简单的场景，但整体性能仍然不尽如人意。同样值得注意的是，与最初的LLaVA模型相比，LLaVA-1.5模型在属性识别任务中显示出显著的改进。这种增强部分归因于采用了训练分辨率更高的新视觉编码器(Clip-Vit-L-336px)。然而，与我们的视觉搜索策略相比，在性能上仍有相当大的差距。通过视觉搜索过程，我们的模型极大地提高了性能。尽管如此，考虑到人类可以取得近乎完美的结果，MLLMS仍有相当大的改进潜力。我们的视觉搜索在一个A100图形处理器上每个目标的平均时间成本为6.0秒。这是一种合理的权衡，因为类似于人类的视觉搜索和推理，分配更多的计算资源对于处理具有挑战性的任务是必要的。
在这里插入图片描述
表1.在V Bench上评估多模式系统。我们发现我们的SEAL模型比GPT 4V和Gemini等前沿系统性能更好，即使我们只使用维库纳-7 B LLM。这一结果证明了将视觉搜索机制集成到MLLM中的重要性。

5.2. Ablation Study

我们进行了消融实验，以验证我们关键设计的有效性。
首先，我们从与我们的VQA LLM具有相同结构(没有VWM)的LLaVA模型开始，并在相同的训练数据上对其进行训练。
然后，我们用开放世界检测器GoundingDINO[29]和OWL-VIT[34]取代视觉搜索机制，并使用检测结果填充VWM。实验结果如表2所示。我们可以看到，尽管我们在VQA LLM训练数据中包含了属性识别和空间关系推理数据，但没有视觉搜索机制的MLLM(ID 1)仍然举步维艰。与V∗相比，直接查询检测模型(ID 2和3)作为搜索过程的替代也会导致显著的性能下降。
此外，现成的探测器在应用于非常高分辨率的图像时会遇到实际困难。
在这里插入图片描述
表2.视觉搜索机制必要性的消融研究。LLaVA* 表示没有视觉搜索机制的VQA模型。检测（GD）和（OWL-ViT）分别表示用GroundingDINO和OWL-ViT替换视觉搜索模型。

5.3. Visual Search Evaluation

首先，我们在V∗工作台上记录所有245个目标对象位置。然后，我们根据搜索长度对不同的搜索策略进行评估。这里的搜索长度定义为从初始图像到目标所在的地块的搜索步数。我们只包含在搜索评估后能够成功定位的样本。我们将LLm引导的V-∗算法与两条基线进行了比较。随机基线采用随机搜索策略，即挑选一个随机子图像进行浏览，而顺序基线则按照反向的栅格扫描顺序顺序搜索子图像。这两种策略分别在广度优先搜索(BFS)和深度优先搜索(DFS)环境下进行了评估。如表3所示，V∗可以极大地缩短平均搜索长度，目标和上下文搜索线索都是有帮助的。我们在图7中提供了搜索过程的可视化。
在这里插入图片描述
表3.在V* Bench上评估不同的搜索策略。

图7.LLM引导的视觉搜索过程的例子。每个示例中的每一行表示视觉搜索过程中的一个步骤，并且上下文线索或目标特定线索的热图显示在右侧。

为了进一步研究V搜索算法的效率，并与视觉搜索中的认知科学研究进行比较，我们使用COCO-Search 18数据集[7]对我们的搜索结果和人类行为进行了比较。COCO-Search 18记录人们在自然场景图像中搜索特定目标对象时的眼睛注视。我们使用验证集并选择需要视觉搜索才能成功定位目标的样本。我们将每个样本上的地面真实人类注视序列转换为2D热图，并在搜索过程中将其用作指导。具体来说，固定序列是图像上的点的有序序列，我们通过添加以每个固定点为中心的高斯分布来将其转换为密集的2D热图，以便为每个像素分配分数。考虑到固定序列中的点的顺序，对于第i个固定点，我们乘以权重γi，其中0 < γ < 1。然后，我们使用这个由人类注视生成的热图作为指导来指导我们的搜索过程，并在搜索长度方面将其与V相比，有趣的是，V*算法可以实现与人类注视相似的效率（表4）。示例如图6所示。
在这里插入图片描述
表4.与COCO-Search 18上的人类注视比较。

图6.与COCOSearch18上的人类注视比较[7]。人类倾向于关注中心区域或突出对象，而我们的模型则关注更大的上下文区域。

5.4. General Multimodal Benchmarks Evaluation

为了验证添加视觉搜索能力不会妨碍一般的多模态能力，我们在几个多模态基准上评估了我们的模型，包括MME[10]，POPE [24]，MMBench [30]，SEED-Bench [21]，MM-Vet [57]和LLaVA-BenchW [28]。为了进行公平的比较，我们与在VQA训练数据上训练的LLaVA模型进行了比较。在表5中，我们表明，通过视觉搜索机制，综合基准MME上的性能得到了改善，POPE上的幻觉问题得到了缓解。对于更大规模的基准测试MMBench和SEED-Bench，性能基本保持不变。MM-Vet和LLaVA-BenchW的性能略有下降。这可能是由于其规模较小和使用了基于GPT 4的评价方法，这可能会引入更多的不确定性和潜在的偏倚。此外，这些基准测试中的某些问题会触发对图中项目目标的视觉搜索。这通常会导致模型无法准确定位对象，因为它是在常见对象上训练的。总体而言，虽然大多数常见的多模态基准集中在大型，突出的视觉元素，我们的模型，辅以视觉搜索机制，仍然坚持其一般的多模态功能。
在这里插入图片描述
表5.当在更广泛的多模态基准测试中进行测试时，视觉搜索模块的添加主要保持了整体多模态能力，并增强了POPE等对象幻觉基准测试的性能。

6.总结

我们介绍了SEAL MLLM框架，该框架以LLM引导的视觉搜索算法V∗为特色，用于在高分辨率图像中进行准确的视觉定位。我们新的基准V∗工作台突出了视觉搜索功能在MLLMS中的关键作用。目前，我们的视觉搜索模型主要是针对自然图像和常见对象进行定制的。为了将其扩展到文档和图表图像、长格式视频或开放世界环境，需要额外的培训和新的算法设计。此外，探索结构改进–例如整合基于卷积的模型，以便更有效地处理任何分辨率的图像–可以进一步提高搜索过程的效率。