大型视觉语言模型的有效性评估

原文地址：https://arxiv.org/abs/2403.04306

摘要：大型视觉语言模型（LVLM）的出现代表了通用人工智能的探索取得了显着的进步。然而，该模型在专业和一般任务中的有效性值得进一步研究。本文致力于评估流行的 LVLM 分别在专业任务和一般任务中的能力，旨在提供对这些新颖模型的全面理解。为了衡量它们在专业任务中的有效性，我们在三个不同的应用场景中采用了六项具有挑战性的任务：自然、医疗保健和工业。这六项任务包括显著/伪装/透明物体检测，以及息肉检测、皮肤病变检测和工业异常检测。我们研究了三个最新开源 LVLM（包括 MiniGPT-v2、LLaVA-1.5 和 Shikra）在这些任务中的视觉识别和本地化方面的性能。此外，我们利用上述 LVLM 和 GPT-4V 进行实证研究，评估它们在一般任务中的多模态理解能力，包括对象计数、荒谬问题回答、可视化推理、属性识别和空间关系推理。我们的调查表明，这些 LVLM 不仅在专门任务上表现出有限的熟练程度，而且在一般任务上也表现出有限的熟练程度。我们深入研究了这种不足，并发现了几个潜在因素，包括专业任务中的认知有限、物体幻觉、文本到图像的干扰以及复杂问题中鲁棒性的降低。我们希望这项研究能够为 LVLM 的未来发展提供有用的见解，帮助研究人员改进 LVLM 的通用和专业应用。

索引术语 —— 大型视觉语言模型、识别、本地化、多模态理解

1 INTRODUCTION

大型语言模型（LLM）[1]、[2]的出现因其有前景的泛化和推理能力而引发了自然语言处理领域的一场革命。受这一进展的推动，研究人员率先开发了强大的大型视觉语言模型 (LVLM) [3]、[4]、[5]，利用 LLMs 令人印象深刻的功能来增强对视觉语义的理解。这一进步特别提高了复杂视觉语言任务中的模型性能[4]、[6]、[7]，代表着朝着通用人工智能（AGI）迈出的重要一步。 AGI 是指能够解决人类或动物可以执行的任何任务的智能系统。一般来说，人类执行的任务可以根据是否需要领域专业知识分为一般任务和专门任务。因此，LVLM 的能力可以相应地分为这两方面，而这两方面对于 LVLM 迈向 AGI 的道路来说都是必不可少的。

最近，大量研究评估和调查了 LVLM 的一般和专业能力 [6]、[7]、[11]、[12]、[13]、[14]、[15]。秦等人。 [7] 进行了涵盖各种一般任务的实证研究，例如目标检测和计数，以评估 Google Bard 的视觉理解能力。傅等人。 [15]引入了一个综合评估基准来评估近期 LVLM 在一般任务（例如光学字符识别和对象计数）上的感知和认知能力。张等人。 [11] 探索了 GPT4V [5] 在视觉异常检测中的潜力，而 Tang 等人。 [12] 将 Shikra [9] 推广到未经训练的具有挑战性的伪装目标检测场景。然而，由于这些研究主要侧重于评估 LVLM 的一般能力 [6]、[7]、[15] 或探索特定 LVLM 在专门领域中的有效性 [11]、[12]、[13]、[ [14]，缺乏对近期 LVLM 在各种专业任务中性能的定量分析，导致对其能力的了解不足。

在本文中，我们对最近的几个开源 LVLM 进行了全面评估，涵盖了各种具有挑战性的专业和一般任务。我们的评估平台如图 1 所示。为了评估 LVLM 执行专门任务的能力，我们选择了三个最新的开源 LVLM（MiniGPT-v2 [4]、LLaVA-1.5 [8] 和 Shikra [9]）并对自然、医疗保健和工业三种不同应用场景中的六项专门任务进行了量化评估。

图1. 我们的评估平台的总体图。

我们使用定制的提示（指定或不指定对象类型）在专门任务和一般任务中评估最新的 LVLM。

专门的任务包括显著物体检测（SOD）、透明物体检测（TOD）、伪装物体检测（COD）、息肉检测、皮肤病变检测以及工业异常检测（AD）。

评估是通过在这些任务下进行识别（§ 2）和定位（§ 3）来实现的，最近的三个开源LVLM（MiniGPT-v2 [4]、LLaVA-1.5 [8]和Shikra [9]）是已测试。此外，在 COCO [10] 数据集上进行了实证研究，以反映 LVLM 在一般任务（§ 4）中的能力，包括对象计数、荒谬问题回答、可供性推理、属性识别和空间关系推理。每个图形组中都提供了示例，其中“<...>”表示占位符，可以在不同任务中用其他单词/短语替换。

对于自然场景，我们选择显著物体检测（SOD）[16]、[17]、[18]、透明物体检测（TOD）[19]和伪装物体检测（COD）[20]、[21]，如下这些任务涉及的目标在现实生活中越来越罕见，并且具有逐渐复杂的特征，从而给 LVLM 带来了独特的挑战。

在医疗保健领域，LVLM 的有效性通过皮肤病变检测 [22] 和息肉检测 [23] 进行评估，分别显示突出和稍弱的视觉特征。此外，工业场景中的重要任务异常检测（AD）[24]也被选择进行评估。在学术界，这六项任务配有定制数据集，涵盖广泛的专业领域，从而能够对 LVLM 的专业能力进行全面评估。如图 1 所示，考虑到这些任务在识别和定位目标对象方面带来的固有挑战，我们采用定制的提示来评估模型的识别（§ 2）和定位（§ 3）能力。此外，我们对不受特定领域专业知识影响的通用数据集（COCO [10]）进行实证研究。我们避免在提示中指定特定的对象类型（“伪装”、“透明”或其他），旨在探索上述模型和 GPT-4V 在一般任务中的多模态理解能力（§ 4）（即，对象计数、荒谬问答、可供性推理、属性识别和空间关系推理）。评估的著名 LVLM 包括 MiniGPT-v2 [4]、LLaVA-1.5 [8]、Shikra [9] 和 GPT-4V [5]，所有这些都作为该领域的关键参与者而受到了广泛的研究关注。其中，选择了MiniGPT-v2、LLaVA-1.5和Shikra这三个可访问的开源模型，以确保专业任务评估的可行性和可重复性。

我们的调查表明，虽然这些模型在专门任务方面表现出强大的潜力，但它们仍然表现出次优的性能和有限的认知能力。这揭示了他们在这种特定情况下的转移能力不足。 LVLM 的典型弱点（例如物体幻觉、文本到图像干扰以及复杂问题中的鲁棒性下降）进一步放大了性能问题。除了在专门任务中暴露的缺点之外，这些模型在一般任务中也显示出巨大的改进空间，特别是在对象计数、空间推理和荒谬的问题回答方面。总之，本文的主要贡献有三方面：

我们构建了一个包含六个专门任务和五个一般任务的评估平台来评估 LVLM 的有效性.
我们评估了三个最新开源 LVLM 的专业能力以及四个 LVLM 的通用能力。
我们分析了它们在特殊任务和通用任务中的性能和局限性，并讨论了 LVLM 的未来发展和应用

2 RECOGNITION VIA LVLMS IN SPECIALIZED TASKS

当LVLM应用于这些专门任务时，识别这些目标对象是至关重要的一步，它反映了模型对此类任务的全局理解并直接影响其有效性。因此，我们首先对上述六项专门任务的识别能力进行了三项定量评估。随后，我们进行额外的测试来深入研究故障案例并获得进一步的见解。

2.1 定量调查

2.1.1 实验设置

专门任务中的识别涉及确定目标的存在并对它们进行分类。识别能力的第一个评估是判断物体是否存在，要求模型对“图片中是否有<伪装物体>？”等问题回答“是”或“否”。请回答“是”或“否”。如图 1 所示。查询中的占位符“<...>”表示可以在不同任务中替换的灵活单词/短语，例如息肉检测中的“息肉”。评估考虑两种不同的设置：全集（包括正样本和负样本）和正集（仅包括正样本）。

除了第一项评估之外，我们还要求 LVLMs 对目标进行分类，从而深入研究 LVLMs 的细粒度识别能力。我们的方法是提示 LVLM 从一组预先定义的潜在类别 (w/ vocabulary) 中为目标对象指定最合适的类别。在本实验中，问题包括 "图片中的伪装物体最可能属于以下哪一类？海马、螳螂、蜘蛛......"。"这样的问题。预定义的类别集合中包含数据集出现的所有类别。此外，我们还考虑了另一种评估方法，即在不提供预定义词表集的情况下进行开放式词汇探究 (w/o vocabulary)。在这个测试中，使用了一个简单明了的问题，如 "图片中的伪装物体是什么？

选择配备约 70 亿个参数的语言模型的 LLavA-1.5 [8]、Shikra [9] 和 MiniG-PTv2 [4] 版本进行评估。评估期间，每个型号的所有配置均设置为默认值。由于本文所有测试均基于上述配置，因此下文不再赘述。

2.12. 评估指标

在第一项评估中，采用准确度（A）来衡量 LVLM 进行目标识别的能力，同时还报告了全集上正面回答（表示 "是 "的回答）的概率，以供参考。准确度（A）和正面回答概率（Y）可表述如下：

其中 TP、FP、TN、FN 分别表示真阳性、假阳性、真阴性和假阴性。

对于细粒度识别，LVLM 通常会从预先定义的集合中选择可用的类别，从而与标签直接匹配以评估正确性。但是，如果没有这样的集合，生成的类别就会表现出很大的差异，这就给通过类别匹配直接评估正确性带来了挑战。因此，我们利用准确度（A∗）和语义相似度（S）[30]来分别衡量这两种情况下的性能。前者量化的是包含正确类别名称的响应比例，后者量化的是响应与基本真实标签之间的语义相似度。考虑到 LVLM 有时可能会生成未包含在预定义集合中的类似类别，S 也被用来评估 w/ 词汇量设置的性能。

2.1.3 Benchmark 数据集

我们采用了 SOD（DUTS [28] 和 SOC [25]）、COD（COD10K [20]）、TOD（Trans10K [19]）、息肉检测（ColonDB [23]、ETIS [29] 和 CP-CHILD-B [26]）、皮损检测（ISIC [22]）和 AD（MVTec AD [24] 和 VisA [27]）共 10 个数据集来评估 LVLM 在确定目标存在方面的性能。在这些数据集中，SOC、COD10K、CP-CHILD-B、MVTec AD 和 VisA 同时包含阳性样本和阴性样本，它们被用来构建全集，而其余数据集被用来形成阳性集。在 SOC、COD10K、CP-CHILD-B、MVTec AD 和 VisA 中，阳性样本的比例分别为 50%、50.7%、25%、72.9% 和 55.5%。COD10K 是唯一一个为每个目标提供类别标签的数据集，用于评估 LVLM 的细粒度识别能力。由于在负样本中判断目标是否存在对 LVLM 来说无疑是个挑战，因此我们排除干扰，只使用 COD10K 的正样本来更准确地评估细粒度识别能力。

2.1.4 结果分析和讨论

表 1 三种 LVLM 关于全集是否存在目标的实验结果。我们给出了肯定答案的概率（Y，代表 "是 "的百分比）。最高准确率 (A) 分数以粗体标出。

表 2 三种 LVLM 在正集目标出现方面的实验结果。最高准确率以粗体标出。由于正向集中没有负向样本，导致 TN = 0 和 FP = 0，因此表中的指标 A 等同于 Y。

表 3 三种 LVLM 对伪装物体分类的定量结果。最佳结果以粗体标出。我们仅对 COD10K [20] 中的阳性样本进行分类。

表 1-3 详细列出了对全集和正集的存在判定以及细粒度识别的评估结果。没有负样本会导致 TN = 0 和 FP = 0，因此表 2 中的 A 相当于表 1 中的 Y。从这些结果中可以看出以下三点：

阳性率过高。从表 1 中的结果和每个数据集中的阳性样本比例（见第 2.1.3 节），我们可以观察到，与阳性样本比例相比，这些模型始终能得到更大比例的阳性响应（Y）。特别是在 SOC 和 CPCHILD-B 数据集上，这些 LVLM 的 Y 值通常高于 0.9，而这些数据集中的阳性样本比例仅为 50%和 25%。这表明这些模型倾向于给出正向响应，这一点在表 2 中的正向集上得到了进一步证明，在这些正向集上，A 得到了极高的分数（如 1.000）（尤其是 LLaVA-1.5）。这种现象背后的原因可能是这些 LVLMS 在训练过程中学习到的样本大多是正面图像-文本对，这使得它们过于正面，从而倾向于对问题回答 "是"[31], [32]。
确定物体是否存在的能力有限。虽然 LVLM 在表 2 中的准确率（A）明显较高，但加入负样本后，整体准确率有所下降。如表 1 所示，大多数准确率都低于 0.7，这表明 LVLM 在判断目标是否存在方面的识别能力不足，尤其是在出现负样本的情况下。在这些模型中，LLaVA-1.5 对伪装物体的识别能力较强，获得了较高的准确率 (A)，同时得到的 Y 分数也接近于 COD10K 数据集中的阳性样本比例。相比之下，Shikra 在 COD10K 中的结果（Y 值）极差，因为它经常错误分类阳性样本，这表明它识别伪装物体的能力较弱。
难以对伪装物体进行分类。表 3 中的结果清楚地表明，这些 LVLM 在对伪装物体进行分类时非常吃力。虽然 LLaVA-1.5 获得了最高分，但其表现仍不能令人满意。成绩不理想可能有多种原因。首先，这些模型在识别与背景非常相似的伪装物体时可能会面临挑战，表 1 中这些模型的识别准确率不尽人意就说明了这一点。其次，伪装物体的类别可能超出了模型的知识领域，从而阻碍了它们将物体与其类别准确匹配的能力。此外，由于使用了预设集，提示语的长度延长，可能会妨碍模型的理解能力。这与表 3 中的结果一致，在排除预定义词集（即不含词汇）时，MiniGPTv2 和 Shikra 的性能（S）比提供词汇（即含词汇）时有所提高。

2.2 发掘失败案例中的本质原因

图 2. 三种 LVLM 在负样本上对伪装物体的感知反应。错误的回答用红色下划线标出，并打上叉号。

考虑到这些模型在区分负样本时会遇到困难，因此我们对具有代表性的负样本进行了测试，以深入了解造成这种现象的潜在原因。在确定目标存在时，LVLM 会被提示提供额外的描述或推理。结果如图 2 所示，并得出了三个潜在因素。

对特定属性的认知有限。如图 2 的第一个例子所示，当遇到 "图片中有伪装物体吗？是什么？"时，MiniGPT-v2 错误地将 "黑色小石头 "识别为伪装物体，而 LLaVA-1.5 则错误地将 "植物 "分类为伪装物体。这些模型仅仅因为岩石和植物在视觉上与周围环境相似就将其归类为伪装物体，这表明它们对伪装的认知有限。这种现象也出现在其他专门任务中，例如异常检测，这意味着它们对特殊物体类型的认知有限。
物体幻觉。物体幻觉是指想象出反应中的物体，但在图像中却不存在[31]，[33]，它可能会影响 LVLM 在专门任务中的识别能力。例如，对 "图片中有伪装物体吗？是什么？"的回答中，LLaVA-1.5 指出 "一个人站在沙滩上"，而 MiniGPT-v2 则提到 "小灌木丛或树"。这些物体可能会影响对目标的识别[12]，从而导致在确定物体是否存在方面的识别性能下降。
文本到图像的推理。LLaVA-1.5 在确定目标是否存在方面表现不佳，也可能是由于文字对图像的干扰，这种干扰源于提供给模型的文字提示[33]。如图 2 中第二个例子所示，当提示 "请详细描述图片 "时，LLaVA-1.5 提供了准确的图像描述。但是，当询问 "图片中有伪装物体吗？它是什么？"，提示中提到的 "伪装物体 "可能会干扰答案，导致幻觉和 LLaVA-1.5 的错误判断。

2.3 总结

第 2 节评估了 MiniGPTv2 [4]、LLaVA-1.5 [8] 和 Shikra [9] 在各种专业任务中的识别性能。其中，LLaVA-1.5 通常在存在判定和对象分类方面表现出更好的识别能力。然而，定量分析表明，虽然这些模型在没有特定领域微调的情况下在各种专门任务中表现出了一定的认知能力，但它们的识别性能还需要进一步提高。当直接应用于这些任务时，它们对专业领域的认知和理解仍然有限。除了这种有限的认知能力之外，定性研究中揭示的 LVLMs 的其他典型弱点，如物体幻觉和文本到图像的干扰，也很可能导致其性能低下。

3 LOCALIZATION VIA LVLMS IN SPECIALIZED TASKS

在本节中，我们将评估三种 LVLM 在六项专门任务中的定位能力，并通过其他定性测试进一步探讨它们的优势和局限性。

3.1 定量研究

3.1.1 实验设置

近期的 LVLM 已经展示了卓越的视觉定位能力，因为它们可以通过语言提示中指定的边界框（bboxes）来定位物体。这种能力使得将这些模型应用于上述专门任务成为可能。为了实现这一目标，我们采用了先检测后分割的两步方法。具体来说，如图 1 所示，我们首先用 "检测<透明物体>"这样的问题提示 LVLM 为特定类型的物体（如透明物体）提供边界框，从而检测出目标。随后，预测出的边界框会被用作对分割模型（SAM）[34] 的进一步提示，以执行精细分割。鉴于图片中可能存在多个方框，我们首先使用 SAM 为每个方框生成单独的掩码，然后使用布尔 OR 运算合并这些结果，以获得最终的分割结果。在所有实验中，我们都默认使用带有 ViT-H 主干网[35]的 SAM。我们还使用 ground truth 边界框进行分割，作为分割性能的上限。

3.1.2 指标

如前所述，我们先进行检测，然后再进行分割，以便利用这些模型完成专门任务。因此，在评估过程中，我们通过评估检测和分割的性能来评估它们的定位能力。为了评估检测结果，我们采用了三个广泛使用的检测指标（即精度、召回率和 IoU 阈值为 0.5 的 F1指标）。此外，还采用了三个分割指标（平均绝对误差 (M ) [37]、S-度量 (Sα) [38] 和最大 F-度量 (Fβ) [39]）来评估分割性能。值得注意的是，由于这些模型只预测边界框而不提供相应的置信度值，因此我们排除了异常检测中的平均精度（AP）[36] 等常用指标。

3.1.3 基准数据集

我们利用第 2.1.3 节中提到的 SOD（DUTS [28] 和 SOC [25]）、COD（COD10K [20]）、TOD（Trans10K [19]）、皮损检测（ColonDB [23]）、息肉检测（ETIS [29] 和 ISIC [22]）和 AD（MVTec AD [24] 和 VisA [27]）九个数据集来评估定位能力。由于这些数据集只提供掩码注释，因此我们从这些掩码中推导出 ground truth 边界框来评估检测性能。如第 2 节所述，LVLM 本身难以判断负样本中是否存在目标，因此我们仅使用上述数据集中的正样本来评估定位能力。

3.1.4 结果分析与讨论

表 4 MiniGPT-v2、LLaVA-1.5 和 Shikra 在自然场景中的检测和分割结果。符号 ↑/↓ 表示得分越高/越低越好，最高分用粗体标出。

在不同的专业任务中，通过 LVLMs 进行检测和分割的上限（ ground truth 边界框）用灰色标出。

表 5 MiniGPT-v2、LLaVA-1.5 和 Shikra 在医疗保健领域的检测和分割结果。

符号 ↑/↓ 表示得分越高/越低越好，最高分用粗体标出。在不同的专业任务中，通过 LVLMs 进行检测和分割的上限（ ground truth 边界框）以灰色标出。

表 6 MiniGPT-v2、LLaVA-1.5 和 Shikra 在工业场景中的检测和分割结果。

符号 ↑/↓ 表示得分越高/越低越好，最高分用粗体标出。在不同的专业任务中，通过 LVLMs 进行检测和分割的上限（在 ground truth 边界框上）以灰色标出。

结果见表 4-6，从中可以得出一些结论：

前景看好，但特定任务的本地化能力不足。表 4-6 中的结果表明，这些 LVLM 有希望在无需特定领域微调的情况下完成特定任务，尤其是在自然场景中。与 LLaVA-1.5 相比，Shikra 和 MiniGPT-v2 显示出更好的定位能力，当提供类别名称时，Shikra 在 DUTS（Sα 得分为 0.754）和 Trans10K（Sα 得分为 0.683）上的分割性能更胜一筹。然而。它们的检测和分割性能并不理想，因为它们的性能远远低于上限值。这表明它们在这些专门任务中的定位能力不足。具体来说，精确度和召回率方面的低得分表明，这些模型在生成精确的边界框（即大多数预测的边界框不准确）和识别目标（即大多数物体在检测中被遗漏）方面都很吃力。这些局限性最终限制了 LVLM 在专门任务中的最终分割性能。
自然场景下的卓越性能。根据表 4-6 所示的结果，这些模型在自然场景中表现出卓越的性能，尤其是在 DUTS 和 Trans10K 上。其根本原因可能是透明和突出的物体更常见，并表现出共同的属性。相反，医学图像和异常图像相对较少，且具有复杂的特征，因此给 LVLM 带来了更大的挑战。此外，我们在图 3 中说明了检测和分割结果。结果表明，这些模型在提供准确的边界框方面面临挑战，因此导致分割性能不佳。这些发现凸显了 LVLM 在专门任务中有限的定位能力。

图 3.三种 LVLM 在六项专门任务中的检测和分割结果。

预测的边界框和地面实况分别用蓝色和绿色标出。每个场景中从左至右：MiniGPT-v2 [4]、LLaVA-1.5 [8] 和 Shikra [9] 的检测（上）和分割（下）结果，以及上界（上）和 ground truth 掩码（下）的分割结果。

3.2 挖掘故障案例的内涵

如第 3.1 节所述，我们仅通过指定对象类型来评估 LVLM 的定位能力。这种设置要求模型准确感知每个物体，从而同时评估了它们的识别、推理和定位能力。因此，我们试图通过将第 3.1 节中的问题分解为多个问题来深入了解这种无能背后的根本原因。我们将重点放在 LVLM 的失败案例上，并用多个问题来提示它们。在自然场景中，我们提出了两个问题，以评估模型在准确定位给定对象（"问题 1"）和确定特定类型目标（"问题 2"）方面的能力。在工业场景中，由于异常点通常难以确定其详细类别，我们通过查询异常点的存在（"问题 1"）和图像描述（"问题 2"）来评估异常点的识别能力，并通过提供相应的描述（"问题 3"）来进一步测试其定位异常区域的能力。在医疗方面（结肠息肉检测），我们采用了与工业案例相同的方案。结果分别见图 4-6。由此可以得出定位失败的两个根本原因。

在复杂问题上的鲁棒性降低。图 4 中的结果显示，这些模型在定位给定物体或推断目标方面表现出色，尤其是在定位突出物体和透明物体时。但是，当要求它们直接定位目标类型时，它们就会出错，如图 3 所示。这种失误表明他们在面对更加复杂和抽象的问题时表现出鲁棒性下降或不熟练。也就是说，他们需要理解复杂的 "突出 "概念。值得注意的是，LVLM 在伪装物体上的表现较差，这可能是由于伪装物体与其周围环境相似。如第 2.2 节所述，这种失败也表明了 LVLM 在准确分类这些物体时所面临的挑战。

图 4.三种 LVLM 在定位给定物体和识别特定类型物体方面的反应。

预测边界框和 ground truth 分别用蓝色和绿色标出。从上至下：突出物体检测、透明物体检测和伪装物体检测的示例。错误的回答用红色下划线和叉号标出。

对医学图像和异常点的认知有限。图 5 和图 6 清楚地显示了 LVLM 对医学图像和异常情况的有限认知。例如，LLaVA-1.5 和 Shikra 错误地将 "黑橙配色"和 "数字 500 "归类为异常（如图 5 所示），而 MiniGPTv2 则错误地将结肠图像识别为 "橙子内部"（如图 6 所示）。尽管这些 LVLM 有其局限性，但在有相关描述的情况下，它们对息肉的定位能力较强（如图 6 中对 "问题 3 "的回答所示）。不过，在异常检测的定位方面仍有改进的余地。

图 5.三种 LVLM 对识别和定位异常点的响应。

预测的边界框和地面实况分别用蓝色和绿色标出。不正确的响应用红色下划线和十字标记。

图 6.三种 LVLM 在识别和定位结肠息肉方面的响应。预测的边界框和地面实况分别用蓝色和绿色标出。不正确的反应用红色下划线和十字标记。

3.3 小结

第 3 节评估了 MiniGPT-v2 [4]、LLaVA-1.5 [8] 和 Shikra [9] 在不同专业任务中定位目标的有效性。结果表明，这些模型在处理专门任务（特别是自然场景中）方面前景看好，相比 LLaVA-1.5，Shikra 和 MiniGPT-v2 显示出更优越的的定位能力。尽管取得了成功，模型的检测和分割性能仍然不足，这表明它们在专门任务中的定位能力较弱。对医学图像和异常现象的有限认知阻碍了这些 LVLM 的转移能力，而面对复杂问题时鲁棒性的下降也可能是一个额外的制约因素。

作为总结，我们在表 7 中给出了这三种模型在六项任务中的总体表现，其中设置了直观的阈值，将模型的平均表现分为三个等级。很明显，这些模型在六项任务中的识别和定位性能仍然不足，大多数情况下表现为低（L）或中（M），表明在实际场景中可用性较差。值得注意的是，Shikra 在 TOD 任务中得分较高（H），而在这些模型中，LLaVA-1.5 的识别能力优于 MiniGPT-v2 和 Shikra。然而，在定位方面，情况似乎恰恰相反。

表 7 MiniGPT-v2、LLaVA-1.5 和 Shikra 在 SOD、TOD、COD、息肉检测 (PD)、皮损检测 (SLD) 和 AD 方面的性能汇总。阈值设定在性能上限的 60% 和 80%，将模型性能分为三个直观的等级：低 (L)、中 (M) 和高 (H)。符号"-"表示不确定的情况，因为评估只在阳性集上进行，而模型则会出现阳性过高的问题。

4 CAPABILITIES OF LVLMS IN GENERAL TASKS

在本节中，我们将进行实证研究，以评估 MiniGPT-v2 [4]、LLaVA-1.5 [8] 、Shikra [9] 和 GPT-4V [5] 在各种一般任务中的性能表现。鉴于一般物体的识别和定位是当前许多 LVLM 的学习目标，而且它们在这些任务上的表现已得到广泛研究[4]、[8]、[9]，我们将重点转移到其他五个广受认可的一般任务上，包括物体计数、荒诞问题解答、承受力推理、属性识别和空间关系推理。我们利用 COCO 数据集[10]对上述任务进行了一些评估，并选择了三个具有代表性的示例，这些示例展示了与其他显示测试类似的结果，如图 7-9 所示。需要注意的是，由于 COCO 数据集中没有关于上述一般任务的基本真实注释/标签，因此本次评估仅考虑了经验调查。

图 7.四种 LVLM（MiniGPT-v2、LAVa-1.5、Shikra 和 GPT-4V）对五项一般任务的回答，包括物体计数（问题 1）、荒谬问题回答（问题 2）、承受力推理（问题 3）、属性识别（问题 4）和空间关系推理（问题 5）。错误的回答用红色下划线和叉号标出。

图 8. 四种 LVLM（MiniGPT-v2、LAVa-1.5、Shikra 和 GPT-4V）对五项一般任务的回答，包括物体计数（问题 1）、荒谬问题回答（问题 2）、承受力推理（问题 3）、属性识别（问题 4）和空间关系推理（问题 5）。错误的回答用红色下划线和叉号标出。

图 9.四种 LVLM（MiniGPT-v2、LAVa-1.5、Shikra 和 GPT-4V）对五项一般任务的回答，包括物体计数（问题 1）、荒谬问题回答（问题 2）、承受力推理（问题 3）、属性识别（问题 4）和空间关系推理（问题 5）。错误的回答用红色下划线和叉号标出。

4.1 物体计数

物体计数能力是 LVLM 感知能力的综合指标，不仅需要识别单个目标，还需要强大的计数能力。为了评估这种能力，我们在三幅图像上向 LVLM 提出了 "有多少个...... "这样的问题，如图 7-9 所示。结果显示，MiniGPTv2、LLaVA-1.5 和 Shikra 在这项评估中只达到了三分之一的准确率，而 GPT-4V 则在所有测试中都失败了。这表明 LVLM 的对象计数能力还有很大的提升空间。此外，这些模型在计数包括小物体在内的高难度物体时的低效（图 8），也凸显了增强视觉模型固有的视觉感知能力的重要性。

4.2 荒谬的问题解答

最新的 LVLM 将文本和图像输入无缝整合，实现了卓越的多模态理解能力。然而，一个耐人寻味的问题出现了：当文本内容和图像之间缺乏相关性时会发生什么？为了探究这个问题，我们努力让这些模型面临荒谬的问题。如图 7-9 所示，我们在三张没有飞机的不同图片上向 LVLMs 提问 "图片上的飞机是什么颜色的？结果显示，GPT-4V 在所有测试中都回答 "没有飞机"，而其他三个模型则总是给出不存在的飞机的颜色。错误的回答表明，这些模型无法有效利用视觉信息，而是严重依赖语言输入来生成反应。造成这种现象的一个潜在原因可能是文本输入为模型提供了先验信息，从而导致 LVLM 做出错误判断[33]。

4.3 承载力推理

承载力是指模型对物体所能提供的潜在功能或互动的认知能力[7]。我们通过询问 "图片中的哪些物体我可以...... "等问题来深入研究 LVLM 的承受力推理。结果表明，这些模型在大多数情况下都能准确识别出能够执行规定动作的物体。值得注意的是，尽管图 8 中 MiniGPT-v2 和 GPT-4V 的回答不正确，这可能是由于椅子的部分可见度造成的，但它们提到了合理的对象，这表明它们有能力在行为和相应对象之间建立联系。这些结果表明了它们在负担能力推理方面的出色表现。

4.4 属性识别

我们接着用复杂度不断增加的 "问题 4 "来验证上述模型的物体属性识别能力，如图 7-9 所示。从结果来看，与其他模型相比，MiniGPT-v2 显然更需要改进，因为在图 7 中，MiniGPT-v2 在准确识别所有颜色的花朵方面存在不足，而其他模型在简单情况下（图 7 和图 8）的表现值得称赞。此外，LLaVA1.5 和 GPT-4V 在复杂情况下的失败（图 9）表明它们解决复杂问题的能力有待进一步提高。

4.5 空间关系推理

我们用图 7-9 中的最后一个问题来评估 LVLM 的空间关系推理能力。通过评估我们可以发现，MiniGPT-v2 和 Shikra 只提供了一次错误答案，表现优异，而 LLaVA-1.5 则表现最差，在所有测试中都提供了错误答案。实验结果表明，与 MiniGPT-v2 和 Shikra 相比，LLaVA1.5 在空间关系推理方面仍有很大的改进空间。

5 CONCLUSION

5.1 结束语

在本研究中，我们通过评估 LVLM 在专门任务和一般任务中的有效性来评估 LVLM 的进展。我们首先评估了三种最新开源 LVLM（即 MiniGPT-v2、LLaVA-1.5 和 Shikra）在六项专业任务中的表现。这些任务包括渐变/伪装/透明物体检测、息肉检测、皮肤病变检测和工业异常检测。此外，还对 GPT-4V 和上述模型进行了实证研究，以评估它们在一般任务中的能力。定量结果表明，虽然这些模型在专门任务中表现出了良好的前景，但在直接应用于这些任务时却表现出了不足的转移能力（如表 7 所示）。这种局限性源于它们对专门任务领域的理解有限。除上述局限性外，LVLMs 的典型弱点（包括对象幻觉、文本到图像干扰以及面对复杂问题/概念时的鲁棒性降低）也加剧了性能挑战。除了在专门任务中缺乏转移能力外，它们在一些一般任务中也表现不佳，如物体计数、空间关系推理和荒诞问题解答。在专门任务和一般任务中观察到的不足凸显了 LVLM 在实现 AGI 的道路上还有很大的差距。这些挑战也凸显了 LVLM 在实际应用中的局限性，尤其是在医疗保健和工业等关键领域，因为在这些领域中，错误往往会产生严重的负面影响。LVLM 的性能和可靠性仍然无法满足实际应用场景的需要。

5.2 讨论

基于上述研究结果，我们就 LVLM 在专业任务中的应用及其未来发展展开了一些讨论。我们希望我们的讨论能够引发思考，并促进在这一领域的进一步探索。

探索更有效的提示。尽管目前的 LVLMs 已经达到了次优性能，但它们在专门任务中仍大有可为。因此，探索提高其性能的有效策略非常重要，这对专门任务领域和 LVLM 都有好处。在这方面，如图 6 所示，在提示中提供额外信息（即提示工程[40]）是提高其性能的可行策略。最近的一些研究也验证了这一策略，这些研究在提示中提供了更多异常定义[11]，或在提示中加入了伪装目标的额外特征[12]。

针对专门任务优化 LVLM。如前所述，提示工程在提高 LVLM 性能方面已初见成效。但是，当目标难以清晰描述时，如 COD 和 AD，提示工程的效果仍然有限。因此，未来的研究方向之一是针对特定任务优化 LVLM。要做到这一点，可以通过提示调整或微调等技术纳入特定领域的知识[14]、[41]、[42]，从而提高它们在专门任务中的性能。

减少幻觉和其他问题。当前的 LVLM 在幻觉方面遇到了重大挑战[31]、[33]、[43]、[44]，这影响了它们在一般和特定任务中的有效性。在未来的研究中，利用幻觉修正器[43]和视觉感知链[12]等先进技术克服这些挑战，有望提高 LVLMs 在不同任务中的有效性，并促进这些模型的更广泛应用。此外，实施适当的策略也同样重要，如消除共现模式的数据增强[45]，以解决这些问题。除了幻觉之外，这些模型还遇到了其他挑战，包括面对复杂问题时的鲁棒性下降，以及在众多一般任务中的有效性降低，这凸显了当前 LVLM 的综合能力仍然有限这一事实。预计未来的研究将利用越来越具有挑战性的数据集/问题，同时提供详细而具体的指令调整程序[9]、[46]，以增强 LVLM 的综合能力。此外，采用反馈/奖励机制[47]、[48]和整合专家模型[49]等先进技术也是增强其能力的可行途径。

纳入更多视觉信息。目前的 LVLM 在利用视觉信息方面有很大的局限性，因为它们仅限于利用单一图像（通常是 RGB 图像）来完成每项任务 [50]。人们普遍认为，对于某些视觉任务，如复杂场景（如背景杂乱的场景）中的物体检测和识别，仅依靠单一模式的视觉信息会带来巨大挑战[17], [51]。因此，将 LVLM 应用于这些任务时，其视觉感知能力将受到极大限制。为解决这一问题，LVLMs 未来发展的一个潜在途径是整合补充视觉信息，如深度[52]、[53]、[54]、[55]、[56]和焦点线索[51]，以增强其感知能力，其有效性已在计算机视觉领域得到广泛验证。

LVLMs 的其他潜在应用。尽管还有改进的余地，LVLMs 在图像总结/描述和视觉问题解答等任务中表现出了卓越的能力。它们在这些基本任务中的卓越能力为其在不同领域的应用带来了希望。例如，利用 LVLMs 的上述能力来协助数据注释，可以大大降低注释成本，从而为训练专家模型或增强模型能力提供更多支持[57]。此外，LVLM 在有效执行视频语言任务（如视频检索和视频描述）方面的潜力已得到显著证明[58]。受此启发，LVLM 可进一步应用于其他视频语言任务，如视频对象分割 [59]、[60]、[61] 和视频字幕 [62]，方法是首先生成对象描述，然后在单帧中执行任务。