【开放词汇检测】MM-Grounding-DINO论文翻译

news2024/9/28 3:20:45

摘要

Grounding-DINO 是一种先进的开放式检测模型,能够处理包括开放词汇检测(Open-Vocabulary Detection,OVD)、短语定位(Phrase Grounding,PG)和指代表达理解(Referring Expression Comprehension,REC)在内的多项视觉任务。其有效性使得它成为各种下游应用的主要架构得到了广泛应用。然而,尽管它很重要,原始的 Grounding-DINO 模型由于缺乏训练代码而缺乏全面的公共技术细节。为了弥补这一差距,我们提出了 MM-Grounding-DINO,这是一个开源的、全面的、用户友好的流程,它是用 MMDetection 工具箱构建的。它采用了丰富的视觉数据集进行预训练,以及各种检测和定位数据集进行微调。我们对每个报告的结果进行了全面的分析,并提供了详细的复现设置。在提到的基准测试上进行的广泛实验表明,我们的 MM-GroundingDINO-Tiny 性能超过了 Grounding-DINO-Tiny 基线。我们将我们所有的模型发布给研究社区。代码和训练好的模型在 https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino 上发布。
在这里插入图片描述

1、引言

目标检测任务通常涉及将图像输入到模型中以获得建议,然后通过多模态对齐与文本匹配,这使它成为大多数最先进的多模态理解架构的关键组成部分。目前,根据输入文本的类型,目标检测可以细分为三个子任务:开放词汇检测(Open-Vocabulary Detection,OVD)、短语定位(Phrase Grounding,PG)和指代表达理解(Referring Expression Comprehension,REC)。

在这里插入图片描述
遵循零样本设置,OVD 模型在基础类别上进行训练,但要求在大规模语言词汇表内预测基础和新颖类别[29]。短语定位任务不仅需要一个类别,还需要一个描述所有候选类别的短语作为输入,并输出相应的框[25]。REC 任务的主要目标是准确识别由给定文本描述指定的目标,并随后使用边界框标出其位置[9]。

近年来,为了解决上述任务,已经探索了许多视觉定位和检测模型。在这些定位模型中,Grounding-DINO [20] 作为一种具有优越性能的主流架构被采用。基于封闭集检测器 DINO [34],Grounding-DINO-Large 在没有任何 COCO 训练数据的情况下,在 COCO [17] 上实现了最先进的零样本性能(mAP 52.5)。Grounding-DINO 在多个阶段执行视觉和语言模态的集成,包括特征增强器、查询选择模块和解码器。这种深度融合方法显著提高了开放式环境中对象的检测能力,基于 DETR 的结构使其成为一个没有任何硬编码模块的端到端网络。

鉴于 Grounding-DINO 在上述三个下游任务中展示了卓越的精度,然而它并不完全开源(只提供了测试和演示代码),我们利用 OpenMMLab 项目中的 MMDetection 工具箱[4]重建了 Grounding-DINO 模型,遵循 Grounding-DINO 的官方测试代码。模型的结构几乎保持不变,除了初始化期间的修改。基于 Grounding-DINO 框架,我们提议应用更多数据集进行预训练,包括 COCO、Objects365 [27]、GRIT [23]、V3Det [28]、RefCOCO [13]、RefCOCO+ [33]、RefCOCOg [22]、GQA [11]/ Flickr30k Entities [24](组合也被称为 GoldenG 数据集 [12]),结果是一个更强大的基于 Grounding-DINO 的模型,我们称之为 MM-Grounding-DINO。由于 Grounding-DINO 使用的 Cap4M 数据集 [25] 并非开源,我们选择 GRIT 和 V3Det 数据集作为我们研究的替代品。
我们进一步扩展了所有可用于开放词汇检测(OVD)、短语定位(PG)和指代表达理解(REC)评估的基准测试,包括 COCO、LVIS [8]、RefCOCO/+/g、Flickr30k Entities、ODinW13/35 [15]、gRefCOCO [19] 和描述检测数据集 D 3 D^3 D3 [30]。据我们所知,我们是第一个实现一个框架,该框架便于对如此广泛的数据集数组进行系统评估。所有评估指标都在 MMDetection 中随时可用。通过大量数据预训练,MM-Grounding-DINO-Tiny 在 COCO 上实现了零样本 50.6 mAP,在 LVIS mini 上实现了 41.4 mAP,并在 REC 任务中全面超越了 Grounding-DINO-Tiny,详细结果见第 3 节。我们希望我们的流程能成为进一步研究 OVD、PG 和 REC 任务的宝贵资源。

我们论文的贡献如下:

  1. 我们提出了 MM-Grounding-DINO,这是一个基于 Grounding-DINO 并用大量视觉数据集预训练的全面开源定位流程,全面解决了 OVD、PG 和 REC 任务。
  2. 我们率先扩展了所有可用的 OVD、PG 和 REC 评估基准测试,包括 COCO、LVIS、RefCOCO/+/g、Flickr30K Entities、ODinW13/35、gRefCOCO 和 D 3 D^3 D3。所有评估指标都在 MMDetection 中随时可用。
  3. 我们通过微调我们的模型,通过多种外部特殊数据集,广泛评估了我们模型的迁移能力。

2、方法

在本节中,我们详细介绍了模型和数据集。除非另有说明,否则 MM-G 表示 MMGrounding-DINO。G-DINO 指 Grounding-DINO。O365 指 Objects365 V1,GoldG 在以下各节中指 GQA 和 Flickr30k Entities 的组合。

2.1、模型

正如我们在第 1 节中提到的,我们的模型基于 Grounding-DINO [20],几乎保持不变。我们的框架如图 3 所示。给定具有形状 [Batchsize, 3, H H H, W W W] 的图像和文本描述,我们的模型可以对描述与相应生成的边界框进行对齐。我们模型的组件包括用于提取文本特征的文本主干,用于提取图像特征的图像主干,用于深度融合图像和文本特征的特征增强器,用于查询初始化的语言引导查询选择模块,以及用于框细化的跨模态解码器。结构的更多细节见 [20]。
在这里插入图片描述

特征提取和融合。给定一对图像-文本,我们使用图像主干在多个尺度上提取图像特征,同时,文本主干用于提取文本特征。然后我们将这两种特征输入到特征增强器模块进行跨模态融合。在特征增强器模块中,文本特征和图像特征首先通过包含文本到图像交叉注意力和图像到文本交叉注意力层的 Bi-Attention Block 进行融合。然后,融合后的文本特征和图像特征分别通过普通的自注意力层和可变形自注意力层以及 FFN 层进一步增强,如算法 1 所示。
在这里插入图片描述

语言引导查询选择。为了优化文本在引导目标检测中的利用,GroundingDINO 设计了一个语言引导查询选择模块。语言引导查询选择模块根据与输入文本特征的余弦相似性选择 num_query 个提案作为解码器查询。参数 num_query 表示输入到解码器的查询数量,在实现中我们将其配置为 900,遵循 DINO [34]。解码器的输入查询由两部分组成:内容部分和位置部分。位置部分代表动态锚框,并根据语言引导查询选择模块的输出进行初始化,而内容部分初始化为全零可学习查询。

跨模态解码器。Grounding-DINO 中的跨模态解码器层旨在进一步融合文本和图像特征进行跨模态学习。在自注意力之后,架构包含了一个图像交叉注意力层,接着是一个文本交叉注意力层,并以 FFN 层结束。与 DINO 解码器层相比,每个解码器层都额外拥有一个文本交叉注意力层。这种增强是必要的,因为它需要将文本信息注入查询中,从而提高模型的性能。

训练损失。L1损失和GIOU [26]损失被实现用于框回归分支。遵循GLIP [16],我们使用焦点损失 [18] 作为预测框和语言标记之间的对比损失进行分类。每个预测的框都会与所有语言标记相乘,以计算它们之间的相似性。框回归和分类损失被联合用于计算二分图匹配损失 [3]。与Grounding-DINO一致,我们还为每个解码器层以及编码器输出纳入了辅助损失。

差异。MM-G和GDINO之间的主要区别在于对比嵌入模块。受到CLIP [25]的启发,我们在初始化对比嵌入模块时添加了偏差。这可以显著降低初始损失值并加速我们模型的收敛。

实现代码如算法2所示。
在这里插入图片描述

2.2、数据集准备

我们的数据格式受到Open Grounding-DINO [35]格式的启发,并根据MMDetection的格式进行了修改。由于MM-Grounding-DINO旨在解决三种任务,并且使用不同类型的注释数据集,我们将使用的15个数据集分别分成三组。数据集的详细信息显示在表2中。值得注意的是,在训练过程中,GRIT的全部数据(超过1300万)并不是每个epoch都完全使用。相反,它被分割成每个epoch 500,000的段落。
在这里插入图片描述

OVD数据集。我们用于训练的数据集包括COCO [17]、Objects365V1 [27]、Objects365V2 [27]、V3Det [28]、Open-Images,评估数据集包含COCO、LVIS [8]、ODinW12/35 [15]。

PG数据集。训练数据集包括GQA [11]、GRIT [23]、Flickr30K Entities [24],而Flickr30K Entities数据集也用于评估。

REC数据集。训练数据集包括RefCOCO [13]、RefCOCO+ [33]、RefCOCOg [22]。评估时,我们使用更广泛的数据集,包括RefCOCO、RefCOCO+、RefCOCOg、gRefCOCO [19] 和描述检测数据集 D 3 D^3 D3 [30]。

2.3、训练设置

文本输入规则。对于OVD训练,我们将检测数据集中的所有类别连接成长字符串,如"People. Ball. Racket. Cat.“。对于PG和REC任务,遵循M-DETR [12],在预训练阶段,我们注释文本中提到的每个对象,这导致模型在这项任务的应用上有轻微的修改。例如,在预训练期间,给定标题"The woman wearing a blue dress standing next to the rose bush.”,MM-Grounding-DINO将被训练以预测所有被提及的对象(如女性、蓝色连衣裙和玫瑰丛)的边界框。

模型变体。与Grounding-DINO类似,我们选择一个预训练良好的基于BERT的不区分大小写模型 [6] 作为我们的语言编码器,并将Swin Transformer [21] 作为图像主干。我们比较了MM-G-tiny和G-DINO-Tiny中不同数据集组合。训练数据集的选择取决于图像主干的规模,如表1所示。
在这里插入图片描述

数据增强。除了随机调整大小、随机裁剪和随机翻转外,我们还在数据增强中引入了随机负样本。我们将类别或文本描述与作为负例的从其他图像随机抽样的描述连接起来,与作为正例的真值描述一起。这可以有效地抑制模型生成的幻觉现象,从而使模型不会预测图像中不存在的对象。

计算资源。我们在32个NVIDIA 3090 GPU上训练了我们的MM-G-Tiny,总批量大小为128,训练了30个周期。由于MM-G-Large的计算成本极高,MM-G-Large模型仍在训练中。

3、主要结果

3.1、零样本迁移

在零样本设置中,MM-G模型最初在基础数据集上进行训练,随后在新颖数据集上进行评估。此外,我们还展示了一组通过微调得出的结果,以便全面比较我们的模型与Grounding-DINO的性能。这种方法确保了对模型性能的稳健评估及其在该领域的相对地位。
在这里插入图片描述

COCO基准测试。我们对预训练在O365数据集和其他PG/REC数据集上的MMGrounding-DINO进行了评估。遵循Grounding-DINO,使用COCO数据集建立零样本学习基线。我们在表3中比较了MM-Grounding-DINO-Tiny与Grounding-DINO-Tiny。结果显示,即使MM-G(a)仅用O365训练(mAP 48.5),也能胜过用O365、Gold-G和Cap 4M训练的G-DINO©(mAP 48.4),这证明了我们模型的效率。用Objects365、Gold-G和GRIT训练的MMG-T©展示了 50.5 \mathbf{50.5} 50.5 mAP的性能,比G-DINO©在COCO基准上提高了2.1 AP。这是在模型在训练期间未接触到任何COCO图像的情况下实现的,我们使用的GRIT数据甚至少于Cap 4M(4M)。对此有两个可能的解释:

  • 我们的训练策略,特别是在初始化期间增加的额外偏差,有助于模型的收敛。
  • O365数据集包含了COCO数据集的类别。因此,我们的模型已经在O365数据集上进行了广泛的训练,并自然在COCO数据集上表现出更高的准确性。这一断言通过模型在其他数据集上评估时观察到的相对较低的性能间接得到验证。
  • 还观察到,纳入V3Det数据集对COCO零样本评估没有积极贡献,甚至可能产生负面影响。

LVIS基准测试。LVIS数据集构成了一个长尾检测数据集,包含1000多个独特类别进行评估。遵循GroundingDINO,LVIS也用于零样本OVD评估。我们在表4中比较了MM-Grounding-DINO-Tiny与GroundingDINO-Tiny。我们观察到,尽管MM-G(a)在没有Cap 4M的情况下仅用O365和GoldG训练,它仍然能够在LVIS MiniVal和Val上超过G-DINO© 6.9 AP。在添加V3Det后,MM-G(c3)在MiniVal上实现了近5 AP的大幅提升,达到MiniVal上的 41.4 \mathbf{41.4} 41.4 mAP和Val上的31.9 mAP,分别超过G-DINO©显著的 12.6 \mathbf{12.6} 12.6 AP和 11.8 \mathbf{11.8} 11.8 AP!可能的原因可以归为两个方面:

  • 模型对LVIS类别词汇进行了更全面的培训。
  • V3Det包含超过13k个类别,可能涵盖了LVIS的大部分类别,[31]中也得出了类似的结论。

ODinW基准测试。ODinW(野外目标检测)基准测试代表了一项更为严格的基准测试,旨在评估模型在现实世界环境中的性能。它由35个目标检测数据集组成,每个数据集都增加了外部知识。我们使用ODinW13/35来评估我们模型的迁移能力,总结结果如表6所示。我们的MM-G-T(c3)展示了比G-DINO-T©更优越的性能,并在ODinW13和ODinW35上分别取得了 53.3 \mathbf{53.3} 53.3 mAP和 28.4 \mathbf{28.4} 28.4 mAP的分数,这证明了我们模型的稳健迁移能力。显然,广泛的词汇对于ODinW数据集具有重要意义。纳入V3Det后,模型的性能得到了显著提升。这一改进的主要原因是V3Det包含了ODinW中更广泛的类别范围。每个子数据集的详细结果如附录A.3所示。
在这里插入图片描述

RefCOCO/+/g和gRefCOCO基准测试。我们还在REC任务上评估了MM-G的零样本能力。RefCOCO、RefCOCO+和RefCOCOg建立用于REC评估,结果如表5所示。与RefCOCO相比,gRefCOCO扩大了其范围,包括多目标表达,这意味着通过单一表达指定多个目标对象。此外,gRefCOCO还容纳了不指向图像中任何对象的无目标表达。这种增加引入了显著提高的输入表达的多样性,从而增强了REC在现实世界应用中的实用性和稳健性。我们还在gRefCOCO基准上进行了评估,以评估REC的零样本能力,结果如表7所示。我们的模型能够在所有零样本评估指标上超越基线,并在gRefCOCO上要么超越要么与G-DINO大致相等。从结果中可以推断出,V3Det数据集无法为REC任务提供任何好处。
在这里插入图片描述

描述检测数据集 D 3 D^3 D3 基准测试。 D 3 D^3 D3 的特点是其灵活的语言表达,从简洁的类别名称到广泛的描述,并确保全面注释所有图像中描述的所有对象,没有遗漏。 D 3 D^3 D3 中的句子略长于普通单词,因此,它不需要模型具有高水平的理解能力。实际上,它更倾向于开放词汇检测(OVD)任务。此外, D 3 D^3 D3 中有24,282个正对象-文本对和7,788,626个负对,这对模型区分负对象的能力提出了严格的要求。我们在表8中报告了我们的结果。从结果中,我们观察到使用GRIT训练的MM-G-T(c1)和使用Cap4M训练的G-DINO-T©表现出了可比的性能。特别是,MM-G-T(c1)在长句子上表现出进步,而G-DINO-T©在处理短句子时显示出进步。这将在第3.2节中详细说明。在纳入包含大量精确注释的V3Det后,MM-G-T(c3)在短句子上的性能超过了G-DINO-T©,而长句子的性能变差。这主要是因为V3Det中的大多数文本注释是短句子。

3.2、GRIT分析

GRIT[23]是一个大型数据集,被我们用作GLIP[16]中创建的Cap 4M的替代品,因为后者不是开源的。然而,正如上述结果所示,GRIT的性能并未达到我们的预期。对于OVD任务,使用GRIT的MM-G-T(c1)在表3的COCO上仅比没有使用GRIT的MM-G-T(b)提高了+0.1 AP,在表4的LVIS上提高了+0.1 AP(Val)。对于REC任务,GRIT在表5和7的RefCOCO和gRefCOCO上带来的提升相对较低。我们观察GRIT中的图像和注释,主要原因如下:

  • GRIT的文本注释来自从COYO700 M和LAION-2B中的标题中通过spaCy[10]提取的短语或句子,包括大量抽象短语,如人名、事件、设施和地缘政治实体,这可能会导致模型的误导。
  • 在GRIT数据集中,大多数图像都附有单一注释。单一注释包括一个长句子,实际上是图像的整个标题,以及一个大致覆盖整个图像的嘈杂框。

然而,值得注意的是,GRIT的大规模数据仍然有其用途。使用GRIT的MM-G-T(c1)在表6的ODinW13/35上超过了MM-G-T(b) 5.8/2.6 AP,与使用Cap 4M预训练的G-DINO-T©相当。因此,我们从表8观察到,使用GRIT的MM-G-T(c1)和使用Cap 4M的G-DINO-T©在 D 3 D^3 D3上表现出了可比的性能。幸运的是,GRIT的单一长文本注释有助于提升MMG-T(c1)在长句子上的性能。
在这里插入图片描述

3.3、通过微调验证

本报告中的默认微调基于预训练的MM-G-T(c3)模型。

3.3.1、在COCO/LVIS上微调

在COCO上微调。我们实现了三种主流的微调方法,以全面评估MM-Grounding-DINO的能力:封闭集微调、开放集继续预训练微调和开放词汇微调。后两种微调方法旨在在提升COCO数据集上的性能的同时保持模型的泛化能力。

  • 在封闭集微调中,我们使用封闭集算法对模型进行了微调,专门针对COCO数据集进行优化。微调后,文本输入被限制在COCO类别内。
  • 在开放集继续预训练微调中,我们基于预训练阶段相同的训练策略,提出了两种不同的方法。第一种是降低学习率并冻结某些模块,然后继续在COCO数据集上训练。第二种方法是将COCO数据集与其他预训练数据集结合,继续训练。
  • 对于开放词汇微调,我们将数据集分为基础和新颖类别。在微调期间,只使用基础类别。随后,我们评估了模型在基础和新颖类别上的性能。
    在这里插入图片描述

如表10所示,MM-G-T通过封闭集微调和开放集继续预训练微调显著提高了在COCO数据集上的性能。值得注意的是,经过12个周期的封闭集微调后,MM-G-T的mAP提高了7.8,达到了58.2 mAP。有关开放词汇微调的更多结果,请参见附录A.4的表15。

在LVIS上微调。LVIS数据集以其长尾分布为特点,包含1203个类别。鉴于这种广泛的分类,我们仅针对这个数据集采用了开放集继续预训练微调和开放词汇微调。

如表9所示,开放集继续预训练微调显著增强了MM-G-T的性能。值得注意的是,MM-G-T在Mini LVIS的Apr指标上实现了9.0 mAP的大幅增长。

3.3.2、在REC上微调

针对RefCOCO/+/g进行微调。我们进一步通过在表5中详细说明的REC任务上进行微调来评估我们的模型。遵循MDETR[12],我们将微调阶段适应于短语定位,与预训练一致。
表5中的结果表明,在仅5个周期的微调后,REC任务的性能有了显著提升。这表明当前的RefCOCO/+/g数据集及其评估指标可能过于简单。即使使用短语定位进行微调,仍然可以显著提升性能。我们期待出现一个更健壮、更严格的评估指标,以进一步提高REC任务的熟练度。

3.3.3、在下游任务上的微调

为了全面展示MMGrounding-DINO的泛化能力,我们将评估扩展到各种下游任务。在微调设置中,模型最初在广泛的数据集上进行训练,然后使用各自下游任务的训练集进行特定训练。

雾中目标检测。我们的研究利用了真实世界任务驱动测试集(RTTS),包含4,322张真实世界的雾天图像,主要特点是交通和驾驶场景[14]。RTTS数据集涵盖了雾天条件下的多种常见类别,提供了一个适当的平台来访问我们的模型在多样化环境中的有效性和泛化能力。我们采用了基准测试中提出的相同的去雾和检测联合流程。令人印象深刻的是,经过12个周期的微调,MM-Grounding-DINO达到了69.1 AP,如表11所示,大大超过了先前的标准。
在这里插入图片描述

水下目标检测。在这项研究中,我们评估了MM-Grounding-DINO在真实世界水下目标检测数据集(RUOD)[7]上的性能。该数据集包含14,000张高分辨率图像,有74,903个标记实例。它的特点是类别多样,目标尺寸、图像尺寸、目标密度和类别密度各异,并引入了一系列水下挑战。这些包括类似雾的效应、色彩偏移、光干扰和复杂的海洋物体。这次评估利用RUOD数据集来确定我们的模型在不同图像领域中的能力,同时处理常见的对象子集。

表11显示,在零样本设置中,MMGrounding-DINO由于训练数据集(主要由陆地图像组成)和RUOD之间的分布不匹配,达到了29.8 mAP。然而,在经过12个周期的微调后,模型显示出35.7 mAP的改进,从而树立了新的基准。这一性能超过了之前最先进的8.1 mAP。

脑肿瘤目标检测。我们进一步将评估扩展到医疗领域,利用脑肿瘤数据集[2]。值得注意的是,这个数据集在其标记方法上是独特的,因为它只使用数字标识符而不提供描述性标签信息。如表11详细说明的,MM-Grounding-DINO的性能表现不佳Cascade-DINO[32]。我们假设,我们模型相对较差的结果可以归因于数据集依赖纯数字标签所带来的挑战,特别是在文本上下文完全未知的情况下。

城市景观目标检测。Cityscapes[5]是一个广泛的城市街道场景集合,包含3k张训练图像和500张验证图像。它以50个不同城市的街道上捕获的广泛和多样化的立体视频序列为特色,并伴随着高质量、像素级的注释。这个数据集评估了我们的模型在识别日常生活中遇到的常见物体方面的性能。值得注意的是,在表11中,我们可以观察到我们预训练的MM-Grounding-DINO已经与经过微调的模型表现一致,无需任何特定数据集的训练。经过50个周期的微调后,它提高了17.3 mAP,达到了新的最先进水平。

绘画中的人物目标检测。People in Paintings [1]最初由Raya AI创建,是RF100的一部分,旨在为模型泛化能力建立一个新的目标检测基准。这个数据集中的注释专门涉及绘画中描绘的人物。正如表11所示,我们的MM-GroundingDINO模型已经在零样本设置中超过了微调模型的性能。经过50个周期的微调后,它表现出显著的改进,实现了+15.8 AP的增长,树立了38.9 mAP的新基准。

4、结论

在本文中,我们提出了MM-Grounding-DINO,这是一个基于Grounding-DINO并用大量视觉数据集预训练的全面开源基准,全面解决了OVD、PG和REC任务。我们扩展了所有可用的OVD、PG和REC评估基准,所有评估指标都在MMDetection中随时可用。在提到的基准测试上进行的广泛实验表明,我们的MM-Grounding-DINO(或与之相当)优于Grounding-DINO基线。我们希望我们的流程能成为进一步研究定位和检测任务的宝贵资源。

A、更多结果

A.1、gRefCOCO上的详细结果

在我们的实验中,我们最初将默认阈值设置为0.7,遵循[19]。然后我们进行了一系列的测试,使用不同的阈值。这些不同阈值对我们结果的影响详细列在表12中。我们观察到阈值调整对输出有不同的影响。具体来说,0.8的阈值为验证集产生了最高的F1分数。相比之下,对于A和B两个测试集,较低的0.5阈值证明更有效。这导致了对这一数据集开发更健壮评估指标的期待。值得注意的是,在微调过程后(阈值设置为0.7),gRefCOCO的所有子集都显示出显著的改进。
在这里插入图片描述

A.2、Flickr30K Entities上的详细结果

如表13所示,与G-DINO-T相比,MM-G-T©在Flickr30K Entities上的表现较低。鉴于GoldG数据集包括了Flickr30K Entities的图像,重要的是要注意这些结果并不代表零样本场景。观察到的性能差异可能归因于训练策略和设置的变化。
在这里插入图片描述

A.3、ODinW数据集上的详细结果

我们在表14中提供了我们使用的35个数据集的详细信息。考虑到ODinW13/35数据集中类别的罕见性,GRIT和V3Det数据集带来的额外概念被证明是有益的。
在这里插入图片描述

A.4、COCO上的开放词汇微调

如第3.3.1节所述,表15中的结果显示,尽管仅在基础类别上进行微调,但在新颖类别上仍可观察到+1.5 mAP的提升。这一发现证明了开放词汇微调在保持模型泛化能力方面的有效性。
在这里插入图片描述

B、可视化

B.1、预训练数据集的可视化

在图4中,我们展示了预训练数据集的可视化。我们对这些数据集的分析揭示了几个可能破坏训练有效性的噪声元素。例如,一些标题包含没有实质性内容的功能词,如图左上角的"Who"和左下角图像中的专有名词,如人名。此外,使用GLIP生成伪标签的GRIT数据集可能存在注释不准确的情况。这在右下角的图像中很明显,框注释似乎被错误地分配了。GQA数据集中也有类似情况。在右上角的图像中,同一个短语"a woman"在标题中被分配到不同的框,这与短语定位设置相矛盾。
在这里插入图片描述

B.2、模型预测的可视化

对于图6和图5,真值注释显示在左侧,而我们的模型所做的预测显示在右侧。
在这里插入图片描述

评估的局限性。我们基于可视化的评估过程分析揭示了评估数据集真值注释的不准确性。这在图5中很明显,关于"girl"对象,我们模型的预测与现有注释相比似乎更精确。

模型的局限性。在预训练阶段,尽管模型可以访问整个标题,但它倾向于优先考虑对于短语定位设置至关重要的名词。例如,在图6a中描绘的标题"horseman without helmet"中,模型主要关注"horseman"和"helmet",然而关键的关系词"without"被忽视了。这导致了无法区分"helmet"和"without helmet"。此外,模型在解释某些详细描述时也存在困难,如图6b中,模型错误地检测到"railings being crossed by horse"。在标题中的位置描述方面,模型只实现了次优性能,如图6c所示,它将左侧的对象与右侧的对象混淆了。在图5中,我们的模型还由于短语定位设置而预测了"frisbee",这导致评估性能降低。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2137471.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java多线程——模拟接力赛跑

题目: 多人参加1000米接力跑 每人跑100米,换下个选手 每跑10米显示信息 解题思路: 1.必须要用到多线程的锁,否则就会出现三个选手乱跑的情况,我们需要一个一个跑 2.使用给oneRunner上锁的方式更细的控制资源比直接给…

qt画板v1.0

qt图形视图做的一个工具,具备画板功能,对初学习有很大作用

搭建内网文件服务器(FTP),以及实现内网Gitee

一、实现windows搭建FTP,实现文件共享和管理 具体步骤: 1.打开控制面板,搜索功能 2.打开这几个配置 3.打开IIS,添加FTP站点即可 二、实现内网Gitee 参考博客: Gitblit服务器搭建及Git使用-CSDN博客 jdk1.8.0的安…

关系数据库(1,2)

目录 关系 域 笛卡尔集 元组 分量 基数 码 关系模式 关系模式的表示方式 关系数据库 基本关系操作 完整性 关系 单一的数据结构,二维表是一个逻辑结构,关系模型建立在集合代数的基础上。 域 指具有相同数据类型的集合。 笛卡尔集 笛卡尔集是…

独立站建站及运营经验分享

什么是独立站 了解过跨境电商的朋友肯定都知道,跨境电商其实分两种,一种是入驻平台,一种是做独立站。平台例如亚马逊,速卖通,Lazada,国内就是京东淘宝,他们都属于平台,但平台的劣势…

实验一 番外篇 虚拟机联网与DHCP服务器

写的有点乱,因为刚开始遇到了一堆问题。 实验一会有联网问题,下面紧接着解决一下。 注意虚拟机设置的默认网关要有网。 参考:vmware校园网虚拟机无法连接网络解决方法_大数据_十三川浪越-华为开发者空间 【11-Windows server 2016 DHCP服务…

『功能项目』战士的伤害型技能【45】

我们打开上一篇44战士职业平A怪物掉血的项目, 本章要做的事情是制作技能按钮,点鼠标点击时释放对范围内怪物的伤害技能 首先双击打开资源脚本下的Canvas预制体 制作技能栏 在资源商店中下载免费资源 - 技能图片 将技能图片拖拽至技能栏的Button按钮组件…

细说STM32单片机使用通用定时器生成固定占空比和可变占空比PWM波的方法

目录 一、本实例测试的目的 二、硬件和CubeMX项目配置 1、硬件开发板 2、项目配置 (1)定时器TIM2_CH1 (2)时钟和Debug (3) NVIC (4)GPIO 3、输出固定占空比的PWM波源码 &…

a√斗地主之顺子

题目描述 在斗地主扑克牌游戏中,扑克牌由小到大的顺序为:3,4,5.6,7.8,9,10,J,Q,K,A,2,玩家可以出的扑克牌阵型有:单张、对子、顺子、飞机、炸弹等。 其中顺子的出牌规则为:由至少5张由小到大连续递增的扑克牌组成,且不能包含2。 例如:(3.4.…

三、Kubernetes中的控制器的使用

一 什么是控制器 官方文档: 工作负载管理 | Kubernetes 控制器也是管理pod的一种手段 自主式pod:pod退出或意外关闭后不会被重新创建 控制器管理的 Pod:在控制器的生命周期里,始终要维持 Pod 的副本数目 Pod控制器是管理pod…

Vue3+CesiumJS相机定位camera

new Cesium.Camera (scene) 摄像机由位置,方向和视锥台定义。 方向与视图形成正交基准,上和右视图x上单位矢量。 视锥由6个平面定义。每个平面都由 Cartesian4 对象表示,其中x,y和z分量定义垂直于平面的单位矢量,w分量…

springboot 整合 nacos 配置实现多个环境不同配置

目录 1、描述 2、Nacos服务端安装 3、创建dataId 配置中心 4、创建一个springboot 项目 5、重点:不同的springboot 读取不同application 6、总结 1、描述 一个项目一般会有中心配置文件,现在简单上手主流有Apollo,nacos config &#…

python的流程控制语句之制作空气质量评估系统

👨‍💻个人主页:开发者-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…

VideoSRT 注册邀请码,填写邀请码免费获得3天专业版授权

邀请码:aN2M40 填写邀请码免费获得3天专业版授权

【Python刷题】Atcoder Beginner Contest 371

目录 A - Jiro题目描述算法思路代码实现 B - Taro题目描述算法思路代码实现 D - 1D Country题目描述算法思路代码实现 E - I Hate Sigma Problem题目描述算法思路代码实现 A - Jiro 题目描述 有三个人,知道他们之中每两个人的年龄关系,输出年龄第二大的…

rust GUI框架Tauri入门——基于vanilla.js

文章目录 Tauri介绍Vite开始创建 Rust 项目 调用指令window.__TAURI_INVOKE__.invoke is undefined 问题参考资料JavaScript 模块VueVue RouteviteNuxt Tauri介绍 Tauri是一款用Rust构建的开源框架,用于创建轻量级、安全且高效的桌面应用程序。它将Rust的强大功能与…

Qt-QProgressBar显示类控件(27)

目录 描述 相关属性 使用 引入头文件机制 作用 描述 就是一个进度条,如下这个样子 相关属性 这里是一些属性 minimum进度条最⼩值maximum进度条最⼤值value进度条当前值 alignment ⽂本在进度条中的对⻬⽅式: • Qt::AlignLeft :左对⻬ • Qt::…

[Python学习日记-21] Python 中的字符编码(上)

[Python学习日记-21] Python 中的字符编码(上) 简介 ASCII 码 字符编码中的断句 GB2312 和 GBK 简介 在编程之路上,如果你不把编码问题搞清楚,那么它将像幽灵一般纠缠你整个职业生涯,各种灵异事件会接踵而来&#…

除了字符串前导的*号之外,将串中其它*号全部删除

要求 假定输入的字符串中只包含字母和*号。请编写函数fun,它的功能是:除了字符串前导的*号之外,将串中其它*号全部删除。在编写函数时,不得使用C语言提供的字符串函数。函数fun中给出的语句仅供参考。 例如,字符串中的内容为:-**…

文件格式转换:EXCEL和CSV文件格式互相转换

目录 1.EXCEl和CSV文件格式互相转换1.1首先安装所需的Python包1.2excel转换为csv代码如下:1.3csv转换为excel代码如下:由于excel文件在数学建模数据处理当中的局限性,我们通常把excel文件转换为csv文件来处理,下面是相关的代码,我直接封装成函数,你们直接调用即可,我会添…