视觉辅助的常识知识获取

摘要：大规模的常识知识库为广泛的AI应用提供了能力，其中常识知识的自动提取extraction of commonsense knowledge (CKE)是一个基本和具有挑战性的问题。文本中的CKE因其固有的稀疏性和文本中常识的报道偏差reporting bias而闻名。另一方面，视觉感知包含了丰富的关于现实世界实体的常识知识，如(人、能拿的东西、瓶子)，这可以作为获得基础常识知识的有前途的来源。在这项工作中，我们提出CLEVER，它将CKE描述为一个远端监督的多实例学习问题，其中模型学习从一组关于实体对的图像中总结常识关系，而不需要对图像实例进行任何人为注释。为了解决这一问题，CLEVER利用视觉语言预训练模型来深入理解袋子中的每个图像，并从袋子中选择信息实例，通过一种新颖的对比注意力机制来总结常识性的实体关系。综合实验结果表明，CLEVER方法能够较好地提取常识性知识，比基于语言模型的预训练方法提高了3.9个AUC点和6.4个mAUC点。预测的常识得分与人的判断具有较强的相关性，斯皮尔曼系数为0.78。此外，提取出来的常识也可以根植于具有合理解释性的图像中。

数据和源码下载：AAAI2023VisuallyGroundedCommonsenseKnowledgeAcquisition源码-深度学习文档类资源-CSDN下载

Introduction

为机器提供常识性知识是人工智能的一个长期目标（戴维斯、Shrobe和佐洛维茨，1993年）。建立常识知识库 knowledge bases（KBs）（刘和辛格2004；斯皮尔、钦和哈瓦西2017；萨普等人2019年），促进了计算机视觉的各种重要应用（吴等人2017年；纳拉辛汉、拉泽布尼克和施2018年；顾等人2019年；加德`等人2020年）和自然语言处理（周等人2018年；吴等人2020年；Lv等人，2020年)。然而，大多数常识性的kb都是人工管理的，这极大地限制了它们的覆盖范围和规模。

本文研究了常识知识提取（CKE）的基本问题和具有挑战性的问题，它旨在 提取实体之间看似合理的常识交互，例如，（人，可以持有，瓶子）。先前的工作试图从纯文本(Li等人2016年）或预训练语言模型（PLMs）中提取常识知识(Petroni等人2019年；Bosselut等人2019年）。然而，越来越多的共识是明显的常识很少在文本中报道（戈登和范杜姆2013；Paik等2021年），PLMs的常识存在低一致性和显著的报告偏差(Shwartz和崔2020年；周等2020年；Elazar等2021年）。人们也普遍怀疑，纯粹从表面文本形式学习是否能够导致真正理解常识性意义（Bender和Koller 2020）。

另一方面， 视觉感知（例如，图像）包含了关于现实世界实体的丰富常识，可以始终有基础。根据我们的统计，83%的 triplets三元组在视觉关系学习中在ConceptNet中看不到数据集，表明从图像数据中得到的CKE是一个很有前途的方向。然而，大多数现有的基于图像的CKE方法要么 被限制为有限的交互类型（例如，空间或部分关系）（陈、施里瓦斯塔瓦和古普塔2013；科勒尔、范古尔和莫恩斯2018；徐、林和朱2018），或者需要广泛的人类注释（吠陀丹等，2015）。

在这项工作中，我们提出了CLEVER，它将CKE作为一个远程的假设多实例简化问题（拉斯罗普和洛扎诺-p‘erez1997），其中模型学习从一袋图像中总结实体对的一般常识关系，如图1所示。常识性关系标签是通过将现有kb中的关系事实与图像袋对齐而自动创建的，以提供远程监督的学习信号。通过这种方式，常识性学习可以很容易地在一般领域进行扩展，而不需要进行昂贵的手动图像注释。

图1.视觉基础常识知识获取作为一个远程监督多实例学习问题。给定一个实体对和相关的图像，我们的模型首先理解每个图像中的实体交互，然后选择信息丰富的图像（实线）来总结常识关系。

为了抽取关于一对查询实体的常识事实，模型需要首先理解它们在包的每个图像中的语义交互，然后选择信息丰富的图像（即表达查询实体之间感兴趣的交互的图像）来合成常识关系。然而，我们的试点实验表明，由于现实世界的常识关系的复杂性，现有的多实例学习方法不能很好地服务于任务。因此，我们提出了一个专门的框架，通过视觉语言预训练（VLP）模型来建模图像级实体交互，并通过一种新的对比注意机制来选择有意义的图像来总结袋级常识关系。

保留和人工评价的综合实验结果表明，CLEVER可以提取质量良好的常识知识，超过基于plm的方法3.9 AUC和6.4 mAUC点。预测的常识得分与人类判断有很强的相关性，达到0.7的斯皮尔曼等级相关系数8。此外，所提取的常识也可以建立成具有合理可解释性的图像。与纯粹基于黑箱形式产生文本表面形式的基于PLM的方法相比，可以利用CLEVER的可解释性来为KBs中的常识知识提供支持证据，这对下游应用程序很有用。

我们的贡献总结为四方面： (1)我们建议将CKE表述为一个远程监督的多实例学习问题，它可以很容易地扩展到在一般领域的常识关系，而无需手动图像注释。(2)我们对来自不同数据源的现有和适应的CKE方法进行了广泛的实验，显示了它们的有效性和局限性。(3)我们提出了一个专门的CKE框架，该框架将VLP模型与一种新的对比注意机制集成起来，以处理复杂的常识性关系学习。(4)我们进行了全面的实验，证明了该框架的有效性。

Related Work

Knowledge Bases. 知识基础。存储大量结构化人类知识的大规模知识库（KBs）促进了各种人工智能的应用。许多努力致力于构建不同知识类型的KB，包括语言知识（Miller 1994）、世界知识（博拉克尔等，2008)和常识知识（刘和辛格，2004年；Speer、下巴和哈瓦西，2017年；Sap等，2019年）。然而，现有的kb主要是 用人工注释构建的，这极大地限制了它们的覆盖范围和规模。

常识性知识的获取。为了获得常识性知识，一些作品试图学习现有的 triplets三元组的内部结构（Speer，Havasi，和利伯曼，2008年；马拉维亚等人，2020年）。然而，这些模型通常存在现有kb的数据稀疏性。一个更有前途的方向是提取外部数据中包含的常识，即常识性知识提取（CKE）。以往的CKE工作可以根据知识来源分为三类，包括基于文本、基于PLM和基于图像的模型。

(1)基于文本的方法。早期的作品试图从文本中提取常识（安吉利和曼宁，2013年；Li等人，2016年）。然而，文本中的CKE存在固有的报告偏见（Gordon和Van Durme 2013），也就是说，人们很少在文本中陈述明显的常识事实，使得文本不是理想的常识知识来源。(2)基于PLM的方法。由于PLMs在培训前学习了某些常识知识，因此可以对其进行探测或微调，以生成常识知识(Petroni等人，2019年；戴维森、费尔德曼和拉什，2019年；博塞鲁特等人，2019年）。然而，研究发现，plm的常识既存在一致性低，查询模板的微小变化可能导致本质上不同的预测（周等人，2020；Elazar等人，2021），以及常识预测可能大大不同于人类判断的显著偏差（Shwartz和Choi，2020；Paik等人，2021）。(3)基于图像的方法。一些作品从包含丰富的基础常识的图像中探索了CKE。Chen、斯里瓦斯塔瓦和Gupta（2013）学习部分（即部分）和分类（即a）常识。雅茨卡尔、奥多内兹和法哈迪（2016）；Xu、Lin和Zhu（2018）提取空间常识（例如，位于附近）。Chao等人（2015）学习了关于实体的一元启示性常识。Vedantam等人（2015）；Chen等人（2022）基于人类注释提取了更一般的常识性交互作用。Sadeghi、库马尔·迪夫瓦拉和Farhadi（2015）基于实体的空间一致性来挖掘常识。与以往的工作不同，我们提取了实体之间的一般类型的常识交互，没有人类注释或对常识知识的限制性假设。

Scene Graph Generation场景图生成。理解对象之间的视觉交互也在于场景图生成的兴趣（K里希纳等2017；Lu等2016；Xu等2017；唐等2020；Yao等2021b，c；Zhang等2022)。CKE的目的是从一袋图像中 总结实体之间的全局常识关系，而 场景图生成的目标是识别在一个特定的图像中的局部关系。此外，场景图模型通常需要大量的 图像注释，而所提出的远距离监督的CKE框架不需要带注释的图像。

World Knowledge Acquisition世界知识获取。事实世界知识的提取，例如，（鲍勃·迪伦，作曲家，《在风中爆炸》），是补充世界知识库的重要工具。世界知识获取以文本作为知识来源（阮和格里什曼2015；苏阿雷斯等2019；吴等2019；董等2020；陈等2021；姚等2019,2021a；张等2021年），尝试多模式世界知识获取(Wen等2021年）。为了减轻人类的注释，Mintz等人（2009）提出了远程监督，将KBs与文本对齐，以创建有噪声的关系标签。接下来的工作重点是在多实例学习公式下处理远程监督中的噪声（Riedel，Yao，和McCallum 2010；曾等，2015；Liu等，2018）。采用最广泛的方法是选择性注意模型（Lin et al. 2016），它基于注意机制在袋子中选择高质量的实例。相比之下，我们的目标是从图像包中提取常识性知识。我们在实验中发现，现有的多实例学习模型不能很好地服务于复杂的常识性学习，因此我们提出了一种专门的任务学习方法。

Pilot Experiment and Analysis 试点实验与分析

为了研究现有CKE方法的有效性和局限性，我们首先对来自不同信息源的代表性方法进行了实证研究，包括基于文本、基于PLM和基于图像的模型。

问题定义。CKE的目的是提取常识性关系三元组（s，r，o），它描述了实体（s，o）之间看似合理的相互作用。例如，（人，可以拿着，瓶子）反映了一个人可以拿瓶子的常识。还包括一个特殊的NA关系，表明实体对之间没有关系。

Benchmark Construction基准建设。我们构建了基于视觉基因组（Krishna et al. 2017）的CKE基准测试，其中包含了真实世界图像数据中关于实体的关系三元组。具体来说，我们选择了具有前100个实体类型和关系类型的不同的三元组。对于自动分离评估（Mintz et al. 2009），我们将三元组分为不相交的训练、验证和测试集。每个实体对都与包含这些实体的视觉基因组图像相关联。训练/验证/测试数据分别包含13780/1166/3496个常识性事实、6443/678/1964个实体对和55911/5224/13722张图像。

现有的CKE模型。我们选择具有代表性的CKE模型进行实证研究。(1)基于文本的模型。我们采用了RTP（Schuster et al. 2015），这是一种广泛使用的三元组解析器，它基于依赖树从标题中提取常识性三元组。我们从包含3M标题的概念标题（Sharma et al. 2018）中提取三元组，并根据其在标题数据中的频率获得全局三联体的置信度。(2)基于PLM的模型。我们采用LAMA（Petroni et al. 2019）来探索BERT中的知识通过填充包含查询实体对和掩蔽关系的提示模板（例如，“人[面具]瓶”）。根据Lin等人（2020），我们使用训练集中的三元组，基于相同的提示进一步微调模型，以更好地学习常识知识。继Peng等人（2020年）之后，我们还采用了一个普通的精细化BERT模型，该模型使用[CLS]令牌基于实体名称来预测关系。

基于图像的CKE的多实例学习。直观地说，图像是丰富的真实世界实体交互的原始视觉感知，可以作为CKE的一个可扩展和有前途的信息源。然而，大多数现有的基于图像的CKE方法要么在关系类型上受到限制，要么需要手动进行图像注释。

对于通用的和可扩展的常识知识库构建，我们需要从没有人工注释的大规模图像中提取一般类型的常识知识。为此，我们建议将CKE表述为一个多实例学习问题，其中实体之间的常识关系r是从一个包含实体对的图像B（s，o）= {vi} N i=1中总结出来的。受Mintz等人（2009）的启发，我们将现有的常识kb与图像袋对齐，以提供远程监督的学习信号。具体地说，image bag图像袋B（s，o）用KB中（s，o）之间的关系r进行标记，假设袋中至少有一个图像子集表示三元组（s，r，o），并且袋中可能有一些图像不表示三元组。为了提取常识性三元组，模型需要首先理解包的每个图像中的实体交互，然后选择有意义的实体交互来综合常识性关系。

我们注意到一些工作探索从文本中提取世界知识中类似公式的问题。为了研究现有的多实例学习方法对基于图像的CKE的有效性，我们采用了具有代表性的方法，使用平均池化（Lin等2016）、至少一种策略（Zeng等2015）或注意机制（Lin等2016）来选择和总结实例包。

具体来说，给定一个三元组（s，r，o），我们首先选择一个包含查询实体对的图像包。在实践中，候选图像的数量可能会很大（例如，∼1000），而只有一小部分反映了实体的交互。受Zellers等人（2018）的启发，为了组成适当大小的图像袋，我们选择了查询实体的顶部空间重叠（即像素上的交集相交）的图像，这些图像更有可能表现出交互。使用自适应的神经基元（Zellers et al. 2018）模型，将包的每个图像中的查询实体对编码到特征表示{vi} N i=1中，这是一种广泛使用的基于cnn的实体对编码器。

为了获得bag表示B（s，o），(1)平均池（AVG）计算实例表示的平均值：B（s，o）=1NPNi=1vi；(2)基本策略（ONE）（Zeng等人2015）选择最可能的实例：B（s，o）=vj，其中vj在给定训练三联体的黄金关系r∗上获得最高分数；

(3)注意机制（ATT）（Lin et al. 2016）计算实例表示的加权和： B（s，o）= P N i=1 αivi，其中注意权重基于黄金关系查询计算： αi = Softmaxi（vi > r∗）。袋表示B（s，o）通过一个softmax分类器对黄金标签r∗进行优化。在推理过程中，由于关系标签未知，ONE和ATT对对应的关系预测得分枚举关系查询。

除了基于多实例学习的方法外，我们还将视觉关系检测模型应用于基于图像的CKE。为了模拟一个可扩展的场景，我们从视觉基因组中为每个关系随机选择一个中等数量（即100个）的图像级注释，并训练一个神经主题（Zellers et al. 2018）模型来预测特定图像中的实体对之间的关系。在推理过程中，通过对包中所有图像的关系分数进行最大池化，得到一个包的关系分数。

结果。根据之前的知识获取工作（Zeng et al. 2015；Lin et al. 2016），为了提供严格的评估，我们绘制了保留的三组预测的精确-召回曲线，并报告了曲线下面积（AUC）。除了传统的微观结果外，我们还报告了mAUC，即宏观曲线下的面积（即不同关系的平均曲线）来评价长尾关系的性能。从图2中，我们有以下观察结果：

(1)基于文本的方法（RTP）和PLMs（LAMA）在CKE上的知识探索。原因是文本中固有缺乏常识知识，模型没有针对任务进行微调。对该任务进行进一步的微调plm（提示ft和香草ft）可以提高性能，从而取得良好的效果。

(2)从图像中获得的视觉感知可以为常识性知识的获取提供丰富的信息。基于一种相对合适的总结方法（AVG），基于图像的多实例学习模型比所有现有的CKE模型获得了最好的效果。

(3)多实例学习公式是开放域可扩展的基于图像的CKE的必要条件。尽管使用了更多的图像级关系注释（例如，每个关系有100个图像级注释），但采用了适应性的图像级视觉关系检测模型（VRD）在CKE上表现不佳。

(4)对现有的多实例学习方法的简单适应不能很好地服务于CKE。所有型号的整体性能仍然不能令人满意。值得注意的是，尽管ONE和ATT在从文本中获取世界知识方面具有竞争力，但它们在CKE上表现不佳。其原因是，与世界知识的关系方案相比，常识关系表现出更高的复杂性，其中具有重叠语义的细粒度关系（如站立和行走），而下义-超对称冲突（如站立和行走）经常发生。与AVG相比，ONE和ATT的仅黄金查询问题阻碍了它们区分复杂的常识关系。关于方法论问题的更详细的讨论。

Methodology 方法论

试点实验结果表明，需要开发专门的方法来解决常识性知识获取的独特挑战。从本质上说，由于常识关系的复杂性，基于多实例学习CKE提出两个层面的挑战： (1)在图像层面，模型需要首先要理解每个图像中的复杂的实体交互，(2)在bag包层面，模型需要选择信息实例总结实体之间的细粒度的常识关系。我们从图像中提出了一个专用的CKE模型，如图3所示，(1)通过强大的视觉语言预训练vision-language pre-training（VLP）模型实现了对实体之间的图像级交互的深入理解，(2)通过对比注意机制选择有意义的图像来总结包级常识关系。

图3 基于视觉基础的常识性知识获取的CLEVER框架。给定一组关于实体对的图像，我们的模型利用VLP模型来理解图像级的实体交互，并通过对比注意机制选择信息性图像来总结袋子级的常识关系。

图像级实体交互理解的视觉语言预训练模型。最近，VLP模型以基础角色推动了许多多模态任务的先进水平（博马萨尼等人，2021年），如视觉问题回答和视觉基础。然而，很少有研究探索利用VLP方法来为实体对建模复杂的视觉关系。我们证明，预先训练的Transformers可以作为强大的基础模型来解决复杂的图像级实体交互。

给定一个查询实体对（s，o）和相关的图像袋B（s，o）= {vi} N i=1，该袋中的每个查询实体对实例通过基于检测器的VLP模型被编码为深度表示vi。在这项工作中，我们采用了VinVL（Zhang et al. 2021b），一个最先进的VLP模型作为编码器。具体来说，每个图像中的查询和上下文实体首先由对象检测器进行编码，以获得一系列的视觉特征{u1，u2，……，un}。实体标签的视觉特征和标记嵌入{t1，t2，…然后输入预先训练的变压器，以获得深度多模态隐藏表示{h 1 u，h 2 u，…，h n u，h 1 t，h 2 t，…，h n t }。图像级实体对表示是通过视觉和文本隐藏表示的串联得到的： vi =。

尽管很简单，但该方法在图像级实体交互建模中显示出三个重要的优势： (1)实体（包括查询和上下文实体）的消息通过多个自我关注的布局来融合来帮助模拟复杂的实体交互。(2)将实体的视觉信息和文本信息融合成深度的多模态表示形式。(3)利用预先训练好的深度视觉语言表征来促进常识性理解。

Contrastive Attention Mechanism for Bag-level Commonsense Summarization. 袋级常识性总结的对比注意机制。从初步实验结果中，我们观察到常识关系的复杂性（如重叠语义和下对称-超对称冲突）使得现有的多实例学习方法难以区分关系边界。特别是，尽管注意机制（ATT）在从文本中获得世界知识方面取得了成功，但它（Lin et al. 2016）在CKE上表现不佳。本文中我们发现，仅黄金查询是CKE中ATT的关键局限性，并表明通过将注意机制与黄金关系和其他负向关系进行对比，可以有效区分复杂常识关系的边界，从而获得显著更好的CKE性能。

我们首先讨论ATT中的 golden-query-only仅限黄金查询的问题。在ATT训练过程中，袋表示B（s，o）对于不同关系的预测是静态的，并且仅基于黄金关系查询进行计算。但是，在推理过程中，由于黄金关系是未知的，所以需要枚举所有可能的关系来查询包，以预测相应的关系得分。只有黄金问题的问题导致对其他负关系的袋子表征（和关系分数）缺乏有效的监督，导致负袋子表征与黄金表征难以区分。

为了解决这一问题，我们提出了一种新的对比注意机制，它对金色和负袋表征和关系分数施加对比监督。具体来说，对于每个关系查询∈的预测，通过实例表示的加权和得到一个关系感知的袋表示B（s，ri，o），其中注意权重使用相应的关系查询∈计算，方法如下：

其中ci是ri的分类器嵌入。通过这种方式，对比注意在黄金关系和负向关系的袋表示之间施加了明确的界限，以处理复杂的常识关系的总结。对比注意也可以被视为关系查询和图像实例之间的一种交叉注意（Vaswani et al. 2017），这可能从多层堆叠中获益。我们把它留给以后的工作吧。

为CKE集成多源信息。直观地说，多个异构的数据源可以为常识性学习提供互补的信息。我们表明，这种互补性可以通过来自每个信息源的简单模型集成来利用，其中聚合的三重态得分是来自每个信息源的预测得分的加权和。

Experiments

在本节中，我们将实证评估所提出的模型的有效性。有关实现细节，请读者参考附录。

实验性的设置。(1)基准测试和基线。如试点实验部分所述，我们在由视觉基因组构建的CKE基准上进行实验，并与来自不同信息源的强基线进行比较。我们还包括了一个随机的基线它可以随机地预测实体对的关系。对于多源信息集成，我们集成了聪明、RTP和Vanilla-FT。(2)评估指标。为了提供多维评价，我们还报告了曲线上的最大f1，以及精度@K%（P@K%）三重态预测。

主要结果。从表1中的实验结果来看，我们有以下观察结果： (1)在微观和宏观指标上，聪明一致地在所有基线模型中都取得了最好的结果。具体来说，igriny提高了基于图像的模型的性能，并显著优于之前基于PLM的最佳结果3.9 AUC和6.4 mAUC点。结果表明，聪明可以从视觉感知中提取常识，具有良好的质量。(2)集成多源信息进一步提高了比单源模型的性能。这表明CKE可以从利用不同来源的互补信息中获益。

人类评估。除了保留的评估之外，我们还对顶级预测进行了人工评估。我们选择在每个源上达到最佳微性能的模型，包括RTP，香草-ft和聪明。具体来说，对于每个模型，我们以1：50的比例从前10%的三胞胎预测中抽样，结果得到1200个三胞胎用于人类评估。每个三联体用三个inde标记等待注释者来决定常识性得分：难以置信(0)，可信但罕见(1)，常见(2)。我们在图6中报告了由人类注释者给出的局部平均的三重态常识得分。我们可以观察到，在大多数情况下，由聪明人提取的三胞胎被分配了显著更高的常识分数。此外，聪明的人的常识得分与人类得分的0.78，说明我们模型的常识得分可以很好地与人类判断一致。原因是对比注意机制可以隐式地利用实例的冗余来反映常识程度，其中一个包中的多个信息实例可以有助于更高的常识得分。

可解释性。除了竞争表现之外，聪明的一个关键优势是，提取的常识知识可以通过对图像实例的对比注意力得分来基于视觉感知。如图5所示，信息图像具有较大的常识学习的注意力分数。与基于PLM的方法相比，纯粹基于文本标记之间的相关性产生常识知识，聪明使可信的常识知识获取在提取过程中具有更好的可解释性。从应用的角度来看，所选的信息图像也可以作为KBs中提取的三联体的支持证据以便在下游应用程序中更好地利用知识。

消融研究。我们通过用基于cnn的编码器替换VLP编码器，并分别用现有的多实例学习方法替换对比注意机制来进行消融研究。从表2中的结果中，我们可以看到，这两个组件对最终的结果都有贡献。结果表明，图像级实体交互理解和包级总结对于良好的CKE性能都很重要。

Effect of Bag Size袋尺寸的影响。直观地说，一个包中的多个图像可以提供关于一个实体对的不同和互补的信息，以便进行健壮的常识学习。为了研究袋子尺寸的影响，我们对不同尺寸的智能进行了实验。从图4的结果中，我们观察到： (1)学习常识性交互需要一定数量的图像。当使用非常小的袋子尺寸时，性能显著下降。(2)当袋尺寸大于20时，性能改善不显著。我们假设的原因是，虽然一个更大的包提供了更丰富的常识信息，但它也用更嘈杂的实例来挑战模型。因此，需要开发更先进的方法来更好地利用更大的图像袋中的丰富信息，并将其留给未来的工作。

Effect of Instance Sampling Strategy for Bag Construction.

实例抽样策略在袋施工中的影响。考虑到通常包含一个实体对的大量开放图像，我们希望选择那些可能在低水平下表达常识性交互的实例建造这个袋子的成本。除了空间重叠策略外，我们还采用了另外两种抽样策略： (1)随机抽样。随机选择一些候选图像来组成这个包。(2)基于clip的采样。为实体对构造了一个文本查询：s与o有某种关系。然后，我们使用CLIP（Radford et al. 2021）对文本查询和候选图像进行编码，并选择相似度得分最高的图像。从表3中可以看出： (1)来自CLIP的实体交互先验和空间重叠有助于选择信息丰富的图像进行构建袋。(2) CLIP对空间重叠没有明显的优势。原因是空间重叠对实体对交互包含了更多的归纳偏差，而CLIP被优化来处理一般句子。因此，由于袋的简单和效率，我们选择空间重叠。

案例研究。我们提供了表4中sring中提取的三胞胎的示例。我们可以看到，我们的模型可以提取在训练过程中看不到的合理的常识性知识，最重要的是，提取新的事实来补充常识性kb。我们注意到，我们的模型有时可以从意外的场景图像中产生异常观察到的事实。我们建议读者参考附录，了解我们的模型为III型的例子选择的支持图像。

Conclusion

在这项工作中，我们提出了一个新的公式，为常识性知识获取作为一个基于图像的远程监督多实例学习问题。我们提出了一个专门的框架，通过视觉语言预训练模型实现深度图像层次的理解，并通过对比注意机制实现袋级总结。综合实验表明了我们的框架的有效性。在未来，我们将探索更先进的多实例学习方法，并以更复杂的形式和类型获取视觉常识知识。