大模型的视觉能力

摘要：

计算机视觉引领了人工智能中深度学习的采用，这表明在大型注释数据集上预训练的模型可以转移到许多下游设置。现在，在网络规模的原始数据而不是策划的数据集上进行预训练，基础大模型在计算机视觉中正在崛起。这些模型已经在该领域的标准任务中显示出有希望的结果，如图像分类和对象检测，并且对图像之外的多模态和具体数据的训练可以使重大挑战（例如，3D几何和物理理解，常识推理）。我们还讨论了建模中的一些关键挑战（例如，有效地缩放到视频的能力）和评估（例如，高阶能力的测量）沿着应用（例如，用于健康护理的环境智能）和社会考虑（例如，监视），这将决定基础模型对计算机视觉的影响。

视觉是生物体理解环境的主要方式之一。视觉的能力使得能够对密集信号进行近乎恒定的长距离收集，这是在不同生命形式的进化时间尺度上发展起来的一种关键能力。对于一种即使是简单的生物也能毫不费力地执行的技能来说，将同样的能力转移到机器上已经证明是非常具有挑战性的，导致计算机视觉和机器人研究员Hans Moravec在1988年观察到一个悖论：在人工智能中，难的问题容易，容易的问题也难，其中“最简单”的问题是我们每天用来在几毫秒内连续解释复杂场景的视觉敏锐度。

在这一艰巨挑战的另一端，是计算机视觉拥有关键的变革性应用的巨大范围：可以将通勤者从交通堵塞中解放出来的自动驾驶汽车，可以通过检测罕见的医疗事件来帮助过度劳累的专家的救生AI工具，用于多媒体创作和编辑的下一代工具等等。反思人类感知是工具的应用和设置，提供了计算机视觉可以帮助和改变的潜在领域。

计算机视觉领域和我们定义的挑战在许多方面都从人类的感知能力中汲取灵感。一些经典理论提出，人类可以通过将各个部分作为一个更大的整体进行情境化来感知真实的世界场景，并指出了计算机视觉技术逐步对物理世界进行建模的方式，并增加了抽象层次。吉布森认为，人类视觉是内在的体现和互动的生态环境可能在其发展中发挥关键作用。这些想法继续推动着计算机视觉系统的持续发展，不断迭代，以实现对世界的上下文、交互和具体感知。

在计算机视觉的背景下，基础模型将来自不同来源和传感器的原始感知信息转化为视觉知识，这些视觉知识可以适应多种下游设置（如图所示）。在很大程度上，这一努力是过去十年来在该领域出现的关键思想的自然演变。ImageNet的引入和监督预训练的出现导致了计算机视觉中的深度学习范式转变。这一转变标志着一个新的时代，我们超越了早期的经典方法和特定于任务的特征工程的模型，可以在大量数据上训练一次，然后适应各种各样的任务，如图像识别，对象检测，和图像分割。这个想法仍然是基础模型的核心。

图通过利用大规模的自我监督，视觉的基础模型有可能将原始的多模态感官信息提炼成视觉知识，这可能有效地支持传统的感知任务，并可能在挑战高阶技能（如时间和常识推理）方面取得新的进展。这些输入可能来自各种数据源和应用领域，这表明在医疗保健和具体的交互式感知环境中的应用前景。

通向基础模型的桥梁来自于先前范式的局限性。传统的监督技术依赖于昂贵且仔细收集的标签和注释，限制了它们的鲁棒性，通用性和适用性;相比之下，自监督学习的最新进展为基础模型的开发提供了一种替代途径，可以利用大量的原始数据来实现对视觉世界的上下文理解。相对于该领域更广泛的目标，视觉基础模型的当前能力目前处于早期阶段：我们已经观察到传统计算机视觉任务的改进（特别是在泛化能力方面），并预计近期进展将继续这一趋势。然而，从长远来看，基础模型减少对显式注释的依赖的潜力可能会导致基本认知技能的进步（例如，常识推理），这在当前的全监督范式中已被证明是困难的。反过来，我们讨论了基础模型对下游应用的潜在影响，以及向前发展必须解决的核心挑战和前沿问题。

1.关键能力和方法

在高层次上，计算机视觉是人工智能的核心子领域，它探索赋予机器解释和理解视觉世界的能力的方法。它包括许多任务，子领域和下游应用程序，在过去的几十年中，社区取得了持续的进步。精选任务示例：(1)语义理解任务，其目的是发现视觉场景内实体之间的属性和关系;这些任务包括图像分类、对象检测、语义分割、动作识别和场景图生成等。(2)几何、运动和3D任务，寻求表示静止或移动对象的几何、姿态和结构，并且包括深度估计、运动恢复结构、表面法线检测、曲率线和关键点估计等任务。(3)多模态集成任务，将语义和几何理解与诸如自然语言的其他模态相结合;这些任务包括，例如，视觉问题回答、图像字幕和指令跟随。我们在图中突出显示了传统核心任务的一个子集。

在2010年代早期ImageNet的出现的推动下，解决这些任务的主要范式往往围绕着一个熟悉的核心思想：首先，在大量仔细注释的数据集合上预训练模型，并进行完全监督的训练任务，如图像分类。然后，通过微调使模型适应特定于任务的数据集和域，以达到最先进的性能。这种先预训练后适应的概念在我们现在考虑的基础模型的定义中仍然存在。这种完全监督范式的局限性促使过渡到基础模型：依赖外部监督注释约束了以前方法的上限能力，以可扩展，鲁棒和可推广的方式捕获各种视觉输入。视觉合成和无监督学习领域的最新发展提供了一个令人信服的选择。例如，GAN通过两个竞争的生成器网络和一个可以单独从图像集合中相互监督的网络来学习生成高保真、真实和多样的视觉内容。其他神经模型通过采用变分自动编码、对比学习或其他自监督技术（建立在先前使用掩码图像编码进行表示学习的工作基础上部分通过结合灵活架构的最新进展）。

在基础模型中，这种自我监督技术的发展使得在更大规模的视觉数据上进行训练成为可能，无论是在其范围还是其潜在的多样性方面。因此，我们已经看到了传统视觉任务在标准准确性指标和少量泛化方面取得进展的早期指标。对于图像分类和对象检测，自监督技术已经报告了与之前的全监督方法相比具有竞争力的性能，在训练期间没有显式注释，在适应期间具有更高的样本效率。对于视觉合成，值得注意的例子包括DALL-E和CLIP引导生成，研究人员利用多模态语言和视觉输入来呈现引人注目的视觉场景。在短期内，我们预计这些基础模型的能力将继续沿着这些方向改进，因为训练目标得到了改进，并且架构被设计为包含其他模态。

值得注意的是，当前计算机视觉的基础模型相对于其NLP对手来说还处于新生阶段：有希望的早期努力仍然主要集中在RGB图像输入和核心传统视觉任务的子集上。然而，该领域继续在更广泛的挑战方面取得进展，这些挑战集中在体现和交互式感知设置上（对于机器人的基础模型至关重要）。我们在图中注意到这些高阶目标的一个子集，包括物理场景理解，对视觉常识和时间事件的推理，以及对社会启示的感知。其中每一个都是完全监督系统的目标，但已经证明具有挑战性，部分原因是难以大规模注释这些任务。例如，用于视觉问题回答的标准系统很难回答需要常识理解的问题，因为这些问题通常需要超出像素本身的外部知识。以稳健的方式感知人类凝视和社交启示仍然是交互式代理中的嵌入式视觉系统的持续挑战。通过减少对显式注释的依赖，基础模型可以实现比以前可行的目标更进一步的进展。语言基础模型的相关进展已经能够捕获语言事件的一定程度的常识，也表明了在多模态视觉输入上实现类似能力的潜在途径。虽然如何在基础模型中实现这些功能的确切路线图仍然是一个悬而未决的问题，但新的高效灵活的架构（建模），大规模训练（系统），自我监督技术（训练）和少量适应方案（适应）的组合可能会为迄今为止难以实现的功能打开大门。

2.核心研究挑战

我们对研究挑战的讨论是由下游应用领域推动的，在这些应用领域中，基础模型可能会进一步促进视觉模型的集成和影响。我们强调了几个这样的领域：（1）医疗保健和家庭环境的环境智能：建立在这些环境中的环境智能的现有方法之上，基础模型可以提供更好地检测细粒度人类活动和医疗事件的潜力，以及改善临床医生的辅助交互，患者和日常消费者。(2)移动的和消费者应用：具有更强多模态基础的基础模型可以在移动的环境中实现更强大的服务交互性，视觉和语言输入生成能力的根本改进可以使计算摄影和内容编辑应用受益。(3)具体化的、交互式的代理：感知模型已经被证明是机器人设置中的有效输入和奖励功能;基础模型在大量以自我为中心的集合上训练（真实的/模拟的，人类/机器人）视觉数据通过捕捉更广泛的视觉场景、物体和动作分布，可能会进一步推动这一进展。

基础模型可能进一步影响这些应用程序设置的程度取决于：视觉功能中概述的功能实现的程度。为了弥合当前、短期和长期预期能力之间的巨大差距，我们必须解决当前视觉基础模型的局限性，包括它们的培训和评估。以下是相应的关键挑战的子集：

2.1 语义系统性和感知鲁棒性

人类具有非凡的能力，可以将视觉理解概括为看不见的组成，并对新物体和场景的物理和几何特性进行推理。虽然目前的基础模型已经显示出有希望的图像合成能力和推广到细粒度语言输入的早期结果，但这些模型仍然难以推广到简单形状和颜色的组合。概化也超越了语义;视觉场景和对象的物理动力学和几何属性具有自然的规律性。基础模型已经显示出理解场景和对象几何结构的早期迹象。此外，感知模型中对物理场景和几何理解的早期努力可能为正在进行的基础模型开发提供指导。事实上，继续采用多种模式（例如，音频）可能有助于实现这些目标。然而，具体的技术，使一般化的初始观察到的能力，强大的范围广泛的自然场景和对象的水平，人类仍然是一个开放的研究挑战的基础模型。

2.2 计算效率和动力学建模

人类在处理物体、场景和事件的连续视觉流方面的效率令人惊讶，这些是支持对事件动态的理解所必需的。语言中的基础模型已经显示出对事件的长期连贯性建模的初步步骤;在视觉输入中捕获长期时间相关性和因果连贯性的类似能力将有利于机器人等下游环境。然而，相对于语言中的单词标记级输入，低级计算机视觉输入是非常高维的：单个1080 p帧包含超过200万个像素。在这种情况下，在长距离视频序列中对更丰富的事件动态进行建模似乎是一项艰巨的奋进，特别是对于附加模态（例如，语音、光流等）提高分辨率。可以理解的是，完全处理每个像素的简单方法可能是禁止的。当前的视觉模型通常通过处理汇总图像块甚至帧组的嵌入来解决这个问题，但这具有丢失细粒度细节的潜在缺点。除了原始输入空间的考虑之外，视觉的基础模型可能需要重新审视基本架构基元的设计进行高效和有效的建模：3D卷积的替代方案可以更好地解决其立方复杂性，而基于粒子的表示可能证明对物理动力学建模更有效。此外，将这些视觉模型部署到下游应用程序设置也需要系统设计的进步。总而言之，大规模动态视觉输入的高效和有效建模的瓶颈仍然是一个多方面的研究方向，必须在未来得到解决。

2.3 训练、环境和评估

对于实现基础模型的潜力同样重要的是训练和评估它们的支持元素。目前的视觉基础模型主要集中在图所示的一小部分模态上（例如，RGB图像和文本的数据集），因为这些可能是最容易访问的。这促使开发和使用更多的大规模培训数据集，其中包含广泛的模式的各种输入。虽然附加注释可能不是严格必要的，但输入质量会影响模型的学习效率;利用其他类型的基础模型（例如，语言），以帮助提高质量是一个有前途的前进路线。我们还想考虑静态数据集之外的设置：经典研究表明，人类的感知理解与其体现和交互式生态环境有关。作为实现更长期的体现和互动能力的垫脚石（第2.3节：机器人），正在进行的模拟环境的开发，捕捉物理，视觉和生态现实主义与多种形式和观点可能在提供可扩展和高保真的视觉输入这一目标中发挥重要作用。最后，还有度量的问题：我们如何评估生成基础模型输出在语义方面的忠实性？像Fréchet Inception Distance这样的标准指标存在已知的缺陷;这些问题与自然语言处理中的问题类似（例如，像BLEU这样的度量与人类的因果判断不相关）。将人类判断作为评价的一部分可能是一种途径，但会产生显著的成本，并且可能不具有可扩展性。围绕视觉基础模型的训练、数据和评估设置的突出和开放的挑战确实非常微妙，并且将成为未来研究的中心领域。

3.结束语

在本节中，我们探讨了计算机视觉背景下的基础模型，从确定以前计算机视觉范式的根源，到将其当前和预期的功能置于背景中，再到提出未来的研究方向。最后，我们简要讨论了计算机视觉基础模型及其持续发展的一些更广泛的社会影响。相机在我们社会中的无处不在意味着计算机视觉技术的进步具有巨大的破坏性影响潜力;这带来了仔细考虑其风险的相应责任负担。在计算机视觉模型中有一个有据可查的学习偏差的历史，导致代表性不足的群体的准确性较低和相关错误，因此不适当和过早地部署到一些现实世界的设置。许多相同的潜在问题继续存在于当前的基础模型中。作为来自附加传感器模态的数据（例如，可穿戴或环境传感器，）被纳入这些基础模型，围绕隐私和监视的关注变得至关重要。此外，随着视觉基础模型的语义和生成能力不断增长，生成的deepfake图像和错误信息带来了更大的风险。虽然计算机视觉和基础模型面临着巨大的挑战和机遇，但同时解决这些问题和相关风险仍然至关重要。