大模型的视觉能力

news2024/11/17 21:39:10

摘要:       

       计算机视觉引领了人工智能中深度学习的采用,这表明在大型注释数据集上预训练的模型可以转移到许多下游设置。现在,在网络规模的原始数据而不是策划的数据集上进行预训练,基础大模型在计算机视觉中正在崛起。这些模型已经在该领域的标准任务中显示出有希望的结果,如图像分类和对象检测,并且对图像之外的多模态和具体数据的训练可以使重大挑战(例如,3D几何和物理理解,常识推理)。我们还讨论了建模中的一些关键挑战(例如,有效地缩放到视频的能力)和评估(例如,高阶能力的测量)沿着应用(例如,用于健康护理的环境智能)和社会考虑(例如,监视),这将决定基础模型对计算机视觉的影响。

       视觉是生物体理解环境的主要方式之一。视觉的能力使得能够对密集信号进行近乎恒定的长距离收集,这是在不同生命形式的进化时间尺度上发展起来的一种关键能力。对于一种即使是简单的生物也能毫不费力地执行的技能来说,将同样的能力转移到机器上已经证明是非常具有挑战性的,导致计算机视觉和机器人研究员Hans Moravec1988年观察到一个悖论:在人工智能中,难的问题容易,容易的问题也难,其中最简单的问题是我们每天用来在几毫秒内连续解释复杂场景的视觉敏锐度

       在这一艰巨挑战的另一端,是计算机视觉拥有关键的变革性应用的巨大范围:可以将通勤者从交通堵塞中解放出来的自动驾驶汽车,可以通过检测罕见的医疗事件来帮助过度劳累的专家的救生AI工具,用于多媒体创作和编辑的下一代工具等等。反思人类感知是工具的应用和设置,提供了计算机视觉可以帮助和改变的潜在领域。

       计算机视觉领域和我们定义的挑战在许多方面都从人类的感知能力中汲取灵感。一些经典理论提出,人类可以通过将各个部分作为一个更大的整体进行情境化来感知真实的世界场景,并指出了计算机视觉技术逐步对物理世界进行建模的方式,并增加了抽象层次。吉布森认为,人类视觉是内在的体现和互动的生态环境可能在其发展中发挥关键作用。这些想法继续推动着计算机视觉系统的持续发展,不断迭代,以实现对世界的上下文、交互和具体感知。

       在计算机视觉的背景下,基础模型将来自不同来源和传感器的原始感知信息转化为视觉知识,这些视觉知识可以适应多种下游设置(如图所示)。在很大程度上,这一努力是过去十年来在该领域出现的关键思想的自然演变。ImageNet的引入和监督预训练的出现导致了计算机视觉中的深度学习范式转变。这一转变标志着一个新的时代,我们超越了早期的经典方法和特定于任务的特征工程的模型,可以在大量数据上训练一次,然后适应各种各样的任务,如图像识别,对象检测,和图像分割。这个想法仍然是基础模型的核心。

 

通过利用大规模的自我监督,视觉的基础模型有可能将原始的多模态感官信息提炼成视觉知识,这可能有效地支持传统的感知任务,并可能在挑战高阶技能(如时间和常识推理)方面取得新的进展。这些输入可能来自各种数据源和应用领域,这表明在医疗保健和具体的交互式感知环境中的应用前景

       通向基础模型的桥梁来自于先前范式的局限性。传统的监督技术依赖于昂贵且仔细收集的标签和注释,限制了它们的鲁棒性,通用性和适用性;相比之下,自监督学习的最新进展为基础模型的开发提供了一种替代途径,可以利用大量的原始数据来实现对视觉世界的上下文理解。相对于该领域更广泛的目标,视觉基础模型的当前能力目前处于早期阶段:我们已经观察到传统计算机视觉任务的改进(特别是在泛化能力方面),并预计近期进展将继续这一趋势。然而,从长远来看,基础模型减少对显式注释的依赖的潜力可能会导致基本认知技能的进步(例如,常识推理),这在当前的全监督范式中已被证明是困难的。反过来,我们讨论了基础模型对下游应用的潜在影响,以及向前发展必须解决的核心挑战和前沿问题

1.关键能力和方法

       在高层次上,计算机视觉是人工智能的核心子领域,它探索赋予机器解释和理解视觉世界的能力的方法。它包括许多任务,子领域和下游应用程序,在过去的几十年中,社区取得了持续的进步。精选任务示例(1)语义理解任务,其目的是发现视觉场景内实体之间的属性和关系;这些任务包括图像分类、对象检测、语义分割、动作识别和场景图生成等(2)几何、运动和3D任务,寻求表示静止或移动对象的几何、姿态和结构,并且包括深度估计、运动恢复结构、表面法线检测、曲率线和关键点估计等任务(3)多模态集成任务,将语义和几何理解与诸如自然语言的其他模态相结合;这些任务包括,例如,视觉问题回答、图像字幕和指令跟随。我们在图中突出显示了传统核心任务的一个子集。

       在2010年代早期ImageNet的出现的推动下,解决这些任务的主要范式往往围绕着一个熟悉的核心思想:首先,在大量仔细注释的数据集合上预训练模型,并进行完全监督的训练任务,如图像分类。然后,通过微调使模型适应特定于任务的数据集和域,以达到最先进的性能。这种先预训练后适应的概念在我们现在考虑的基础模型的定义中仍然存在。这种完全监督范式的局限性促使过渡到基础模型:依赖外部监督注释约束了以前方法的上限能力,以可扩展,鲁棒和可推广的方式捕获各种视觉输入。视觉合成和无监督学习领域的最新发展提供了一个令人信服的选择。例如,GAN通过两个竞争的生成器网络和一个可以单独从图像集合中相互监督的网络来学习生成高保真、真实和多样的视觉内容。其他神经模型通过采用变分自动编码、对比学习或其他自监督技术(建立在先前使用掩码图像编码进行表示学习的工作基础上部分通过结合灵活架构的最新进展)。

       在基础模型中,这种自我监督技术的发展使得在更大规模的视觉数据上进行训练成为可能,无论是在其范围还是其潜在的多样性方面。因此,我们已经看到了传统视觉任务在标准准确性指标和少量泛化方面取得进展的早期指标。对于图像分类和对象检测,自监督技术已经报告了与之前的全监督方法相比具有竞争力的性能,在训练期间没有显式注释,在适应期间具有更高的样本效率。对于视觉合成,值得注意的例子包括DALL-ECLIP引导生成,研究人员利用多模态语言和视觉输入来呈现引人注目的视觉场景。在短期内,我们预计这些基础模型的能力将继续沿着这些方向改进,因为训练目标得到了改进,并且架构被设计为包含其他模态

       值得注意的是,当前计算机视觉的基础模型相对于其NLP对手来说还处于新生阶段:有希望的早期努力仍然主要集中在RGB图像输入和核心传统视觉任务的子集上。然而,该领域继续在更广泛的挑战方面取得进展,这些挑战集中在体现和交互式感知设置上(对于机器人的基础模型至关重要)。我们在图中注意到这些高阶目标的一个子集,包括物理场景理解,对视觉常识和时间事件的推理,以及对社会启示的感知。其中每一个都是完全监督系统的目标,但已经证明具有挑战性,部分原因是难以大规模注释这些任务。例如,用于视觉问题回答的标准系统很难回答需要常识理解的问题,因为这些问题通常需要超出像素本身的外部知识。以稳健的方式感知人类凝视和社交启示仍然是交互式代理中的嵌入式视觉系统的持续挑战。通过减少对显式注释的依赖,基础模型可以实现比以前可行的目标更进一步的进展。语言基础模型的相关进展已经能够捕获语言事件的一定程度的常识,也表明了在多模态视觉输入上实现类似能力的潜在途径。虽然如何在基础模型中实现这些功能的确切路线图仍然是一个悬而未决的问题,但新的高效灵活的架构(建模),大规模训练(系统),自我监督技术(训练)和少量适应方案(适应)的组合可能会为迄今为止难以实现的功能打开大门。

2.核心研究挑战

       我们对研究挑战的讨论是由下游应用领域推动的,在这些应用领域中,基础模型可能会进一步促进视觉模型的集成和影响。我们强调了几个这样的领域:(1)医疗保健和家庭环境的环境智能:建立在这些环境中的环境智能的现有方法之上,基础模型可以提供更好地检测细粒度人类活动和医疗事件的潜力,以及改善临床医生的辅助交互,患者和日常消费者(2)移动的和消费者应用:具有更强多模态基础的基础模型可以在移动的环境中实现更强大的服务交互性,视觉和语言输入生成能力的根本改进可以使计算摄影和内容编辑应用受益(3)具体化的、交互式的代理:感知模型已经被证明是机器人设置中的有效输入和奖励功能;基础模型在大量以自我为中心的集合上训练(真实的/模拟的,人类/机器人)视觉数据通过捕捉更广泛的视觉场景、物体和动作分布,可能会进一步推动这一进展

       基础模型可能进一步影响这些应用程序设置的程度取决于:视觉功能中概述的功能实现的程度。为了弥合当前、短期和长期预期能力之间的巨大差距,我们必须解决当前视觉基础模型的局限性,包括它们的培训和评估。以下是相应的关键挑战的子集:

2.1 语义系统性和感知鲁棒性

       人类具有非凡的能力,可以将视觉理解概括为看不见的组成,并对新物体和场景的物理和几何特性进行推理。虽然目前的基础模型已经显示出有希望的图像合成能力和推广到细粒度语言输入的早期结果,但这些模型仍然难以推广到简单形状和颜色的组合。概化也超越了语义;视觉场景和对象的物理动力学和几何属性具有自然的规律性。基础模型已经显示出理解场景和对象几何结构的早期迹象。此外,感知模型中对物理场景和几何理解的早期努力可能为正在进行的基础模型开发提供指导。事实上,继续采用多种模式(例如,音频)可能有助于实现这些目标。然而,具体的技术,使一般化的初始观察到的能力,强大的范围广泛的自然场景和对象的水平,人类仍然是一个开放的研究挑战的基础模型。

2.2 计算效率和动力学建模

       人类在处理物体、场景和事件的连续视觉流方面的效率令人惊讶,这些是支持对事件动态的理解所必需的。语言中的基础模型已经显示出对事件的长期连贯性建模的初步步骤;在视觉输入中捕获长期时间相关性和因果连贯性的类似能力将有利于机器人等下游环境。然而,相对于语言中的单词标记级输入,低级计算机视觉输入是非常高维的:单个1080 p帧包含超过200万个像素。在这种情况下,在长距离视频序列中对更丰富的事件动态进行建模似乎是一项艰巨的奋进,特别是对于附加模态(例如,语音、光流等)提高分辨率。可以理解的是,完全处理每个像素的简单方法可能是禁止的。当前的视觉模型通常通过处理汇总图像块甚至帧组的嵌入来解决这个问题,但这具有丢失细粒度细节的潜在缺点。除了原始输入空间的考虑之外,视觉的基础模型可能需要重新审视基本架构基元的设计进行高效和有效的建模:3D卷积的替代方案可以更好地解决其立方复杂性,而基于粒子的表示可能证明对物理动力学建模更有效。此外,将这些视觉模型部署到下游应用程序设置也需要系统设计的进步。总而言之,大规模动态视觉输入的高效和有效建模的瓶颈仍然是一个多方面的研究方向,必须在未来得到解决。

2.3 训练、环境和评估

       对于实现基础模型的潜力同样重要的是训练和评估它们的支持元素。目前的视觉基础模型主要集中在图所示的一小部分模态上(例如,RGB图像和文本的数据集),因为这些可能是最容易访问的。这促使开发和使用更多的大规模培训数据集,其中包含广泛的模式的各种输入。虽然附加注释可能不是严格必要的,但输入质量会影响模型的学习效率;利用其他类型的基础模型(例如,语言),以帮助提高质量是一个有前途的前进路线。我们还想考虑静态数据集之外的设置:经典研究表明,人类的感知理解与其体现和交互式生态环境有关。作为实现更长期的体现和互动能力的垫脚石(第2.3节:机器人),正在进行的模拟环境的开发,捕捉物理,视觉和生态现实主义与多种形式和观点可能在提供可扩展和高保真的视觉输入这一目标中发挥重要作用。最后,还有度量的问题:我们如何评估生成基础模型输出在语义方面的忠实性?像Fréchet Inception Distance这样的标准指标存在已知的缺陷;这些问题与自然语言处理中的问题类似(例如,像BLEU这样的度量与人类的因果判断不相关)。将人类判断作为评价的一部分可能是一种途径,但会产生显著的成本,并且可能不具有可扩展性。围绕视觉基础模型的训练、数据和评估设置的突出和开放的挑战确实非常微妙,并且将成为未来研究的中心领域。

3.结束语

       在本节中,我们探讨了计算机视觉背景下的基础模型,从确定以前计算机视觉范式的根源,到将其当前和预期的功能置于背景中,再到提出未来的研究方向。最后,我们简要讨论了计算机视觉基础模型及其持续发展的一些更广泛的社会影响。相机在我们社会中的无处不在意味着计算机视觉技术的进步具有巨大的破坏性影响潜力;这带来了仔细考虑其风险的相应责任负担。在计算机视觉模型中有一个有据可查的学习偏差的历史,导致代表性不足的群体的准确性较低和相关错误,因此不适当和过早地部署到一些现实世界的设置。许多相同的潜在问题继续存在于当前的基础模型中。作为来自附加传感器模态的数据(例如,可穿戴或环境传感器,)被纳入这些基础模型,围绕隐私和监视的关注变得至关重要。此外,随着视觉基础模型的语义和生成能力不断增长,生成的deepfake图像和错误信息带来了更大的风险。虽然计算机视觉和基础模型面临着巨大的挑战和机遇,但同时解决这些问题和相关风险仍然至关重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1226602.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

时间序列与 statsmodels:预测所需的基本概念(2)

时间序列与 statsmodels:预测所需的基本概念(2) 维托米尔约万诺维奇 跟随 出版于 走向发展 4 分钟阅读 2022 年 1 月 31 日 8 一、说明 在使时间序列平稳后,在本博客中我们应用 SARIMAX 预测并进行深入解释。 二、关于平稳性 …

C++多线程编程(2):四种线程管理方法

文章首发于我的个人博客:欢迎大佬们来逛逛 文章目录 线程管理get_idsleep_forsleep_untilyield 线程管理 有一个this_thread的名称空间中定义了许多的线程管理方法: get_id:获取当前线程idsleep_for:当前线程休眠一段时间sleep_…

计算机组成原理-双端口RAM和多模块存储器

文章目录 存取周期总览双端口RAM多体并行存储器低地址交叉编址有多少个存储体合适(体号)多模块存储器(多体存储器)总结实际场景 存取周期 总览 双端口RAM RAM:用于主存或高速缓存,断电数据丢失 多体并行…

实验五:Java多线程程序设计

一、线程接力 编写一个应用程序,除了主线程外,还有三个线程:first、second和third。first负责模拟一个红色的按钮从坐标(10,60)运动到(100,60);second负责模…

自动 ARIMA 超参数搜索

一、介绍 这种用于自动超参数搜索进行预测的开发方法可能会花费大量时间,但它可以带来回报,因为当您找到预测模型的最佳参数时,它将节省时间并提高预测的精度。此外,手动尝试可能会花费您最多的时间,但这种方法在某些情…

不知道如何制作产品图册的,赶紧收藏住!

产品图册是展示产品外观、功能和特点的重要工具,对于销售和推广产品至关重要。然而,制作一本高质量的产品图册并不是一件容易的事情。如果你没有经验或者不确定如何着手,那么这篇文章将为你提供一些实用的建议和技巧,帮助你轻松制…

Java调用com组件之jacob

一、背景介绍 现有标准的 win32 com组件,有如下的参数: 属性 值 说明Program IDyinhai.yh_hb_sctrCOM ClassIDCOM ClassName COClass_yh_hb_sctr Interface TypeDual InterfaceInterface NameIyh_hb_sctr 具有一个方法: yh_hb_call( string…

三、LED闪烁

通过LED的闪烁实验,详解Keil MDK中创建mm32单片机的工程的步骤。 1、开发环境 (1)Keil MDK: V5.38.0.0 (2)MCU: mm320163D7P。 2、Keil工程的创建 (1)打开Keil MDK。 (2)点击“Project”→“New μVision Project...”。 (3)选择工程保存地址及工程文件名&…

基于Springboot的地方美食分享网站(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的地方美食分享网站(有报告)。Javaee项目,springboot项目。 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 项目介绍: 采用…

数据挖掘复盘——apriori

read_csv函数返回的数据类型是Dataframe类型 对于Dataframe类型使用条件表达式 dfdf.loc[df.loc[:,0]2]df: 这是一个DataFrame对象的变量名,表示一个二维的表格型数据结构,类似于电子表格或SQL表。 df.loc[:, 0]: 这是使用DataFrame的.loc属性来进行…

devops底层是怎么实现的

DevOps的3大核心基础架构 简而言之,实现DevOps工具链,基本需要3个核心基础架构: SCM配置管理系统 Automation自动化系统 Cloud云(或者说可伸缩的、自服务的、虚拟化系统) SCM配置管理系统 SCM中所放置的内容又可以再…

系列十、你说你做过JVM调优和参数配置,请问如何盘点JVM系统的默认值?

一、JVM的参数类型 1.1、标配参数 java -versionjava -help 1.2、XX参数 1.2.1、Boolean类型 公式:-XX:或者- 某个属性值 表示开启、-表示关闭 # 是否打印GC收集细节 -XX:PrintGCDetails -XX:-PrintGCDetails# 是否使用串行垃圾收集器 -XX:UseSerialGC -XX:-UseS…

矩阵的QR分解

矩阵的QR分解 GramSchmidt 设存在 B { x 1 , x 2 , … , x n } \mathcal{B}\left\{\mathbf{x}_{1},\mathbf{x}_{2},\ldots,\mathbf{x}_{n}\right\} B{x1​,x2​,…,xn​}在施密特正交化过程中 q 1 x 1 ∣ ∣ x 1 ∣ ∣ q_1\frac{x_1}{||x_1||} q1​∣∣x1​∣∣x1​​ q k …

网页视频下载工具 iTubeGo mac中文版软件特色

iTubeGo YouTube Downloader mac是一款功能强大的YouTube视频下载工具。 iTubeGo YouTube Downloader mac软件特色 多种格式支持:iTubeGo YouTube Downloader可以将YouTube视频下载为多种常见的视频和音频格式,包括MP4、MP3、AVI、FLV、MOV、WMV等&…

JavaspringbootMYSQL基于移动端的团购网站26449-计算机毕业设计项目选题推荐(附源码)

目 录 摘要 1 绪论 1.1 选题背景 1.2选题目的及意义 1.3springboot框架介绍 2 基于移动端的团购网站系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 2.5本章…

数学建模值TOPSIS法及代码

TOPSIS法 TOPSIS法简称为优劣距离解法,是一种常见法综合评价方法,其能充分利用原始数据的信息,其结果能精确地反映各个评价方案之间的差距。 模型介绍 上篇文章谈到的层次分析法是有局限性的。比如评价的决策层不能太多,太多的…

Actor对象的引用 怎么设置他的材质?或设置是否启用重力?

这个蓝图我是想当重叠触发,将另一个Target Actor(一个球体)设置他的z增加50,但是为什么在触发的时候会抽搐?而且我想要设置他的材质等等这些属性都不行

C# 电脑程序控制电路开关

最近在做系统的监控,想到能不能做一个酷点的功能,当收到异常消息时桌面上的红色小灯(或报警灯)会亮起来。于是在淘宝上找了一下,有这种小设备,插入USB设备,通过串口控制这个设备的继电器来实现&…

基于适应度相关算法优化概率神经网络PNN的分类预测 - 附代码

基于适应度相关算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于适应度相关算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于适应度相关优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针…

算法设计与分析复习--求解最大子段和问题(分支法、动态规划)

文章目录 问题描述分治法动态规划法 问题描述 最大子段和问题; 洛谷P1115.最大子段和 分治法 利用归并排序的方法,但是由于是算最大子段和所以,并不能将它变成有序的,左边和右边的最大子段和通过调用函数,而中间的要…