AGI—从GPT和大型语言模型中汲取的经验教训

news2024/11/13 10:40:54

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

3eacfe685d59b2de6f16a11f81acce46.gif

a5bd6119a8a7e632499ec885316575a6.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

673e9a89ea3d095abf79ea190f2d1471.png

论文地址:https://arxiv.org/pdf/2306.08641.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

人工智能界一直在追求被称为通用人工智能(AGI)的算法,这些算法适用于任何类型的现实世界问题。

ea00a2ec1ee540c6fc329dcd770f8fff.gif

01

总  述

最近,由大型语言模型(LLM)提供支持的聊天系统出现了,并迅速成为在自然语言处理(NLP)中实现AGI的一个有前途的方向,但在计算机视觉(CV)中实现AGI的道路仍不清楚。人们可能会将这种困境归因于视觉信号比语言信号更复杂,但我们有兴趣找到具体的原因,并从GPT和LLM中吸取经验来解决这个问题。

5ccc5cffc45ce8ee3b8ea8062e677210.png

在今天分享中,从AGI的概念定义开始,简要回顾了NLP如何通过聊天系统解决广泛的任务。该分析启发我们,统一是CV的下一个重要目标。但是,尽管在这个方向上做出了各种努力,CV仍然远远不是一个像GPT这样自然集成所有任务的系统。我们指出,CV的本质弱点在于缺乏从环境中学习的范式,而NLP已经完成了文本世界中的任务。然后,我们想象一个管道,将CV算法放在世界范围的可交互环境中,对其进行预训练,以预测其动作的未来帧,然后用指令对其进行微调,以完成各种任务。我们希望通过大量的研究和工程努力来推动这一想法并扩大其规模,为此我们分享了我们对未来研究方向的看法。

592e0441d8f70a506e487e8642bed404.gif

02

背景

世界正在见证一场迈向通用人工智能(AGI)的史诗之旅,我们按照惯例将AGI定义为一种可以复制人类或其他动物所能完成的任何智力任务的计算机算法。具体来说,在自然语言处理(NLP)中,计算机算法已经发展到可以通过与人类聊天解决广泛任务的程度。一些研究人员认为,这些系统可以被视为AGI的早期火花。这些系统大多建立在大型语言模型(LLM)之上,并通过指令调优进行了增强。它们配备了外部知识库和专门设计的模块,可以完成解决数学问题、生成可视化内容等复杂任务,体现了其理解用户意图和执行初步思想链的强大能力。尽管在某些方面存在已知的弱点(例如,讲述科学事实和被点名的人之间的关系),但这些开创性的研究已经显示出一种明显的趋势,即将NLP中的大多数任务统一为一个系统,这反映了对AGI的追求。

2e027b4231eb59716892ca19957c49cb.jpeg

与NLP中统一的快速进展相比,计算机视觉社区还远远不是统一所有任务的目标。常规的CV任务,如视觉识别、跟踪、生成等,大多使用不同的网络架构/或专门设计的通道进行处理。研究人员期待着像GPT这样的系统,它可以通过统一的提示机制处理广泛的CV任务,但在实现单个任务的良好实践和在广泛的任务中推广之间存在权衡。例如,为了报告目标检测和语义分割中的高识别精度,最好的策略是在用于图像分类的强大主干上设计特定的头部模块,并且这种设计通常不会转移到其他问题。

因此,出现了两个问题:(1)为什么CV的统一如此困难?(2) 为了实现这一目标,可以从GPT和LLM中学到什么?

为了回答这些问题,重新审视GPT,并将其理解为在文本世界中建立一个环境,并允许算法从交互中学习。CV研究缺乏这样的环境。因此,算法无法模拟世界,因此它们对世界进行采样,并学会在所谓的代理任务中获得良好的性能。在经历了史诗般的十年深度学习之后,代理任务不再有意义地表明CV算法的能力;越来越明显的是,继续追求对它们的高精度可以使我们远离AGI。

539fb1a6d4052ce31c359256ebad1de7.gif

03

总  述

简而言之,AGI就是学习一个广义函数a=π(s)。尽管形式很简单,但老式的人工智能算法很难使用相同的方法、算法甚至模型来处理所有这些问题。在过去的十年里,深度学习提供了一种有效而统一的方法:人们可以训练深度神经网络来近似函数a=π(s),而不知道它们之间的实际关系。强大的神经网络架构(如transformer)的出现甚至使研究人员能够为不同的数据模式训练一个模型。

实现AGI存在巨大困难,包括但不限于以下问题。

  • 数据的复杂性。真实世界的数据是多方面和丰富的。一些数据模态(例如,图像)可能具有相当高的维度,并且不同模态之间的关系可能是复杂和潜在的。

  • 人类智力的复杂性。AGI的目标不仅是解决问题,还包括计划、推理、对不同事件的反应等。有时,人类行为和目标之间的关系是模糊的,很难用数学形式表示。

  • 缺乏神经或认知理论。人类还不了解人类的智慧是如何实现的。目前,计算机算法提供了一种途径,但随着神经病学和/或认知学的未来研究,可能会出现更多的可能性。

84c7be05743a3821e3a395e760b43198.gif

04

GPT

NLP中AGI的火花

在过去的一年里,ChatGPT3、GPT-4和其他人工智能聊天机器人,如Vicuna4,在AGI方面取得了重大进展。它们是为自然语言处理(NLP)开发的计算机算法。通过与人类的聊天程序,他们可以理解人类的意图,并完成广泛的任务,只要这些任务能够以纯文本呈现。特别是,GPT-4在通用问题解决方面有很强的能力,被认为是NLP领域AGI的早期火花。

06baa93fcea89a56d527ab14762f30f9.png

尽管GPT-4尚未向公众开放视觉界面,但官方技术报告展示了几个关于多模式对话的奇特例子,即基于输入图像的聊天作为参考。这意味着GPT-4已经具备了将语言特征与视觉特征相结合的能力,因此它可以执行基本的视觉理解任务。正如我们稍后将看到的,视觉社区已经为相同的目的开发了几种替代品,关键在于使用ChatGPT或GPT-4来生成(指导)训练数据。此外,通过简单的提示,GPT-4还能够调用用于图像生成的外部软件(例如,Midtravel,如下图所示)和用于解决计算机视觉中复杂问题的外部库(例如,HuggingFace库)。

d93e944be67441f6d180c5202c398992.png

这些人工智能聊天机器人是分两个阶段进行训练的。在第一阶段,使用自监督学习在大型文本数据库上预训练大型语言模型(LLM),其中大部分基于transformer架构。在第二阶段,预先训练的LLM由人工指令监督,以完成特定任务。如有必要,收集人类反馈并进行强化学习,以微调LLM,使其具有更好的性能和更高的数据效率。CV:AGI的下一个战场

d2839174487acc8b5f1330755a6e7805.gif

05

AGI下一个战场

CV:AGI的下一个战场

人类基于多种数据模态感知世界。众所周知,我们所学的大约85%是通过我们的视觉系统完成的。因此,鉴于NLP社区已经显示出AGI的前景,自然会将计算机视觉(CV)或多模态(至少包括视觉和语言领域)视为AGI的下一个战场。

在此提供两项补充意见,以补充上述声明。首先,很明显,CV是NLP的超集,因为人类阅读文章首先识别捕获图像中的字符,然后理解内容。换句话说,CV中的AGI(或多模态)应涵盖NLP中AGI的所有能力。其次,我认为,在许多情况下,仅靠语言是不够的。例如,当人们试图找到关于未知物体(例如,动物、时尚等)的详细信息时,最好的方法是捕捉图像并将其用于在线搜索;单纯依赖文本描述可能会带来不确定性和不准确性。另一种情况是,正如我前面提及那样,在场景中引用细粒度语义(用于识别或图像编辑)并不总是容易的,而且以视觉友好的方式思考更有效,例如,使用点或框来定位目标,而不是说“穿着黑色夹克、站在黄色汽车前的人,和另一个人说话。”

理想与现实

希望有一种CV算法,可以通过与环境交互来解决一般任务。注意,该要求不限于识别所有内容或基于图像或视频剪辑执行对话。它应该是一个整体系统,从人类那里接收通用命令并产生期望的结果。但是,CV的现状还很初步。如下图所示,CV一直在为不同的视觉任务使用不同的模块甚至系统。

bc7c1761f558e3d8378cb573287c7311.png

统一是趋势

下面,我将最近关于CV统一的研究主题总结为五类。

  • Open-world Visual Recognition

a4de16d645887feae314daa8db407323.png

在很长一段时间内,大多数CV算法只能识别训练数据中出现的概念,导致视觉概念的“封闭世界”。相反,“开放世界”的概念是指CV算法能够识别或理解任何概念的能力,无论它以前是否出现过。开放世界能力通常是由自然语言引入的,因为它是人类理解新概念的自然方式。这就解释了为什么图像字幕和视觉问答等与语言相关的任务促成了最早的视觉识别开放世界设置。

  • The Segment Anything Task

0a8676e9c67f009b89f709f72822605d.png

Segment Anything任务是最近引入的一个通用模块,用于将原始图像像素聚类成组,其中许多像素对应于图像中的基本视觉单元。所提出的任务支持多种类型的提示,包括点、轮廓、文本等,并为每个提示或每个提示组合生成一些掩码和分数。在拥有约1000万张图像的大规模数据集上进行训练后,衍生模型SAM能够转移到广泛的分割任务中,包括医学图像分析、伪装对象分割、3D对象分割、对象跟踪,以及图像修复等应用场景。SAM还可以与最先进的视觉识别算法一起使用,例如将视觉基础算法产生的边界框细化为掩码,并将分割单元输入用于图像标记的开集分类算法。

  • Generalized Visual Encoding

86bea45926bdcbc9f2ffb6038fd22c7b.png

统一CV任务的另一种方法是为它们提供通用的视觉编码。有几种方法可以实现这一目标。一个关键的困难在于视觉任务之间的巨大差异,例如,目标检测需要一组边界框,而语义分割需要对整个图像进行密集预测,这两者都与图像分类所需的单个标签非常不同。正如所有人都能理解的那样,自然语言提供了一种统一的形式来表示一切。一项名为pix2seq的早期研究表明,物体检测结果(即边界框)可以公式化为自然语言和坐标,然后转换为标记作为视觉模型的输出。在后来的版本pix2seq-v2中,他们对表示进行了概括,以目标检测、实例分割、关键点检测和图像字幕的输出。类似的想法也用于其他图像识别、视频识别和多模态理解任务。

  • LLM-guided Visual Understanding

b9ab5766d7f182b25d343daa96e3e1da.png

视觉识别可能很复杂,尤其是当它涉及组成概念和/或视觉实例之间的关系时。端到端模型(用于视觉问答的视觉语言预训练模型)很难按照人类容易理解的程序产生答案。为了缓解这个问题,一种实用的方法是生成可解释的逻辑来帮助视觉识别。这个想法并不新鲜。几年前,在transformer架构出现之前,研究人员提出使用长短期记忆(LSTM)模型来生成程序,以便调用视觉模块作为复杂问题回答的模块。当时,LSTM的能力在很大程度上将这个想法限制在相对简单和模板化的问题范围内。

最近,大型语言模型(尤其是GPT系列)的出现使任意问题的转换成为可能。具体来说,GPT可以以不同的方式与人类相互作用。例如,它可以将基本识别结果总结为最终答案,或者生成代码或自然语言脚本来调用基本视觉模块。因此,视觉问题可以分解为基本模块。这对于逻辑问题尤其有效,例如询问对象之间的空间关系或取决于对象数量的问题。

  • Multimodal Dialog

多模式对话框将基于文本的对话框扩展到视觉领域。早期的工作涉及视觉问答,其中构建了具有简单问题的各种数据集。随着LLM的快速发展,通过将预先训练的视觉和语言模型一起微调,可以实现多轮问答。研究还表明,可以通过多模态的上下文学习或使用GPT作为逻辑控制器来回答广泛的问题。

c08e571fd378afd63cb47874e57ad11a.png

最近,GPT系列中开发的一种新范式,命名为指导学习,被继承来提高多模式对话的质量。其想法是从GT实况注释或识别结果中提供一些参考数据(例如,目标、描述),并要求GPT模型生成指令数据(即丰富的问答对)。通过对这些数据进行微调(无需参考),视觉和语言的基础模型可以通过轻量级网络模块(例如Q-former)相互交互。多模式对话为计算机视觉提供了一个初步的交互基准,但作为一项语言指导任务,它也有开放世界视觉识别中分析的弱点。我们希望丰富查询形式(例如,使用通用视觉编码方法)可以将多模式对话推向更高的水平。

c2ed38412b5647ab5e62365654b2a896.gif

06

未来

从环境中学习

An Imaginary Pipeline

887046ed561f25e594c9a28da94be489.png

上图显示了我们的想法。该管道包括三个阶段:第0阶段用于建立环境,第1阶段用于预训练,第2阶段用于微调。必要时,可以提示微调后的模型执行传统的视觉识别任务。

Comments on Research Directions

最后,对未来的研究方向进行了展望。随着主要目标从代理任务的性能转移到从环境中学习,许多流行的研究方向可能不得不调整其目标。这里有一个免责声明:以下所有声明都是我们的个人意见,可能是错误的。

论营造环境

一个明确的目标是继续增加虚拟环境的规模、多样性和保真度。有多种技术可以提供帮助。例如,新的3D表示形式(例如,neural rendering field, NeRF)在实现重建质量和开销之间的折衷方面可能更有效。另一个重要的方向是丰富的环境。定义新的、复杂的任务并将它们统一为一个提示系统是一项不平凡的任务。此外,人工智能算法可以从更好地模拟其他代理的行为中受益匪浅,因为它可以在很大程度上提高环境的丰富性,从而提高训练算法的稳健性。

论生成性预训练

主要有两个因素影响预训练阶段,即神经架构设计和代理任务设计。后者显然更为重要,前者应建立在后者的基础上。应修改现有的预训练任务,包括对比学习和掩蔽图像建模,以便在虚拟环境中进行有效探索。我们希望新设计的代理专注于数据压缩,因为视觉数据中的冗余比语言数据中的要重得多。新的预训练代理定义了神经架构的要求,例如,为了实现数据压缩和视觉识别之间的折衷,设计的架构应该具备根据请求提取不同级别(粒度)视觉特征的能力。此外,跨模态(例如,文本到图像)生成将成为衡量预训练性能的直接指标。当统一的标记化方法可用时,可以将其公式化为重建损失的多模式版本。

论指导微调

我们还没有进入新范式中定义任务的范围。由于现实世界中的任务可能非常复杂,我们推测可以首先定义和训练一些基本任务,以便将复杂的任务分解为它们。为此,应该设计一个统一的提示系统,并收集丰富的人工指令。作为一个合理的推测,指令数据的数量可能比为训练GPT和其他聊天机器人而收集的数据大几个数量级。这对CV来说是一个全新的故事。未来的道路充满了未知的困难和不确定性。目前我们看不到太多,但未来会出现清晰的道路。

© THE END 

转载请联系本公众号获得授权

75ee815a22cbd14eb8213a0b5e986d3f.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

2e04748179eeb140bcb932eb776eff7d.png

往期回顾

01

|ICLR 2023 | RevCol:大模型架构设计新范式

02

|清华大学提出LiVT,解决不平衡标注数据

03

|AI大模型落地不远了

04

|华为诺亚极简网络,靠13层就拿下83%精度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/709114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递(6月 29 日论文合集)

文章目录 一、分类|识别相关(12篇)1.1 Pseudo-Bag Mixup Augmentation for Multiple Instance Learning Based Whole Slide Image Classification1.2 Improving Primate Sounds Classification using Binary Presorting for Deep Learning1.3 Challenges of Zero-Shot Recognit…

万物分割SAM家族 越发壮大!HQ-SAM、FastSAM 和 FasterSAM(MobileSAM)

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。 1、(更高质量)Segment Anything in High Quality 最近的 Segment Anything Model (SAM) 代表了分割模型的一大飞跃,有强大的零…

从零实现深度学习框架——Seq2Seq机器翻译实战

引言 本着“凡我不能创造的,我就不能理解”的思想,本系列文章会基于纯Python以及NumPy从零创建自己的深度学习框架,该框架类似PyTorch能实现自动求导。 💡系列文章完整目录: 👉点此👈 要深入理解…

【你哥电力电子】 THE BUCK-BOOST 升降压斩波电路2

BUCK-BOOST电路2 2023年1月30日 nige in Tongji University #elecEngeneer 上链 文章目录 BUCK-BOOST电路26. CCM非理想能量守恒平均分析6.1 CCM非理想大信号平均模型6.2 CCM等效大信号平均模型6.3 CCM的DC电路模型6.4 CCM的小信号线性电路模型6.5 CCM非理想小信号传递函数6.…

【SaaS】多租户系统设计

文章目录 多租户系统设计一、SaaS 的系统分级二、应用程序必须支持多租户三、数据隔离方案3.1、独立应用独立库3.2、同一个应用程序,每个租户一个库3.3、同一个应用程序,同一个数据库3.4、分片多租户 四、我们的模型选择4.1、开发实践4.2、元数据/配置驱…

vue路由传参+案例(使用mock模拟后端数据)

路由传参 跳转路由时,可以给路由对应的组件内传参 声明式导航 /path?参数名值 /path/值 —需要路由对象提前配置 path: ‘/path/:参数名’ 对应的页面组件接收传递过来的值 $route.query.参数名 $route.params.参数名 router/index.js import Vue from vue // 1. …

解析matlab的audioread()输入输出参数

目录 一、API简介 二、实验 1. matlab 2. C语言 一、API简介 链接如下: 读取音频文件 - MATLAB audioread- MathWorks 中国 也可以浏览最新的英文版API说明: 简单说明如下: 1. 读取wav格式的文件,会自动跳过44个字节的文件…

初识React/JSX/组件/state/受控组件

JSX 推荐使用小括号包裹jsx 使用函数创建组件 使用类创建组件 抽离组件 事件绑定 事件对象 有状态和无状态组件/state 抽离事件处理程序 表单元素 受控组件 多表单优化 非受控组件(了解即可)

vhost-net-原理-初始化流程-数据传输流程-vhost-net后端

文章目录 1.vhost net2.vhost-net的初始化流程vhost net设置vhost dev设置vhost vring设置 3.数据收发流程分析3.1 数据发送3.2 数据接收 4ioventfd和irqfd的通知机制4.1ioeventfdqemu侧kvm侧总体效果 4.2irqfdqemu侧kvm侧总体效果 参考: 1.vhost net 传统的virtio…

ChatGPT Plugins内幕、源码及案例实战(一)

ChatGPT Plugins内幕、源码及案例实战 6.1 ChatGPT Plugins的工作原理 本节主要跟大家谈ChatGPT的插件(Plugins),这个内容非常重要。现在很多企业级的开发,一般都会基于ChatGPT 插件进行一些服务的封装,相当于开发了一个代理(Agent),把一些服务或者API封装在里面,然后…

eclipse编辑器汉化;eclipse安装中文插件

eclipse IDE默认是英文环境,使用起来略微不便,汉化还是很有必要的;下面记录一下安装中文插件的过程: 文章目录 一、 选择安装包地址二、 在eclipse安装中文插件2.1 在线安装2.2 手动下载安装包2.3 导入到eclipse 三、汉化插件介绍 一、 选择安…

实例005 可以拉伸的菜单界面

实例说明 如果管理程序功能菜单非常多,而用户只使用一些常用菜单,这时,可以将主菜单项下的不常用菜单隐藏起来。此种显示方式类似于对菜单进行拉伸。使用时,只需单击展开菜单,即可显示相应菜单功能。运行本例&#xf…

python matplotlib中colorbar的位置设置

colorbar单独设置一个轴对象,再对轴对象进行灵活设置 import numpy as np import matplotlib.pyplot as plt# 创建一个二维随机数组 data np.random.rand(10, 10)# 创建一个图形和一个子图 fig, ax plt.subplots()# 绘制热力图 heatmap ax.imshow(data, cmaphot…

在linux中快速安装Redis数据库

Redis中文网 点击该链接下载最5.0.4版本的Redis的压缩包 使用Xftp工具将Redis安装包上传到linux中 1.将压缩包解压到/opt目录下: tar -zxvf redis-5.0.4.tar.gz 2. 更新yun: sudo yum makecache fast 3.安装gcc: yum -y install gcc 4.安装完成通过输入 : gcc -v …

tiny tool - get_file_path_name_by_drop_file

文章目录 tiny tool - get_file_path_name_by_drop_file概述工程效果收获的知识点vs2022工程, 必须自己设置对话框可以接受文件的风格vs2022建立的工程, 默认是unicode编码, 设置剪贴板数据时, 必须要设置为unicode的格式, 否则剪切板中只有第一个字符工程主要实现END tiny too…

短信压力测试系统,支持自定义接口

短信压力测试系统,支持自定义接口 支持卡密充值,短信压力测试系统,解决一切骚扰电话,教程在压缩包里面 可多个服务器挂脚本分担压力,套了cdn导致无法正常执行脚本可以尝试添加白名单 这边建议使用MySQL方式 同服务器下直接配置…

MySQL生产环境高可用架构实战

分布式技术MongoDB 1. MySQL高可用集群介绍1.1 数据库主从架构与分库分表1.2 MySQL主从同步原理 2. 动手搭建MySQL主从集群2.1 基础环境搭建2.2 安装MySQL服务2.2.1 初始化MySQL2.2.2 启动mysql2.2.3 连接MySQL 2.3 搭建主从集群2.3.1 配置master主服务2.3.2 配置slave从服务主…

Radzen Blazor Studio 1.12 Crack

Radzen Blazor Studio 是一款桌面工具,使 开发人员 能够创建精美的商业 Blazor 应用程序。快速地。 开放技术栈 没有供应商锁定。生成的源代码是人类可读的,您可以使用免费工具构建它。 Radzen 由流行的开源技术 - ASP.NET Core、Blazor、Bootstrap 提供…

较少的分区也报错too many range table entries

问题现象 postgresql中update执行语句报错too many range table entries 源sql with t as (select id from LZLTAB where id8723 limit 100 ) update LZLTAB setSTATUS 00,FILE_ID null,DATE_UPDATED localtimestamp(0) where id in (select id from t)如果把update改写成…

碳排放预测模型 | Python实现基于机器学习的碳排放预测模型——数据清理和可视化

文章目录 效果一览文章概述研究内容源码设计参考资料效果一览 文章概述 碳排放预测模型 | Python实现基于机器学习的碳排放预测模型——数据清理和可视化 研究内容 碳排放被认为是全球变暖的最主要原因之一。 该项目旨在提供各国碳排放未来趋势的概述以及未来十年的全球趋势预测…